Telegram Group & Telegram Channel
Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/DataSciencegx/200
Create:
Last Update:

Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉 @DataSciencegx

BY Data Portal | Data Science & Машиннное обучение




Share with your friend now:
group-telegram.com/DataSciencegx/200

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Founder Pavel Durov says tech is meant to set you free
from ua


Telegram Data Portal | Data Science & Машиннное обучение
FROM American