Telegram Group & Telegram Channel
Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/DataSciencegx/200
Create:
Last Update:

Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉 @DataSciencegx

BY Data Portal | Data Science & Машиннное обучение




Share with your friend now:
group-telegram.com/DataSciencegx/200

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from kr


Telegram Data Portal | Data Science & Машиннное обучение
FROM American