LLM Data Extraction markup and analysis: анализ канала Data Secrets через локальный qwen2.5-32b-instruct+SO

LLM Data Extraction markup and analysis: анализ канала Data Secrets через локальный qwen2.5-32b-instruct+SO

Самые полезный паттерн для использования LLM на мой взгляд

Решил я помучать свои карточки на 96GB VRAM и вернуться к одному из решений, которое обозревал вот тут на стриме
А именно собрать еще раз все сообщения из канала Data Secrets и получить информацию о структуре контента но уже взять весь свой опыт работы с Structured Output и промптами векторизацией и вот что вышло

Модель: Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) на 2x RTX 4090 (48GB)

Объем данных: 3,240 сообщений из Telegram канала после очистки и группировки медиа
Задача: Классификация и извлечение метаданных

Что вышло статистически

Категории контента:
- Industry News (33%) - новости индустрии лидируют
- Tools & Frameworks (17%) - обзоры инструментов
- Research Papers (8%) - научные публикации
- Community Discussion (8%) - обсуждения

Сложность материала:
- Intermediate (60%) - основная аудитория
- Beginner (23%) - начальный уровень
- Advanced (17%) - продвинутый контент

🏷 Топ тегов: OpenAI, AI, LLM, neural_networks, machine_learning

После разметки я векторизировал все сообщения и получил вот такую красоту в qdrant по распределению!

На видео по сути вся жизнь канала Data Secret классифицированная через LLM векторизированная и представлена в визуалцизации по методу UMAP

кстати за вектора решил не экспериментировать и взял
text-embedding-3-large

На визуализации отлично видно:
- Кластеризацию по типам контента (цветовые группы)
- Плотность в области ML/AI тематики
- Четкое разделение между техническими и новостными материалами

Дальше выводы от той же LLM

1. News-контент доминирует - канал активно освещает новости
2. Инструменты и фреймворки - второй по популярности тип контента
3. Intermediate-уровень - золотая середина для аудитории
4. Векторное пространство показывает логичную кластеризацию тем

Технические детали:
- Время обработки: ~2 часа на полный пайплайн
- Точность классификации: проверил вручную на sample'е - 90%+
- Embedding модель: использовал для векторизации после разметки

На мой взгляд Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) показал отличные результаты в структурированной классификации.
Особенно порадовала стабильность JSON-вывода и понимание контекста на русском языке

Планирую на ночь поставить временной анализ трендов и sentiment analysis для полной картины эволюции канала

Вишенкой через курсор по заготовкам накидал сайт (чистый векторный поиск + граф)

https://rag-channel.neuraldeep.tech/

html + скрины в комментариях

www.group-telegram.com/us/neuraldeep.com/1514

4.8K viewsedited Jul 3 at 07:58

group-telegram.com/neuraldeep/1514

Create: 2025-07-03
Last Update: 2025-07-07 22:32:17

BY Neural Deep

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/neuraldeep/1514

Telegram | DID YOU KNOW?

LLM Data Extraction markup and analysis: анализ канала Data Secrets через локальный qwen2.5-32b-instruct+SO