🔥 Очередной релиз от Alibaba — новая мультимодальная модель Ovis‑U1‑3B.
🧠 Поддерживает:
• Понимание изображений (Image-to-Text )
• Генерация картинок по описанию (Text-to-Image)
• Интерактивное редактирование изображений (Inpainting по тексту)
⚙️ Размер: всего 3B параметров
📊 Производительность:
• 69.6 баллов в OpenCompass (выше, чем у Qwen 2.5 и Ovis-2)
• GenEval Accuracy: 0.89 — превосходит GPT-4o
• ImgEdit-Bench: почти на уровне GPT-4o (4.0 vs 4.2)
💡 Под капотом:
• Архитектура Ovis (Open Vision System)
• Поддержка генерации 1024×1024 с CFG
Хорошая маленькая, но мощная моделька, выйдает достойные генерации на демке.
🟠 Попробовать: https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B
🟠 Модель: https://huggingface.co/AIDC-AI/Ovis-U1-3B
@ai_machinelearning_big_data
#Alibaba #opensource
🧠 Поддерживает:
• Понимание изображений (Image-to-Text )
• Генерация картинок по описанию (Text-to-Image)
• Интерактивное редактирование изображений (Inpainting по тексту)
⚙️ Размер: всего 3B параметров
📊 Производительность:
• 69.6 баллов в OpenCompass (выше, чем у Qwen 2.5 и Ovis-2)
• GenEval Accuracy: 0.89 — превосходит GPT-4o
• ImgEdit-Bench: почти на уровне GPT-4o (4.0 vs 4.2)
💡 Под капотом:
• Архитектура Ovis (Open Vision System)
• Поддержка генерации 1024×1024 с CFG
Хорошая маленькая, но мощная моделька, выйдает достойные генерации на демке.
@ai_machinelearning_big_data
#Alibaba #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
База про архитектурные особенности современных LLM
📝 Кто такие эти ваши LLM?
По сути, LLM — это всего лишь крупный (с большим количеством параметров) transformer decoder, который был дообучен на инструкционном датасете.
✨Ребята из финтеха Точка хорошо разобрали архитектурные особенности современных LLM в своём канале. Если кратко, вот конспект:
• Rotary Positional Encoding (RoPE) — помогает работать с длинным контекстом без потери качества.
• RMSNorm вместо LayerNorm — быстрее и проще в вычислении.
• Sliding Window, Grouped-Query или Multi-Query Attention — ускоряют работу за счёт меньшего количества параметров.
• Модель может использовать Mixture-of-Experts — увеличивая параметры без роста сложности вычислений.
Если подробнее, читайте их пост ниже или по ссылке:
Читать весь пост
А чтобы полностью разобраться в архитектуре LLM и тонкостях её обучения, подписывайтесь на канал .ml. Часть особенностей уже разобрали в постах, а часть — ещё на подходе.
Реклама «АО Точка», tochka.com, 18+, erid=2VtzquX2Y9U
📝 Кто такие эти ваши LLM?
По сути, LLM — это всего лишь крупный (с большим количеством параметров) transformer decoder, который был дообучен на инструкционном датасете.
✨Ребята из финтеха Точка хорошо разобрали архитектурные особенности современных LLM в своём канале. Если кратко, вот конспект:
• Rotary Positional Encoding (RoPE) — помогает работать с длинным контекстом без потери качества.
• RMSNorm вместо LayerNorm — быстрее и проще в вычислении.
• Sliding Window, Grouped-Query или Multi-Query Attention — ускоряют работу за счёт меньшего количества параметров.
• Модель может использовать Mixture-of-Experts — увеличивая параметры без роста сложности вычислений.
Если подробнее, читайте их пост ниже или по ссылке:
Читать весь пост
А чтобы полностью разобраться в архитектуре LLM и тонкостях её обучения, подписывайтесь на канал .ml. Часть особенностей уже разобрали в постах, а часть — ещё на подходе.
Реклама «АО Точка», tochka.com, 18+, erid=2VtzquX2Y9U
Forwarded from .ml
Архитектура LLM
Что вообще такое эти ваши LLM и чем они отличаются от привычных трансформеров? Давайте разбираться.
Если пытаться дать определение, то LLM — это большая языковая модель, которая была обучена генерировать ответ на какую-либо инструкцию.
Тут два ключевых момента, не считая размер модели: то, что модель генеративная, и то, что она умеет принимать на вход какие-либо инструкции.
📝 Разбираемся с генеративностью
Какая часть трансформера умеет в генерацию текста? Правильно, декодер. Собственно, LLM — это просто жирный (с большим количеством параметров) transformer decoder.Или encoder-decoder, но это только у старых моделей, типа T5. Новые GPT-like архитектуры от энкодеров отошли.
Способность же принимать на вход инструкцию обусловлена пайплайном обучения модели, включая специфичные инструкционные данные, а не какими-либо архитектурными модификациями.
Особенность этого пайлайна — после этапа pre-train модели проводят этап alignment, дообучая модель на инструкционных датасетах. В таких датасете каждый сэмпл — это диалог человека с LLM, который может включать в себя системный промпт (как раз-таки инструкцию), сообщения от лица человека и сообщения от лица LLM, зачастую промаркированные на предмет «хорошести» ответа. Сейчас самые популярные инструкционные датасеты — это Nectar и UltraFeedback.
Итого, LLM — это просто здоровенный transformer decoder, дообученный на инструкционном датасете.
Если углубляться в детали, то популярными архитектурными особенностями современных LLM являются:
- Rotary Positional Encoding (RoPE) и его модификации в качестве позиционного кодирования — вот наш пост про это.
Почему? Помогает работать с более длинным контекстом без значимой потери качества.
- RMSNorm вместо LayerNorm для нормализации.
Почему? Работает сопоставимо по качеству, но проще (быстрее) вычислять — а скорость нам важна.
- Sliding Window, Grouped-Query или Multi-Query вместо ванильного Multi-Head Attention:
Почему? Чем меньше параметров, тем быстрее вычислять.
- Может использоваться Mixture-of-Experts, но это скорее частные случаи.
Почему? Увеличиваем количество параметров модели, не увеличивая при этом сложность вычислений (хоть и страдаем по памяти).
P.S.: если вы увидели много незнакомых слов — не переживайте, в следующих постах расскажем про то, как именно работают все эти навороты.
Эти же архитектурный особенности характерны и для негенеративных современных моделек: например, для энкодеров. Так что нельзя сказать, что это что-то LLM-специфичное — скорее архитектурная база любых современных трансформеров.
Что вообще такое эти ваши LLM и чем они отличаются от привычных трансформеров? Давайте разбираться.
Если пытаться дать определение, то LLM — это большая языковая модель, которая была обучена генерировать ответ на какую-либо инструкцию.
Тут два ключевых момента, не считая размер модели: то, что модель генеративная, и то, что она умеет принимать на вход какие-либо инструкции.
📝 Разбираемся с генеративностью
Какая часть трансформера умеет в генерацию текста? Правильно, декодер. Собственно, LLM — это просто жирный (с большим количеством параметров) transformer decoder.
Способность же принимать на вход инструкцию обусловлена пайплайном обучения модели, включая специфичные инструкционные данные, а не какими-либо архитектурными модификациями.
Особенность этого пайлайна — после этапа pre-train модели проводят этап alignment, дообучая модель на инструкционных датасетах. В таких датасете каждый сэмпл — это диалог человека с LLM, который может включать в себя системный промпт (как раз-таки инструкцию), сообщения от лица человека и сообщения от лица LLM, зачастую промаркированные на предмет «хорошести» ответа. Сейчас самые популярные инструкционные датасеты — это Nectar и UltraFeedback.
Итого, LLM — это просто здоровенный transformer decoder, дообученный на инструкционном датасете.
Если углубляться в детали, то популярными архитектурными особенностями современных LLM являются:
- Rotary Positional Encoding (RoPE) и его модификации в качестве позиционного кодирования — вот наш пост про это.
Почему? Помогает работать с более длинным контекстом без значимой потери качества.
- RMSNorm вместо LayerNorm для нормализации.
Почему? Работает сопоставимо по качеству, но проще (быстрее) вычислять — а скорость нам важна.
- Sliding Window, Grouped-Query или Multi-Query вместо ванильного Multi-Head Attention:
Почему? Чем меньше параметров, тем быстрее вычислять.
- Может использоваться Mixture-of-Experts, но это скорее частные случаи.
Почему? Увеличиваем количество параметров модели, не увеличивая при этом сложность вычислений (хоть и страдаем по памяти).
Эти же архитектурный особенности характерны и для негенеративных современных моделек: например, для энкодеров. Так что нельзя сказать, что это что-то LLM-специфичное — скорее архитектурная база любых современных трансформеров.
Self-Hosted AI Package - это готовый шаблон на основе Docker Compose, который позволяет быстро развернуть полнофункциональную локальную среду с использованием ИИ и low-code инструментов.
Основная цель проекта: предложить разработчикам удобный и быстрый способ для начала работы с локальными ИИ-системами.
Проект активно развивается, авторы даже запустили публичную Kanban-доску, где отслеживаются внедрение новых функций и исправление ошибок.
⚠️ Перед запуском служб необходимо настроить переменные окружения для Supabase, следуя их руководству.
⚠️ Основным компонентом набора является файл docker compose, предварительно сконфигурированный с сетью и диском, поэтому больше ничего устанавливать не нужно. После установки нужно будет выполнить действия из Quick start and usage, чтобы начать работу.
# Clone repo
git clone -b stable https://github.com/coleam00/local-ai-packaged.git
cd local-ai-packaged
# For Nvidia GPU
python start_services.py --profile gpu-nvidia
# For AMD GPU users on Linux
python start_services.py --profile gpu-amd
# For Mac Run fully on CPU
python start_services.py --profile cpu
#For everyone else
python start_services.py --profile cpu
@ai_machinelearning_big_data
#AI #ML #Agents #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Qwen обновила свой синтезатор речи Qwen-TTS, его обучали на миллионах часов аудиозаписей. Новая версия адаптирует интонацию, ритм и эмоции под контекст текста и приближает звучание к человеческому. Добавили 3 китайских диалекта и поддержку 7 двуязычных голосов (Cherry, Ethan, Jada и др.).
Тесты в SeedTTS-Eval показали высокую точность (WER 1.209) и естественность (SIM 1.967). Модель доступна только через API. В будущем обещают новые языки и стили речи.
qwenlm.github.io
Совместное исследование ERGO Innovation Lab и ECODYNAMICS показало, что ИИ-системы не просто выдают популярные ссылки, они анализируют структуру, читаемость и ясность контента. Это ставит под сомнение традиционные методы SEO в для традиционных сайтов.
Аналитики изучили 33 тыс. запросов и 600 сайтов из области услуг страхования. Результат: LLM оценивают не только ключевые слова, но и логичность подачи информации, удобство навигации и глубину раскрытия темы.
Специалисты советуют пересмотреть стратегии: упростить тексты, структурировать данные и адаптировать контент под агентные системы. Чем раньше компании пересмотрят свои SEO-стратегии, тем выше вероятность оставаться на виду, когда алгоритмы станут сложнее. Полную версию отчета можно почитать по ссылке.
ergo.com
Конкуренция за лучших специалистов в сфере ИИ достигла критической точки. После того как компания Цукерберга переманила 4 ключевых сотрудников OpenAI для работы над «суперинтеллектом», глава исследований Марк Чэн призвал команду Сэма Альтмана оставаться верной компании, пообещав пересмотреть зарплаты и улучшить условия.
По данным источников, Цукерберг предлагает бонусы до $100 млн и лично контактирует с потенциальными кандидатами. Внутри OpenAI сотрудники жалуются на перегрузки, многие работают по 80 часов в неделю. В ответ на агрессивный хэдхантинг, Open AI объявила о «перезагрузке» на неделю, при этом напомнив, что из главная цель - развитие ИИ, а не соревнование с конкурентами.
wired.com
Microsoft разработала ИИ-инструмент MAI-DxO, который в 4 раза эффективнее опытных врачей в решении сложных диагностических задач. Система использует «оркестратор», создавая сеть из 5 ИИ-агентов, выполняющих роли от генератора гипотез до выбора тестов, которые взаимодействуют и «спорят» для принятия решений.
Тестирование на 304 сложных клинических случаях из NEJM показало точность 85,5% при использовании OpenAI o3 — против 20% у людей без доступа к справочникам или коллегам. Технология может быть интегрирована в Copilot и Bing, которые суммарно обрабатывают около 50 млн. медицинских запросов ежедневно.
ft.com
В минувшую субботу, в Пекине прошел первый в Китае турнир по футболу полностью автономных роботов-гуманоидов. Команда университета Циньхуа победила в финале, обыграв соперников из сельскохозяйственного университета со счетом 5:3. Обе команды использовали одинаковое оборудование от Booster Robotics, но разрабатывали собственные алгоритмы для управления зрением, балансом и движениями.
Матч стал испытанием для технологий: роботы падали, теряли равновесие, а иногда их приходилось уносить на носилках - все это помогает тестировать системы управления и безопасности перед массовым внедрением. Организаторы назвали матч "трейлером" предстоящих Всемирных игр роботов в августе, где будут представлены 11 видов спорта.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Искусственный интеллект выходит в классифайды
AIRI — институт, который ведет и поддерживает фундаментальные и прикладные исследованиями в области искусственного интеллекта. Его ученые разработали защиту от дипфейков или систему для ускорение фармакологических расчетов.
Ежегодно организация поддерживает лучших студентов и молодых ученых со всей страны, собирает ведущих экспертов по искусственному интеллекту и проводит углубленный курс по прикладным дисциплинам в рамках Летней школы по ИИ.
В этом году участников Летней школы принимает Томский государственный университет. Она получила поддержку Авито — 80 участников из разных регионов России будут разбирать различные задачи, в том числе бизнес-кейс от крупнейшего классифайда. Авито рассмотрит внедрение лучшего решения на свою платформу.
Ранее компания уже говорила об обновленной стратегии, до 2028 года они планируют инвестировать до 12 млрд рублей во внедрение и развитие GenAI в свои продукты, а также подготовить до 3000 специалистов в области искусственного интеллекта.
Помимо кейсов и публичных лекций, компания предложит карьерные консультации для молодых специалистов и поможет упаковать свой опыт в востребованный на рынке формат, чем также поможет развитию базы кадров в области.
AIRI — институт, который ведет и поддерживает фундаментальные и прикладные исследованиями в области искусственного интеллекта. Его ученые разработали защиту от дипфейков или систему для ускорение фармакологических расчетов.
Ежегодно организация поддерживает лучших студентов и молодых ученых со всей страны, собирает ведущих экспертов по искусственному интеллекту и проводит углубленный курс по прикладным дисциплинам в рамках Летней школы по ИИ.
В этом году участников Летней школы принимает Томский государственный университет. Она получила поддержку Авито — 80 участников из разных регионов России будут разбирать различные задачи, в том числе бизнес-кейс от крупнейшего классифайда. Авито рассмотрит внедрение лучшего решения на свою платформу.
Ранее компания уже говорила об обновленной стратегии, до 2028 года они планируют инвестировать до 12 млрд рублей во внедрение и развитие GenAI в свои продукты, а также подготовить до 3000 специалистов в области искусственного интеллекта.
Помимо кейсов и публичных лекций, компания предложит карьерные консультации для молодых специалистов и поможет упаковать свой опыт в востребованный на рынке формат, чем также поможет развитию базы кадров в области.
🧬 Chai‑2: перспективный инструмент для дизайна антител с помощью ИИ
Несмотря на прогресс в проектировании белков, создать рабочие антитела с нуля до сих пор было почти невозможно.
Но новая модель Chai‑2 менянт правила игры.
Chai‑2 — это мультимодальная генеративная модель, которая впервые позволяет проектировать функциональные антитела de novo ( в биологии и биоинформатике означает создание чего-либо с полного нуля, без использования готовых шаблонов или существующих структур.) с высокой точностью.
📊 Результаты:
• 16% антител показали нужную биологическую активность при генерации с нуля — это в 100+ раз лучше, чем у предыдущих методов (аньше hit-rate был <0.1%)
• Создано ≤20 антител для 52 уникальных целей (это разные белки, молекулы или структуры, к которым ИИ должен был спроектировать подходящие антитела)
• Найдены активные антитела для 50% целей — всего за один цикл лабораторного тестирования
• Из 100 спроектированных минибелков 68 реально работали, как задумано, в лабораторных тестах.
🧪 ИИ придумывает молекулу → учёные её синтезируют → тестируют в лаборатории — и всё это занимает меньше двух недель. Раньше на такой цикл уходили месяцы или даже годы.
📦 Почему это важно:
• Такой метод ускоряет разработку антител и препаратов
• Убирает необходимость в дорогостоящем скрининге миллионов вариантов
• Даёт возможность атомарного дизайна молекул под конкретные мишени
📄 Полный отчет: chaiassets.com/chai-2/paper/technical_report.pdf
@ai_machinelearning_big_data
#ml #biotech #ai
Несмотря на прогресс в проектировании белков, создать рабочие антитела с нуля до сих пор было почти невозможно.
Но новая модель Chai‑2 менянт правила игры.
Chai‑2 — это мультимодальная генеративная модель, которая впервые позволяет проектировать функциональные антитела de novo ( в биологии и биоинформатике означает создание чего-либо с полного нуля, без использования готовых шаблонов или существующих структур.) с высокой точностью.
📊 Результаты:
• 16% антител показали нужную биологическую активность при генерации с нуля — это в 100+ раз лучше, чем у предыдущих методов (аньше hit-rate был <0.1%)
• Создано ≤20 антител для 52 уникальных целей (это разные белки, молекулы или структуры, к которым ИИ должен был спроектировать подходящие антитела)
• Найдены активные антитела для 50% целей — всего за один цикл лабораторного тестирования
• Из 100 спроектированных минибелков 68 реально работали, как задумано, в лабораторных тестах.
🧪 ИИ придумывает молекулу → учёные её синтезируют → тестируют в лаборатории — и всё это занимает меньше двух недель. Раньше на такой цикл уходили месяцы или даже годы.
📦 Почему это важно:
• Такой метод ускоряет разработку антител и препаратов
• Убирает необходимость в дорогостоящем скрининге миллионов вариантов
• Даёт возможность атомарного дизайна молекул под конкретные мишени
📄 Полный отчет: chaiassets.com/chai-2/paper/technical_report.pdf
@ai_machinelearning_big_data
#ml #biotech #ai
📺 4 из 10 самых популярных YouTube‑каналов теперь создаются ИИ
Звучит как шутка, но это уже реальность: среди топ‑10 каналов YouTube по числу просмотров — 4 полностью сгенерированы ИИ.
Никаких блогеров, продюсеров и съёмок. Только скрипты, голоса, монтаж — всё на автомате. И миллиарды просмотров.
🤖 Добро пожаловать в эру synthetic media.
👉 Подробнее
@ai_machinelearning_big_data
#ml #ai #YouTube
Звучит как шутка, но это уже реальность: среди топ‑10 каналов YouTube по числу просмотров — 4 полностью сгенерированы ИИ.
Никаких блогеров, продюсеров и съёмок. Только скрипты, голоса, монтаж — всё на автомате. И миллиарды просмотров.
🤖 Добро пожаловать в эру synthetic media.
👉 Подробнее
@ai_machinelearning_big_data
#ml #ai #YouTube