Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Qwen обновила свой синтезатор речи Qwen-TTS, его обучали на миллионах часов аудиозаписей. Новая версия адаптирует интонацию, ритм и эмоции под контекст текста и приближает звучание к человеческому. Добавили 3 китайских диалекта и поддержку 7 двуязычных голосов (Cherry, Ethan, Jada и др.).
Тесты в SeedTTS-Eval показали высокую точность (WER 1.209) и естественность (SIM 1.967). Модель доступна только через API. В будущем обещают новые языки и стили речи.
qwenlm.github.io
Совместное исследование ERGO Innovation Lab и ECODYNAMICS показало, что ИИ-системы не просто выдают популярные ссылки, они анализируют структуру, читаемость и ясность контента. Это ставит под сомнение традиционные методы SEO в для традиционных сайтов.
Аналитики изучили 33 тыс. запросов и 600 сайтов из области услуг страхования. Результат: LLM оценивают не только ключевые слова, но и логичность подачи информации, удобство навигации и глубину раскрытия темы.
Специалисты советуют пересмотреть стратегии: упростить тексты, структурировать данные и адаптировать контент под агентные системы. Чем раньше компании пересмотрят свои SEO-стратегии, тем выше вероятность оставаться на виду, когда алгоритмы станут сложнее. Полную версию отчета можно почитать по ссылке.
ergo.com
Конкуренция за лучших специалистов в сфере ИИ достигла критической точки. После того как компания Цукерберга переманила 4 ключевых сотрудников OpenAI для работы над «суперинтеллектом», глава исследований Марк Чэн призвал команду Сэма Альтмана оставаться верной компании, пообещав пересмотреть зарплаты и улучшить условия.
По данным источников, Цукерберг предлагает бонусы до $100 млн и лично контактирует с потенциальными кандидатами. Внутри OpenAI сотрудники жалуются на перегрузки, многие работают по 80 часов в неделю. В ответ на агрессивный хэдхантинг, Open AI объявила о «перезагрузке» на неделю, при этом напомнив, что из главная цель - развитие ИИ, а не соревнование с конкурентами.
wired.com
Microsoft разработала ИИ-инструмент MAI-DxO, который в 4 раза эффективнее опытных врачей в решении сложных диагностических задач. Система использует «оркестратор», создавая сеть из 5 ИИ-агентов, выполняющих роли от генератора гипотез до выбора тестов, которые взаимодействуют и «спорят» для принятия решений.
Тестирование на 304 сложных клинических случаях из NEJM показало точность 85,5% при использовании OpenAI o3 — против 20% у людей без доступа к справочникам или коллегам. Технология может быть интегрирована в Copilot и Bing, которые суммарно обрабатывают около 50 млн. медицинских запросов ежедневно.
ft.com
В минувшую субботу, в Пекине прошел первый в Китае турнир по футболу полностью автономных роботов-гуманоидов. Команда университета Циньхуа победила в финале, обыграв соперников из сельскохозяйственного университета со счетом 5:3. Обе команды использовали одинаковое оборудование от Booster Robotics, но разрабатывали собственные алгоритмы для управления зрением, балансом и движениями.
Матч стал испытанием для технологий: роботы падали, теряли равновесие, а иногда их приходилось уносить на носилках - все это помогает тестировать системы управления и безопасности перед массовым внедрением. Организаторы назвали матч "трейлером" предстоящих Всемирных игр роботов в августе, где будут представлены 11 видов спорта.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Apple активно изучает возможность использования моделей Claude 3 Opus от Anthropic и GPT-4 Turbo от OpenAI для новой версии Siri, отказавшись от собственных LLM. Компания провела тестирование обеих моделей на закрытой облачной инфраструктуре, чтобы сравнить качество генерации, безопасность и способность к сложным диалогам.
Причины перехода:
— Собственная разработка LLM для Siri задерживается до 2026 года из-за проблем с качеством
— Необходимость ускорить вывод на рынок более интеллектуального голосового ассистента
— Усиленная конкуренция с Google Assistant и Microsoft Copilot
Что уже сделано:
— Тестирование Claude 3 Opus и GPT-4 Turbo на Private Cloud Compute Apple
— Смена руководства AI-подразделения: Майк Рокуэлл занял место Джона Джаннандреа
— Отмена запуска “LLM Siri” на WWDC 2025 из-за неготовности модели
📌 Подробнее
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Apple выложила Sage Mixtral 8x7B fine-tune с лицензией Apache
💡 Это не просто ещё одна доработка LLM — модель использует State-Action Chains (SAC), чтобы встроить в диалоговую генерацию латентные переменные для эмоций и стратегий общения.
Что это даёт:
- SAC vs обычный fine-tune: модель получает грубое управление через state/action токены → диалоги становятся эмоционально насыщеннее, без потери на метриках
- Итеративная доработка: self-play + tree search позволяют оптимизировать диалоги по цепочкам действий, превзойдя базовые модели по оценкам LLM-судей
🔗 https://huggingface.co/apple/sage-ft-mixtral-8x7b
#apple #opensource
💡 Это не просто ещё одна доработка LLM — модель использует State-Action Chains (SAC), чтобы встроить в диалоговую генерацию латентные переменные для эмоций и стратегий общения.
Что это даёт:
- SAC vs обычный fine-tune: модель получает грубое управление через state/action токены → диалоги становятся эмоционально насыщеннее, без потери на метриках
- Итеративная доработка: self-play + tree search позволяют оптимизировать диалоги по цепочкам действий, превзойдя базовые модели по оценкам LLM-судей
🔗 https://huggingface.co/apple/sage-ft-mixtral-8x7b
#apple #opensource
🧠 Как успевать следить за всеми новостями искусственного интеллекта? И чтобы не тратить на это кучу времени?!
Мы нашли ребят, которые делают это за вас.
📌 Рекомендуем подписаться на канал @svodka_ai — Искусственный интеллект.
Каждый день их AI-журналисты мониторят десятки каналов про ИИ, а затем выдают утренний компактный дайджест:
📰 5–8 главных новостей без оффтопа и инфошума
🔗 Линк на источник под каждым пунктом — сразу в закладки или "прочитать позже"
⏱️ Формат "прочёл за три минуты — знаешь всё основное"
🧩 Все релизы, новости ИИ-компаний, секреты о тулах – в одном месте
💡 Экономия: ~90 % времени против ручного серфинга по каналам.
Если ИИ — ваш хлеб (или хотя бы джем к утреннему кофе), подпишитесь на @svodka_ai и начинайте день, уже зная главное.
Профит прост: меньше скролла — больше инсайтов без инфошума.
👉 Подписывайтесь и пусть ИИ готовит для вас сводки самого главного
erid: 2W5zFHoXe24
Мы нашли ребят, которые делают это за вас.
📌 Рекомендуем подписаться на канал @svodka_ai — Искусственный интеллект.
Каждый день их AI-журналисты мониторят десятки каналов про ИИ, а затем выдают утренний компактный дайджест:
📰 5–8 главных новостей без оффтопа и инфошума
🔗 Линк на источник под каждым пунктом — сразу в закладки или "прочитать позже"
⏱️ Формат "прочёл за три минуты — знаешь всё основное"
🧩 Все релизы, новости ИИ-компаний, секреты о тулах – в одном месте
💡 Экономия: ~90 % времени против ручного серфинга по каналам.
Если ИИ — ваш хлеб (или хотя бы джем к утреннему кофе), подпишитесь на @svodka_ai и начинайте день, уже зная главное.
Профит прост: меньше скролла — больше инсайтов без инфошума.
👉 Подписывайтесь и пусть ИИ готовит для вас сводки самого главного
erid: 2W5zFHoXe24
miniDiffusion — упрощённая реализация Stable Diffusion 3.5 на PyTorch
🔹 Этот репозиторий — минималистичный, но рабочий аналог Stable Diffusion:
всего ~2800 строк кода, без лишних зависимостей.
📦 Что внутри:
• Архитектура DiT (Diffusion Transformer)
• Кодировщики: T5 (текст) и CLIP
• VAE для генерации изображений
• Attention, Noise Scheduler и FID-оценка качества
🧪 Зачем это нужно:
• Понять, как работает диффузионная генерация
• Экспериментировать с архитектурой
• Обучать и тестировать свои модели
▶️ Быстрый старт:
📌 Github
🔹 Этот репозиторий — минималистичный, но рабочий аналог Stable Diffusion:
всего ~2800 строк кода, без лишних зависимостей.
📦 Что внутри:
• Архитектура DiT (Diffusion Transformer)
• Кодировщики: T5 (текст) и CLIP
• VAE для генерации изображений
• Attention, Noise Scheduler и FID-оценка качества
🧪 Зачем это нужно:
• Понять, как работает диффузионная генерация
• Экспериментировать с архитектурой
• Обучать и тестировать свои модели
▶️ Быстрый старт:
git clone https://github.com/yousef-rafat/miniDiffusion
pip install -r requirements.txt
python3 encoders/get_checkpoints.py
📌 Github
📡 Как студенты российских IT-вузов занимаются разработкой баз данных.
На Хабре вышла статья про YDB — распределённую СУБД с открытым исходным кодом. Она применяется для построения высоконагруженных систем и может исполнять федеративные запросы к внешним источникам данных.
Что внутри:
🧩 как реализовать SQL-запрос к внешней NoSQL-базе
📦 как упаковать Redis и MongoDB в реляционную модель
⚙️ проектируем абстракцию, которая может спрятать *любой* внешний источник данных
Новые функции YDB пилят студенты Яндекс Образования, а ревью прходоят у разработчиков бигтеха. Результат: федеративные запросы в YDB теперь могут быть адресованы к PostgreSQL, ClickHouse, MongoDB, Redis и многим другим источникам – польза для всего open-source сообщества.
📌 Статья полезна для тех, кто интересуется:
— Разработкой СУБД
— Консолидацией гетерогенных данных
На Хабре вышла статья про YDB — распределённую СУБД с открытым исходным кодом. Она применяется для построения высоконагруженных систем и может исполнять федеративные запросы к внешним источникам данных.
Что внутри:
🧩 как реализовать SQL-запрос к внешней NoSQL-базе
📦 как упаковать Redis и MongoDB в реляционную модель
⚙️ проектируем абстракцию, которая может спрятать *любой* внешний источник данных
Новые функции YDB пилят студенты Яндекс Образования, а ревью прходоят у разработчиков бигтеха. Результат: федеративные запросы в YDB теперь могут быть адресованы к PostgreSQL, ClickHouse, MongoDB, Redis и многим другим источникам – польза для всего open-source сообщества.
📌 Статья полезна для тех, кто интересуется:
— Разработкой СУБД
— Консолидацией гетерогенных данных
🧠 Хочешь понять, на чём основана модель Gemma 3n от Google?
Вот ключевые научные работы, стоящие за её архитектурой и обучением:
🔹 AltUp — улучшение аппроксимации внимания
https://arxiv.org/abs/2301.13310
🔹 LAuReL — расширение языковых моделей за счёт многоязычного претрейнинга
https://arxiv.org/abs/2411.07501
🔹 MatFormer — матричная факторизация для масштабируемых LLM
https://arxiv.org/abs/2310.07707
🔹 Activation Sparsity — обучение моделей с разреженной активацией
https://arxiv.org/abs/2506.06644
🔹 Universal Speech Model — единая модель для понимания и генерации речи
https://arxiv.org/abs/2303.01037
📘 Блог Google с обзором архитектуры и практическим гайдом по Gemma 3n:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
Вот ключевые научные работы, стоящие за её архитектурой и обучением:
🔹 AltUp — улучшение аппроксимации внимания
https://arxiv.org/abs/2301.13310
🔹 LAuReL — расширение языковых моделей за счёт многоязычного претрейнинга
https://arxiv.org/abs/2411.07501
🔹 MatFormer — матричная факторизация для масштабируемых LLM
https://arxiv.org/abs/2310.07707
🔹 Activation Sparsity — обучение моделей с разреженной активацией
https://arxiv.org/abs/2506.06644
🔹 Universal Speech Model — единая модель для понимания и генерации речи
https://arxiv.org/abs/2303.01037
📘 Блог Google с обзором архитектуры и практическим гайдом по Gemma 3n:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
🧠 WM-Abench — бенчмарк для оценки памяти у мультимодальных LLM
Новый open-source бенчмарк от Maitrix Research оценивает, как мультимодальные модели (текст + изображение) запоминают и используют визуальную информацию.
📌 Что проверяется:
– Могут ли LLM “удерживать в голове” объекты, числа и расположение
– Насколько глубоко модель понимает визуальный контекст
– Способна ли она логически оперировать на основе того, что “видела”
📈 Поддерживаются: GPT‑4o, Gemini, Claude, LLaVA и другие
🔍 Задания: от простых “где лежит мяч?” до сложных визуальных рассуждений
Исследователи из Maitrix оценили 15 SOTA мультимодальных моделей (включая o3 и Gemini 2.5 Pro) по 23 когнитивным измерениям: от базового восприятия до предсказания будущих состояний.
Ключевые выводы:
🔹 Модели хорошо справляются с распознаванием, но проваливаются в 3D-пространственном мышлении, динамике движения и причинно-следственной симуляции.
🔹 VLM склонны “путать” физику: даже изменение цвета объекта сбивает модель на задачах восприятия.
🔹 В сложных задачах предсказания следующего состояния — даже лучшие модели отстают от человека на 34.3%.
🔹 Точность восприятия ≠ понимание: даже “увидев” всё правильно, модели не умеют достроить последствия и взаимодействия объектов.
Отличный инструмент, чтобы понять на что реально способна ваша мультимодальная модель, а не только на красивые демо.
🔗 https://wm-abench.maitrix.org
#LLM #AI #multimodal #benchmark
Новый open-source бенчмарк от Maitrix Research оценивает, как мультимодальные модели (текст + изображение) запоминают и используют визуальную информацию.
📌 Что проверяется:
– Могут ли LLM “удерживать в голове” объекты, числа и расположение
– Насколько глубоко модель понимает визуальный контекст
– Способна ли она логически оперировать на основе того, что “видела”
📈 Поддерживаются: GPT‑4o, Gemini, Claude, LLaVA и другие
🔍 Задания: от простых “где лежит мяч?” до сложных визуальных рассуждений
Исследователи из Maitrix оценили 15 SOTA мультимодальных моделей (включая o3 и Gemini 2.5 Pro) по 23 когнитивным измерениям: от базового восприятия до предсказания будущих состояний.
Ключевые выводы:
🔹 Модели хорошо справляются с распознаванием, но проваливаются в 3D-пространственном мышлении, динамике движения и причинно-следственной симуляции.
🔹 VLM склонны “путать” физику: даже изменение цвета объекта сбивает модель на задачах восприятия.
🔹 В сложных задачах предсказания следующего состояния — даже лучшие модели отстают от человека на 34.3%.
🔹 Точность восприятия ≠ понимание: даже “увидев” всё правильно, модели не умеют достроить последствия и взаимодействия объектов.
Отличный инструмент, чтобы понять на что реально способна ваша мультимодальная модель, а не только на красивые демо.
🔗 https://wm-abench.maitrix.org
#LLM #AI #multimodal #benchmark
Интелион Облако запускает розыгрыш 🎉
Главный приз – 3 сервера с А10 или А5000. Также разыгрываются приятные скидки.
Запусти нейросеть, рендер, LLM или сложные вычисления на топовом GPU за 1 рубль!
Как принять участие:
1. Зарегистрироваться на Intelion.cloud
2. Заполнить форму розыгрыша
3. Подписаться на ТГ канал
Итоги подведем 5 июля в прямом эфире в канале Artificial Intelion.
Не забудь поделиться с другом!
Главный приз – 3 сервера с А10 или А5000. Также разыгрываются приятные скидки.
Запусти нейросеть, рендер, LLM или сложные вычисления на топовом GPU за 1 рубль!
Как принять участие:
1. Зарегистрироваться на Intelion.cloud
2. Заполнить форму розыгрыша
3. Подписаться на ТГ канал
Итоги подведем 5 июля в прямом эфире в канале Artificial Intelion.
Не забудь поделиться с другом!
🧠 II-Medical-8B-1706 — open-source LLM для медицинских задач!
▪️ Превзошла MedGemma 27B от Google при 70% меньшем количестве параметров
▪️ Квантизированные веса GGUF — модель запускается даже на <8 ГБ ОЗУ
Model card: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706
GGUF quantization: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706-GGUF
▪️ Превзошла MedGemma 27B от Google при 70% меньшем количестве параметров
▪️ Квантизированные веса GGUF — модель запускается даже на <8 ГБ ОЗУ
Model card: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706
GGUF quantization: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706-GGUF
Microsoft уволит 9 000 сотрудников — это примерно 4% от общего числа работников компании.
Очевидно, что ИИ действительно делает людей ненужными. И это уже не просто громкие заявления.
@data_analysis_ml
Очевидно, что ИИ действительно делает людей ненужными. И это уже не просто громкие заявления.
@data_analysis_ml
🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.
В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.
📊 Что выяснили:
• SFT на математике → ухудшение на нематематических задачах
• RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси
🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
❌ а где — просто бенчмарк‑максинг
📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.
📌 Подробнее
В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.
📊 Что выяснили:
• SFT на математике → ухудшение на нематематических задачах
• RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси
🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
❌ а где — просто бенчмарк‑максинг
📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.
📌 Подробнее
🚀 OpenAI заказала у Oracle колоссальные мощности для ИИ — 4.5 гигаватта
Это крупнейший в истории контракт на вычисления для искусственного интеллекта. Проект Stargate и теперь это самый масштабный заказ на AI-инфраструктуру в мире.
💰 Контракт включён в большое соглашение Oracle на $30 миллиардов в год, которое начнёт действовать со следующего фискального года.
🔧 Чтобы всё это обеспечить, Oracle:
- Расширит дата-центр в Техасе (Абилин) с 1.2 до 2 гигаватт
- Построит новые кампусы в Техасе, Мичигане, Висконсине и Вайоминге
Источник: bloomberg.com
@data_analysis_ml
Это крупнейший в истории контракт на вычисления для искусственного интеллекта. Проект Stargate и теперь это самый масштабный заказ на AI-инфраструктуру в мире.
💰 Контракт включён в большое соглашение Oracle на $30 миллиардов в год, которое начнёт действовать со следующего фискального года.
🔧 Чтобы всё это обеспечить, Oracle:
- Расширит дата-центр в Техасе (Абилин) с 1.2 до 2 гигаватт
- Построит новые кампусы в Техасе, Мичигане, Висконсине и Вайоминге
Источник: bloomberg.com
@data_analysis_ml
🧭 PyCuVSLAM — быстрый и точный SLAM от NVIDIA с Python‑интерфейсом
Что такое SLAM:
SLAM (Simultaneous Localization and Mapping) — это технология, которая позволяет устройству одновременно строить карту окружающей среды и определять своё местоположение внутри неё.
Применяется в роботах, дронах, AR/VR и автономных транспортных средствах.
Что такое PyCuVSLAM:
PyCuVSLAM — это Python-обёртка над cuVSLAM, высокопроизводительным SLAM-движком от NVIDIA. Он использует CUDA-ускорение и позволяет системам в реальном времени отслеживать движение и строить карту окружающего мира.
🔧 Основные возможности:
• Аппаратное ускорение на NVIDIA GPU (включая Jetson)
• Поддержка от 1 до 32 камер + опциональный IMU
• Можно подключать обычные RGB-камеры, камеры глубины и сенсоры движения
• Работает в конфигурациях от простой однокамерной до мультисенсорных систем
• Удобный Python API — быстро подключается и настраивается
💻 Установка:
• Поддерживает Ubuntu 22.04+, Python 3.10, CUDA 12.6
• Устанавливается через pip, Docker или запускается на Jetson
• Есть готовые примеры для быстрой работы
🧠 Для кого:
• Разработчики роботов, дронов, AR/VR
• Те, кому нужен точный и быстрый SLAM без глубокой настройки
📌 GitHub
Что такое SLAM:
SLAM (Simultaneous Localization and Mapping) — это технология, которая позволяет устройству одновременно строить карту окружающей среды и определять своё местоположение внутри неё.
Применяется в роботах, дронах, AR/VR и автономных транспортных средствах.
Что такое PyCuVSLAM:
PyCuVSLAM — это Python-обёртка над cuVSLAM, высокопроизводительным SLAM-движком от NVIDIA. Он использует CUDA-ускорение и позволяет системам в реальном времени отслеживать движение и строить карту окружающего мира.
🔧 Основные возможности:
• Аппаратное ускорение на NVIDIA GPU (включая Jetson)
• Поддержка от 1 до 32 камер + опциональный IMU
• Можно подключать обычные RGB-камеры, камеры глубины и сенсоры движения
• Работает в конфигурациях от простой однокамерной до мультисенсорных систем
• Удобный Python API — быстро подключается и настраивается
💻 Установка:
• Поддерживает Ubuntu 22.04+, Python 3.10, CUDA 12.6
• Устанавливается через pip, Docker или запускается на Jetson
• Есть готовые примеры для быстрой работы
🧠 Для кого:
• Разработчики роботов, дронов, AR/VR
• Те, кому нужен точный и быстрый SLAM без глубокой настройки
📌 GitHub