Telegram Group Search
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Alibaba Group представила обновленный Qwen-TTS для английского и китайского языков.

Qwen обновила свой синтезатор речи Qwen-TTS, его обучали на миллионах часов аудиозаписей. Новая версия адаптирует интонацию, ритм и эмоции под контекст текста и приближает звучание к человеческому. Добавили 3 китайских диалекта и поддержку 7 двуязычных голосов (Cherry, Ethan, Jada и др.).

Тесты в SeedTTS-Eval показали высокую точность (WER 1.209) и естественность (SIM 1.967). Модель доступна только через API. В будущем обещают новые языки и стили речи.
qwenlm.github.io

✔️ Исследование: как ИИ-поисковики меняют правила видимости веб-контента.

Совместное исследование ERGO Innovation Lab и ECODYNAMICS показало, что ИИ-системы не просто выдают популярные ссылки, они анализируют структуру, читаемость и ясность контента. Это ставит под сомнение традиционные методы SEO в для традиционных сайтов.

Аналитики изучили 33 тыс. запросов и 600 сайтов из области услуг страхования. Результат: LLM оценивают не только ключевые слова, но и логичность подачи информации, удобство навигации и глубину раскрытия темы.

Специалисты советуют пересмотреть стратегии: упростить тексты, структурировать данные и адаптировать контент под агентные системы. Чем раньше компании пересмотрят свои SEO-стратегии, тем выше вероятность оставаться на виду, когда алгоритмы станут сложнее. Полную версию отчета можно почитать по ссылке.
ergo.com

✔️ OpenAI и компания Марка Цукерберга борются за кадры.

Конкуренция за лучших специалистов в сфере ИИ достигла критической точки. После того как компания Цукерберга переманила 4 ключевых сотрудников OpenAI для работы над «суперинтеллектом», глава исследований Марк Чэн призвал команду Сэма Альтмана оставаться верной компании, пообещав пересмотреть зарплаты и улучшить условия.

По данным источников, Цукерберг предлагает бонусы до $100 млн и лично контактирует с потенциальными кандидатами. Внутри OpenAI сотрудники жалуются на перегрузки, многие работают по 80 часов в неделю. В ответ на агрессивный хэдхантинг, Open AI объявила о «перезагрузке» на неделю, при этом напомнив, что из главная цель - развитие ИИ, а не соревнование с конкурентами.
wired.com

✔️ Microsoft создала ИИ-систему для диагностики, превосходящую врачей.

Microsoft разработала ИИ-инструмент MAI-DxO, который в 4 раза эффективнее опытных врачей в решении сложных диагностических задач. Система использует «оркестратор», создавая сеть из 5 ИИ-агентов, выполняющих роли от генератора гипотез до выбора тестов, которые взаимодействуют и «спорят» для принятия решений.

Тестирование на 304 сложных клинических случаях из NEJM показало точность 85,5% при использовании OpenAI o3 — против 20% у людей без доступа к справочникам или коллегам. Технология может быть интегрирована в Copilot и Bing, которые суммарно обрабатывают около 50 млн. медицинских запросов ежедневно.
ft.com

✔️ Роботы-гуманоиды впервые сыграли в футбол без участия людей.

В минувшую субботу, в Пекине прошел первый в Китае турнир по футболу полностью автономных роботов-гуманоидов. Команда университета Циньхуа победила в финале, обыграв соперников из сельскохозяйственного университета со счетом 5:3. Обе команды использовали одинаковое оборудование от Booster Robotics, но разрабатывали собственные алгоритмы для управления зрением, балансом и движениями.

Матч стал испытанием для технологий: роботы падали, теряли равновесие, а иногда их приходилось уносить на носилках - все это помогает тестировать системы управления и безопасности перед массовым внедрением. Организаторы назвали матч "трейлером" предстоящих Всемирных игр роботов в августе, где будут представлены 11 видов спорта.
bloomberg.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🍏 Apple рассматривает замену Siri на Claude или ChatGPT

Apple активно изучает возможность использования моделей Claude 3 Opus от Anthropic и GPT-4 Turbo от OpenAI для новой версии Siri, отказавшись от собственных LLM. Компания провела тестирование обеих моделей на закрытой облачной инфраструктуре, чтобы сравнить качество генерации, безопасность и способность к сложным диалогам.

Причины перехода:
— Собственная разработка LLM для Siri задерживается до 2026 года из-за проблем с качеством
— Необходимость ускорить вывод на рынок более интеллектуального голосового ассистента
— Усиленная конкуренция с Google Assistant и Microsoft Copilot

Что уже сделано:
— Тестирование Claude 3 Opus и GPT-4 Turbo на Private Cloud Compute Apple
— Смена руководства AI-подразделения: Майк Рокуэлл занял место Джона Джаннандреа
— Отмена запуска “LLM Siri” на WWDC 2025 из-за неготовности модели

📌
Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Apple выложила Sage Mixtral 8x7B fine-tune с лицензией Apache

💡 Это не просто ещё одна доработка LLM — модель использует State-Action Chains (SAC), чтобы встроить в диалоговую генерацию латентные переменные для эмоций и стратегий общения.

Что это даёт:
- SAC vs обычный fine-tune: модель получает грубое управление через state/action токены → диалоги становятся эмоционально насыщеннее, без потери на метриках
- Итеративная доработка: self-play + tree search позволяют оптимизировать диалоги по цепочкам действий, превзойдя базовые модели по оценкам LLM-судей

🔗 https://huggingface.co/apple/sage-ft-mixtral-8x7b

#apple #opensource
🧠  Как успевать следить за всеми новостями искусственного интеллекта? И чтобы не тратить на это кучу времени?!
Мы нашли ребят, которые делают это за вас.

📌 Рекомендуем подписаться на канал @svodka_ai — Искусственный интеллект.
Каждый день их AI-журналисты мониторят десятки каналов про ИИ, а затем выдают утренний компактный дайджест:
📰 5–8 главных новостей без оффтопа и инфошума
🔗 Линк на источник под каждым пунктом — сразу в закладки или "прочитать позже"
⏱️ Формат "прочёл за три минуты — знаешь всё основное"
🧩 Все релизы, новости ИИ-компаний, секреты о тулах – в одном месте

💡 Экономия: ~90 % времени против ручного серфинга по каналам.

Если ИИ — ваш хлеб (или хотя бы джем к утреннему кофе), подпишитесь на @svodka_ai и начинайте день, уже зная главное.

Профит прост: меньше скролла — больше инсайтов без инфошума.
👉 Подписывайтесь и пусть ИИ готовит для вас сводки самого главного 

erid: 2W5zFHoXe24
miniDiffusion — упрощённая реализация Stable Diffusion 3.5 на PyTorch

🔹 Этот репозиторий — минималистичный, но рабочий аналог Stable Diffusion:
всего ~2800 строк кода, без лишних зависимостей.

📦 Что внутри:
• Архитектура DiT (Diffusion Transformer)
• Кодировщики: T5 (текст) и CLIP
• VAE для генерации изображений
• Attention, Noise Scheduler и FID-оценка качества

🧪 Зачем это нужно:
• Понять, как работает диффузионная генерация
• Экспериментировать с архитектурой
• Обучать и тестировать свои модели

▶️ Быстрый старт:


git clone https://github.com/yousef-rafat/miniDiffusion
pip install -r requirements.txt
python3 encoders/get_checkpoints.py


📌 Github
📡 Как студенты российских IT-вузов занимаются разработкой баз данных.

На Хабре вышла статья про YDB — распределённую СУБД с открытым исходным кодом. Она применяется для построения высоконагруженных систем и может исполнять федеративные запросы к внешним источникам данных.

Что внутри:
🧩 как реализовать SQL-запрос к внешней NoSQL-базе
📦 как упаковать Redis и MongoDB в реляционную модель
⚙️ проектируем абстракцию, которая может спрятать *любой* внешний источник данных

Новые функции YDB пилят студенты Яндекс Образования, а ревью прходоят у разработчиков бигтеха.  Результат: федеративные запросы в YDB теперь могут быть адресованы к PostgreSQL, ClickHouse, MongoDB, Redis и многим другим источникам – польза для всего  open-source сообщества.

📌 Статья полезна для тех, кто интересуется:
— Разработкой СУБД
— Консолидацией гетерогенных данных
🧠 Хочешь понять, на чём основана модель Gemma 3n от Google?

Вот ключевые научные работы, стоящие за её архитектурой и обучением:

🔹 AltUp — улучшение аппроксимации внимания
https://arxiv.org/abs/2301.13310

🔹 LAuReL — расширение языковых моделей за счёт многоязычного претрейнинга
https://arxiv.org/abs/2411.07501

🔹 MatFormer — матричная факторизация для масштабируемых LLM
https://arxiv.org/abs/2310.07707

🔹 Activation Sparsity — обучение моделей с разреженной активацией
https://arxiv.org/abs/2506.06644

🔹 Universal Speech Model — единая модель для понимания и генерации речи
https://arxiv.org/abs/2303.01037

📘 Блог Google с обзором архитектуры и практическим гайдом по Gemma 3n:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
🧠 WM-Abench — бенчмарк для оценки памяти у мультимодальных LLM

Новый open-source бенчмарк от Maitrix Research оценивает, как мультимодальные модели (текст + изображение) запоминают и используют визуальную информацию.


📌 Что проверяется:
– Могут ли LLM “удерживать в голове” объекты, числа и расположение
– Насколько глубоко модель понимает визуальный контекст
– Способна ли она логически оперировать на основе того, что “видела”

📈 Поддерживаются: GPT‑4o, Gemini, Claude, LLaVA и другие
🔍 Задания: от простых “где лежит мяч?” до сложных визуальных рассуждений

Исследователи из Maitrix оценили 15 SOTA мультимодальных моделей (включая o3 и Gemini 2.5 Pro) по 23 когнитивным измерениям: от базового восприятия до предсказания будущих состояний.

Ключевые выводы:
🔹 Модели хорошо справляются с распознаванием, но проваливаются в 3D-пространственном мышлении, динамике движения и причинно-следственной симуляции.
🔹 VLM склонны “путать” физику: даже изменение цвета объекта сбивает модель на задачах восприятия.
🔹 В сложных задачах предсказания следующего состояния — даже лучшие модели отстают от человека на 34.3%.
🔹 Точность восприятия ≠ понимание: даже “увидев” всё правильно, модели не умеют достроить последствия и взаимодействия объектов.

Отличный инструмент, чтобы понять на что реально способна ваша мультимодальная модель, а не только на красивые демо.

🔗 https://wm-abench.maitrix.org

#LLM #AI #multimodal #benchmark
Интелион Облако запускает розыгрыш 🎉

Главный приз – 3 сервера с А10 или А5000. Также разыгрываются приятные скидки.

Запусти нейросеть, рендер, LLM или сложные вычисления на топовом GPU за 1 рубль!

Как принять участие:
1. Зарегистрироваться на Intelion.cloud
2. Заполнить форму розыгрыша
3. Подписаться на ТГ канал

Итоги подведем 5 июля в прямом эфире в канале Artificial Intelion.
Не забудь поделиться с другом!
🧠 II-Medical-8B-1706 — open-source LLM для медицинских задач!

▪️ Превзошла MedGemma 27B от Google при 70% меньшем количестве параметров
▪️ Квантизированные веса GGUF — модель запускается даже на <8 ГБ ОЗУ

Model card: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706

GGUF quantization: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706-GGUF
Microsoft уволит 9 000 сотрудников — это примерно 4% от общего числа работников компании.

Очевидно, что ИИ действительно делает людей ненужными. И это уже не просто громкие заявления.

@data_analysis_ml
🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.

В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.

📊 Что выяснили:
SFT на математике → ухудшение на нематематических задачах
RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси

🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
а где — просто бенчмарк‑максинг

📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.

📌 Подробнее
🚀 OpenAI заказала у Oracle колоссальные мощности для ИИ — 4.5 гигаватта

Это крупнейший в истории контракт на вычисления для искусственного интеллекта. Проект Stargate и теперь это самый масштабный заказ на AI-инфраструктуру в мире.

💰 Контракт включён в большое соглашение Oracle на $30 миллиардов в год, которое начнёт действовать со следующего фискального года.

🔧 Чтобы всё это обеспечить, Oracle:
- Расширит дата-центр в Техасе (Абилин) с 1.2 до 2 гигаватт
- Построит новые кампусы в Техасе, Мичигане, Висконсине и Вайоминге


Источник: bloomberg.com

@data_analysis_ml
🧭 PyCuVSLAM — быстрый и точный SLAM от NVIDIA с Python‑интерфейсом

Что такое SLAM:
SLAM (Simultaneous Localization and Mapping) — это технология, которая позволяет устройству одновременно строить карту окружающей среды и определять своё местоположение внутри неё.
Применяется в роботах, дронах, AR/VR и автономных транспортных средствах.

Что такое PyCuVSLAM:
PyCuVSLAM — это Python-обёртка над cuVSLAM, высокопроизводительным SLAM-движком от NVIDIA. Он использует CUDA-ускорение и позволяет системам в реальном времени отслеживать движение и строить карту окружающего мира.

🔧 Основные возможности:
• Аппаратное ускорение на NVIDIA GPU (включая Jetson)
• Поддержка от 1 до 32 камер + опциональный IMU
• Можно подключать обычные RGB-камеры, камеры глубины и сенсоры движения
• Работает в конфигурациях от простой однокамерной до мультисенсорных систем
• Удобный Python API — быстро подключается и настраивается


💻 Установка:
• Поддерживает Ubuntu 22.04+, Python 3.10, CUDA 12.6
• Устанавливается через pip, Docker или запускается на Jetson
• Есть готовые примеры для быстрой работы

🧠 Для кого:
• Разработчики роботов, дронов, AR/VR
• Те, кому нужен точный и быстрый SLAM без глубокой настройки

📌 GitHub
2025/07/04 00:04:35
Back to Top
HTML Embed Code: