Telegram Group Search
🌟 HunyuanPortrait: код и веса.

Спустя чуть больше двух месяцев, Tencent опубликовала веса и код инференса проекта HunyuanPortrait - системы на основе диффузионных моделей для создания реалистичных анимированных портретов.

На вход подается видео, с которого движения переносятся на целевое изображение для "оживления". Режима "тext-to-motion", судя по всему - нет.

Под капотом - набор моделей на основе SVD, DiNOv2, Arc2Face и YoloFace.

Разработчики уверяют, что инференс заводится на 24 Гб VRAM и их метод лучше контролирует анимацию и делает более плавные переходы между кадрами, чем существующие аналоги.

⚠️ WebUI нет, адаптации под ComfyUI - пока тоже нет.


▶️Локальный инференс:

# Clone repo
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait

# Install requirements
pip3 install torch torchvision torchaudio
pip3 install -r requirements.txt

# Run
video_path="your_video.mp4"
image_path="your_image.png"

python inference.py \
--config config/hunyuan-portrait.yaml \
--video_path $video_path \
--image_path $image_path



🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanPortrait
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Mistral запустил Agents API.

Mistral объявила о запуске Agents API — решения, которое превращает языковые модели в активных исполнителей задач. Новый API сочетает возможности LLM с выполнением действий: запуск кода, поиск в сети, генерацию изображений и операции с данными через инструменты MCP. Агенты сохраняют контекст диалога, а их оркестрация позволяет распределять задачи между несколькими «помощниками» для сложных сценариев.

Встроенные коннекторы упрощают интеграцию с GitHub, Linear и другими сервисами. Платформа поддерживает потоковую передачу данных и ветвление диалогов. Для старта достаточно создать агента через SDK, настроив инструменты под свои нужды. Подробности в документации и примерах использования.
mistral.ai

✔️ Spaitial создает новый тип моделей для реалистичных 3D-сред.

Стартап Spaitial разрабатывает Spatial Foundation Models (SFM) — новый тип ИИ, который генерирует и анализирует сложные 3D-миры. В отличие от стандартных генеративных систем, работающих с пикселями или текстом, SFM оперируют геометрией, материалами и физическими свойствами объектов. Это позволяет моделям «понимать» пространство и время, что критично для симуляции реальных процессов или обучения автономных роботов.
По словам разработчиков, SFM способны создавать фотореалистичные 3D-сцены из текста, изображения или короткого видео. Пользователи могут исследовать такие среды под любым углом, эта технология открывает новые возможности для игр, AR/VR, цифровых двойников и промышленного моделирования. Желающие попробовать SFM могут записаться в лист ожидания.
spaitial.ai

✔️ Facebook Reasearch перестраивает команды по разработке ИИ и AGI.

Топ-менеджемент объявил о реорганизации подразделений, связанных с искусственным интеллектом, чтобы ускорить вывод новых продуктов на рынок. Изменения разделят ресурсы на 2 команды: одна займется разработкой пользовательских решений (ассистент, AI Studio, функции в соцсетях), а вторая сосредоточится на технологиях общего AGI: улучшение моделей Llama, мультимедийных возможностей и голосовых систем. При этом исследовательское подразделение FAIR останется независимым, хотя часть команды по мультимедиа перейдёт в AGI-направление.

По словам Криса Кокса, главы продуктового отдела, новая структура уменьшит зависимости между командами и повысит гибкость. Никаких сокращений не планируется.
axios.com

✔️ TSMC откроет центр разработки чипов в Мюнхене.

TSMC анонсировал запуск дизайн-центра в Мюнхене к третьему кварталу 2025 года. Основная цель — помощь европейским клиентам в создании энергоэффективных и высокопроизводительных чипов для автомобилей, промышленности, IoT и ИИ.

Центр будет сотрудничать с совместным предприятием ESMC в Дрездене, где TSMC вместе с Infineon, NXP и Bosch строит завод за €10 млрд. Проект ESMC позволит выпускать чипы по передовым техпроцессам, ранее недоступным европейским производителям.
reuters.com

✔️ DreaMS: революция в анализе масс-спектров молекул.

Ученые из Праги создали модель машинного обучения DreaMS, которая ускоряет расшифровку масс-спектров неизвестных молекул. Разработка команды IOCB и CIIRC CTU и лауреата премии Neuron Томаша Плюскаля, использует самообучение, как ChatGPT для текста, но вместо слов она анализирует «химические отпечатки». Обучаясь на миллионах спектров из растений, почвы и тканей, DreaMS выявляет скрытые связи, создавая подобие «интернета для спектров» — DreaMS Atlas.

В ходе разработки модель неожиданно научилась определять фтор, критичный для трети лекарств, хотя раньше это было сложно. Она также обнаружила сходства между пестицидами, кожей человека и едой, предположив их связь с псориазом. Сейчас команда учит DreaMS предсказывать полные структуры молекул, и, возможно, это изменит поиск новых веществ: от лекарств до биохимии.
phys.org

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций.

Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.

Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:

🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными.

🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки.

🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку.

По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).

При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.

⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.

Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.

▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах.


🟡Страница проекта
🟡Модели
🟡Arxiv
🟡Demo (китайский язык)
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследователи Яндекса выложили в опенсорс датасет для RecSys почти на 5 млрд событий — YaMBDa

YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов.

Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий.

⚙️ Что внутри YaMBDa:
– 3 объёма данных: 50M, 500M и полный сет на 4,79B событий
– Эмбеддинги треков из аудио, полученные через CNN
– Метка is_organic: отличает органические действия в датасете от рекомендованных
– Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark

🔗Доступно на HuggingFace

@ai_machinelearning_big_data

#dataset
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Стивен Бартлетт — предприниматель, инвестор и ведущий подкаста *The Diary of a CEO* — поделился тревожной деталью о закулисье ИИ-индустрии:

Один из топ-CEO компаний, работающих с искусственным интеллектом, публично заявляет:
> «Всё под контролем. Нам нечего бояться».

Но в приватной беседе — совсем другое:
> «Нас ожидает нечто по-настоящему ужасающее».
> «То, что он говорит мне наедине — полностью противоположно публичным заявлениям», — добавил источник.

📉 Выходит, даже те, кто стоит у руля ИИ-революции, не до конца уверены, чем она обернётся.

А если они боятся — стоит ли нам просто наблюдать?

👉 Полное видео

@ai_machinelearning_big_data

#AI #Ethics #ИИ #Будущее
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 Opera Neon — браузер-агент нового поколения

Opera представила Neon — браузер со встроенным ИИ-агентом, который продолжает выполнять задачи даже тогда, когда пользователь спит.

🌐 Что умеет Opera Neon?

🔹 Понимает намерения пользователя
🔹 Помогает с задачами — от поиска до бронирования
🔹 Самостоятельно действует: анализирует, предлагает и выполняет
🔹 Работает как агент, а не просто интерфейс

Это инфраструктура для агентного интернета, где ИИ помогает тебе в реальном времени.

🚀 Доступ только по инвайтам. Сейчас Opera открывает доступ первым участникам сообщества, чтобы сформировать будущее вместе.

Подать заявку: https://www.operaneon.com/

@ai_machinelearning_big_data

#OperaNeon #AgenticWeb #AI #БраузерБудущего
Media is too big
VIEW IN TELEGRAM
🤖 Boston Dynamics показали, как их гуманоидный робот Atlas «видит» мир и взаимодействует с ним

В новом видео команда ИИ-инженеров показала, как устроена система восприятия Atlas — и это уже не просто «робот с камерами», а почти полноценный агент с чувством пространства и контекста.

🧠 Что умеет Atlas:

🔹 Понимает форму и назначение объектов в реальной среде
🔹 Объединяет 2D и 3D восприятие
🔹 Использует ключевые точки для ориентации в пространстве
🔹 Отслеживает позы объектов с учётом их движения и перекрытия
🔹 Сливает визуальные данные, кинематику и знания об объектах в одну систему
🔹 Имеет сверхточную калибровку для координации «глаз–рука»

Atlas может не просто находить предмет, но понимать, *что это*, *зачем оно нужно* и *как его лучше схватить*, даже если оно наполовину скрыто.

Команда инженеров работает над единой моделью, которая объединяет восприятие и управление. Это шаг от просто «пространственного ИИ» к настоящему физическому интеллекту.

Их робот выглядит на данный момент самым передовым, как вы считаете?

@ai_machinelearning_big_data

#Atlas #BostonDynamics #AI #Robotics #Перцепция #ИскусственныйИнтеллект
Media is too big
VIEW IN TELEGRAM
✔️ xAI и Telegram планируют партнерство по внедрению Grok.

По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы.

Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом.

Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд.
Pavel Durov

✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей.

Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи.

Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4.
support.anthropic

✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов.

OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro).

Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны.
techcrunch

✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса.

К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9.

"Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года.
arstechnica

✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса.

✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize.

С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей.

Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами.

Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью.
habr.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Релиз DeepSeek R1-0528

Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст

Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_machinelearning_big_data

#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования.

Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты.

На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи.

➡️ Записывайтесь в группу прямо сейчас: https://tglink.io/ff8f84b04b2a?erid=2W5zFGaq6LG

Чтобы успеть воспользоваться 🏷10% скидкой на курс «Специализация Machine Learning» и 🎁 бонусным промокодом ML5 и учиться весь год по ценам мая. Скидка на курс действует по 31.05 включительно!

#реклама
О рекламодателе
🖥 NVIDIA снова удивила рынок — результаты сильно превзошли ожидания аналитиков.

📈 За квартал общая выручка выросла на 69%, а продажи в дата-центрах (включая AI-чипы и инфраструктуру) — на 73%.

🔥 Главная причина? Очевидна: взрывной спрос на GPU для обучения и инференса ИИ.
Мир строит LLM — и делает это на железе NVIDIA.

📌Финансовые итоги за квартал:
Выручка: $44.1 млрд (+69% год к году)
Earnings per share: $0.96 (прогноз был $0.93)
Доход от дата-центров: $39 млрд (+73% YoY)
Доход от гейминга: $3.8 млрд (+48% по сравнению с прошлым кварталом)

📌 Прибыль vs Прогноз
Фактический показатель прибыли на акцию (EPS) у NVIDIA составил $0.96, что на 3,23% выше прогнозируемых $0.93.
Также выручка превысила ожидания на $800 млн, что подчёркивает способность компании точно попадать в рыночные тренды и сохранять уверенное финансовое здоровье.

🔥 Комментарии излишни — рынок ИИ буквально катапультирует NVIDIA на новый уровень. GPU стали не просто новым золотом, а инфраструктурой будущего.

Пока другие корпорации режут бюджеты и занижают прогнозы, NVIDIA штампует рекорды — квартал за кварталом.

@ai_machinelearning_big_data


#NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
YTsaurus - масштабируемая платформа для обработки и хранения данных, теперь как сервис в Yandex Cloud

Что делает YTsaurus интересной: это не просто "система хранения" - это полноценная вычислительная среда, в которую можно принести любые данные и запускать на них любые задачи.

⚙️ Что умеет YTsaurus:
🟢Поддерживает ClickHouse, Apache Spark и MapReduce в одном пространстве
🟢Обрабатывает эксабайты данных, работает с миллионами CPU и десятками тысяч GPU
🟢Масштабируется под конкретный сценарий — от логов и транзакций до ML-пайплайнов
🟢Подходит для построения корпоративных хранилищ и сложных ETL-систем
🟢При этом доступен как управляемый облачный сервис - без забот о поддержке и инфраструктуре

Ранее платформу использовали только в технологических продуктах Яндекса, теперь - можно подключить к своей инфраструктуре и работать как с готовым дата-движком.

Интерфейс, API, масштаб - всё заточено под производственные задачи. Это ещё один шаг к доступной ML-инфраструктуре уровня hyperscaler'ов - но с локальной экспертизой.

@ai_machinelearning_big_data

#YTsaurus #BigData #MLInfrastructure #YandexCloud #DataPlatform #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Представлен Apache Spark 4.0 — крупнейший релиз с момента запуска Spark 2.0

Databricks анонсировали Spark 4.0 с множеством фундаментальных улучшений производительности и архитектуры.

Новый релиз фокусируется на ускорении обработки, поддержке GenAI-нагрузок и расширенной масштабируемости.

🔥 Что нового:


💡 Project Tungsten++, Catalyst++ — переработка движка исполнения и оптимизации запросов
🧠 Поддержка генеративных AI-запросов — Spark теперь эффективнее работает с LLM-нагрузками
⚙️ Новый Execution Engine — более 2× ускорение в среднем, до 10× в некоторых кейсах
📦 Модульная архитектура — теперь ядро Spark отделено от MLlib, GraphX и др.
🌐 Поддержка нового Shuffle-движка и улучшенное распределение по кластерам
🧪 Обратная несовместимость — Spark 4.0 требует миграции, особенно для UDF и кастомных оптимизаций

📌 Подробности и тесты:
https://www.databricks.com/blog/introducing-apache-spark-40

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/30 00:14:22
Back to Top
HTML Embed Code: