Telegram Group Search
🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций.

Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.

Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:

🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными.

🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки.

🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку.

По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).

При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.

⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.

Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.

▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах.


🟡Страница проекта
🟡Модели
🟡Arxiv
🟡Demo (китайский язык)
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследователи Яндекса выложили в опенсорс датасет для RecSys почти на 5 млрд событий — YaMBDa

YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов.

Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий.

⚙️ Что внутри YaMBDa:
– 3 объёма данных: 50M, 500M и полный сет на 4,79B событий
– Эмбеддинги треков из аудио, полученные через CNN
– Метка is_organic: отличает органические действия в датасете от рекомендованных
– Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark

🔗Доступно на HuggingFace

@ai_machinelearning_big_data

#dataset
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Стивен Бартлетт — предприниматель, инвестор и ведущий подкаста *The Diary of a CEO* — поделился тревожной деталью о закулисье ИИ-индустрии:

Один из топ-CEO компаний, работающих с искусственным интеллектом, публично заявляет:
> «Всё под контролем. Нам нечего бояться».

Но в приватной беседе — совсем другое:
> «Нас ожидает нечто по-настоящему ужасающее».
> «То, что он говорит мне наедине — полностью противоположно публичным заявлениям», — добавил источник.

📉 Выходит, даже те, кто стоит у руля ИИ-революции, не до конца уверены, чем она обернётся.

А если они боятся — стоит ли нам просто наблюдать?

👉 Полное видео

@ai_machinelearning_big_data

#AI #Ethics #ИИ #Будущее
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 Opera Neon — браузер-агент нового поколения

Opera представила Neon — браузер со встроенным ИИ-агентом, который продолжает выполнять задачи даже тогда, когда пользователь спит.

🌐 Что умеет Opera Neon?

🔹 Понимает намерения пользователя
🔹 Помогает с задачами — от поиска до бронирования
🔹 Самостоятельно действует: анализирует, предлагает и выполняет
🔹 Работает как агент, а не просто интерфейс

Это инфраструктура для агентного интернета, где ИИ помогает тебе в реальном времени.

🚀 Доступ только по инвайтам. Сейчас Opera открывает доступ первым участникам сообщества, чтобы сформировать будущее вместе.

Подать заявку: https://www.operaneon.com/

@ai_machinelearning_big_data

#OperaNeon #AgenticWeb #AI #БраузерБудущего
Media is too big
VIEW IN TELEGRAM
🤖 Boston Dynamics показали, как их гуманоидный робот Atlas «видит» мир и взаимодействует с ним

В новом видео команда ИИ-инженеров показала, как устроена система восприятия Atlas — и это уже не просто «робот с камерами», а почти полноценный агент с чувством пространства и контекста.

🧠 Что умеет Atlas:

🔹 Понимает форму и назначение объектов в реальной среде
🔹 Объединяет 2D и 3D восприятие
🔹 Использует ключевые точки для ориентации в пространстве
🔹 Отслеживает позы объектов с учётом их движения и перекрытия
🔹 Сливает визуальные данные, кинематику и знания об объектах в одну систему
🔹 Имеет сверхточную калибровку для координации «глаз–рука»

Atlas может не просто находить предмет, но понимать, *что это*, *зачем оно нужно* и *как его лучше схватить*, даже если оно наполовину скрыто.

Команда инженеров работает над единой моделью, которая объединяет восприятие и управление. Это шаг от просто «пространственного ИИ» к настоящему физическому интеллекту.

Их робот выглядит на данный момент самым передовым, как вы считаете?

@ai_machinelearning_big_data

#Atlas #BostonDynamics #AI #Robotics #Перцепция #ИскусственныйИнтеллект
Media is too big
VIEW IN TELEGRAM
✔️ xAI и Telegram планируют партнерство по внедрению Grok.

По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы.

Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом.

Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд.
Pavel Durov

✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей.

Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи.

Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4.
support.anthropic

✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов.

OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro).

Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны.
techcrunch

✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса.

К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9.

"Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года.
arstechnica

✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса.

✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize.

С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей.

Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами.

Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью.
habr.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Релиз DeepSeek R1-0528

Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст

Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_machinelearning_big_data

#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования.

Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты.

На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи.

➡️ Записывайтесь в группу прямо сейчас: https://tglink.io/ff8f84b04b2a?erid=2W5zFGaq6LG

Чтобы успеть воспользоваться 🏷10% скидкой на курс «Специализация Machine Learning» и 🎁 бонусным промокодом ML5 и учиться весь год по ценам мая. Скидка на курс действует по 31.05 включительно!

#реклама
О рекламодателе
🖥 NVIDIA снова удивила рынок — результаты сильно превзошли ожидания аналитиков.

📈 За квартал общая выручка выросла на 69%, а продажи в дата-центрах (включая AI-чипы и инфраструктуру) — на 73%.

🔥 Главная причина? Очевидна: взрывной спрос на GPU для обучения и инференса ИИ.
Мир строит LLM — и делает это на железе NVIDIA.

📌Финансовые итоги за квартал:
Выручка: $44.1 млрд (+69% год к году)
Earnings per share: $0.96 (прогноз был $0.93)
Доход от дата-центров: $39 млрд (+73% YoY)
Доход от гейминга: $3.8 млрд (+48% по сравнению с прошлым кварталом)

📌 Прибыль vs Прогноз
Фактический показатель прибыли на акцию (EPS) у NVIDIA составил $0.96, что на 3,23% выше прогнозируемых $0.93.
Также выручка превысила ожидания на $800 млн, что подчёркивает способность компании точно попадать в рыночные тренды и сохранять уверенное финансовое здоровье.

🔥 Комментарии излишни — рынок ИИ буквально катапультирует NVIDIA на новый уровень. GPU стали не просто новым золотом, а инфраструктурой будущего.

Пока другие корпорации режут бюджеты и занижают прогнозы, NVIDIA штампует рекорды — квартал за кварталом.

@ai_machinelearning_big_data


#NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
YTsaurus - масштабируемая платформа для обработки и хранения данных, теперь как сервис в Yandex Cloud

Что делает YTsaurus интересной: это не просто "система хранения" - это полноценная вычислительная среда, в которую можно принести любые данные и запускать на них любые задачи.

⚙️ Что умеет YTsaurus:
🟢Поддерживает ClickHouse, Apache Spark и MapReduce в одном пространстве
🟢Обрабатывает эксабайты данных, работает с миллионами CPU и десятками тысяч GPU
🟢Масштабируется под конкретный сценарий — от логов и транзакций до ML-пайплайнов
🟢Подходит для построения корпоративных хранилищ и сложных ETL-систем
🟢При этом доступен как управляемый облачный сервис - без забот о поддержке и инфраструктуре

Ранее платформу использовали только в технологических продуктах Яндекса, теперь - можно подключить к своей инфраструктуре и работать как с готовым дата-движком.

Интерфейс, API, масштаб - всё заточено под производственные задачи. Это ещё один шаг к доступной ML-инфраструктуре уровня hyperscaler'ов - но с локальной экспертизой.

@ai_machinelearning_big_data

#YTsaurus #BigData #MLInfrastructure #YandexCloud #DataPlatform #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Представлен Apache Spark 4.0 — крупнейший релиз с момента запуска Spark 2.0

Databricks анонсировали Spark 4.0 с множеством фундаментальных улучшений производительности и архитектуры.

Новый релиз фокусируется на ускорении обработки, поддержке GenAI-нагрузок и расширенной масштабируемости.

🔥 Что нового:


💡 Project Tungsten++, Catalyst++ — переработка движка исполнения и оптимизации запросов
🧠 Поддержка генеративных AI-запросов — Spark теперь эффективнее работает с LLM-нагрузками
⚙️ Новый Execution Engine — более 2× ускорение в среднем, до 10× в некоторых кейсах
📦 Модульная архитектура — теперь ядро Spark отделено от MLlib, GraphX и др.
🌐 Поддержка нового Shuffle-движка и улучшенное распределение по кластерам
🧪 Обратная несовместимость — Spark 4.0 требует миграции, особенно для UDF и кастомных оптимизаций

📌 Подробности и тесты:
https://www.databricks.com/blog/introducing-apache-spark-40

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Mistral выпустила Codestral Embed.

Mistral AI представила Codestral Embed — свою первую модель для создания эмбеддингов кода, которая уже обходит ключевых конкурентов: Voyage Code 3, Cohere Embed v4.0 и крупные эмбеддинги от OpenAI.

Codestral Embed заточена под реальные задачи: поиск релевантного кода по описанию, RAG для код-ассистентов, обнаружение дубликатов и семантическую кластеризацию.

Модель доступна через API ($0.15 за миллион токенов) или со скидкой 50% в пакетном режиме доступа. Для локальных развертываний необходимо связаться с Mistral. Документация - на сайте, есть cookbook на Google Collab.
mistral.ai

✔️ Anthropic открыла инструменты для анализа "мыслей" языковых моделей.

Anthropic выложила в открытый доступ свой метод интерпретируемости, позволяющий заглянуть внутрь работы языковых моделей. Речь о генерации графов атрибуции — визуальных схем, которые частично показывают, какие шаги модель делает "в уме", формируя ответ.

Это не просто картинки - инструменты помогают исследователям тестировать гипотезы, модифицируя признаки и наблюдая за изменениями в выводе модели. Можно визуализировать, аннотировать найденные "цепочки", например, отвечающих за многошаговые рассуждения. Попробовать можно уже сейчас на Neuronpedia, код доступен в репозитории проекта.
anthropic.com

✔️ PerplexityAI представила Labs: автоматизация ваших проектов.

Perplexity запускает новый инструмент – Perplexity Labs. Это не просто поиск ответов или их углубленный анализ, а целая команда в вашем браузере.

Система использует самообучающиеся процессы, глубокий веб-поиск, исполнение кода и генерацию контента. Labs может создавать отчеты, дашборды, электронные таблицы, визуализации данных и даже простые веб-приложения прямо во вкладке "App". Весь сгенерированный код, файлы, графики и изображения собираются во вкладке "Assets" для скачивания.
Labs доступен для подписчиков Pro на сайте и в iOS-приложении.
perplexity.ai

✔️ Black Forest Labs презентовала FLUX.1 Kontext.

FLUX.1 Kontext — семейство моделей для генерации и редактирования изображений, которые работают "в контексте". Это значит, что модели умеют не только генерировать картинки по тексту, но и принимать на вход изображения, чтобы модель поняла, что именно вы хотите сохранить или изменить. Возможности: сохранение стиля или персонажа из вашего референса, точечное редактирование без искажения и добавление инструкций шаг за шагом.

Есть 3 версии: FLUX.1 Kontext [pro] — универсальная для генерации и инпейнта, работает в разы быстрее аналогов и сохраняет консистентность при многошаговых правках. FLUX.1 Kontext [max] — экспериментальная модель с улучшенным следованием промптам и типографикой. Обе уже доступны через партнеров: KreaAI, Freepik, LeonardoAI, Replicate и др.

Для исследователей и энтузиастов открыли доступ по запросу к приватной бета-версии FLUX.1 Kontext [dev] с открытыми весами (12B). А чтобы просто потестить возможности, запустили демо - Playground.
bfl.ai

✔️ Gemini научился анализировать видео на Google Drive.

Гугл прокачал Gemini в Drive, и теперь ИИ умеет разбирать не только документы, но и видео. Просто спрашиваете в чате, что внутри ролика — и получаете сводку, ключевые моменты или список задач из записанной встречи. Работает это через чат-интерфейс Gemini. Важно: видео обязательно должны быть с включенными субтитрами, иначе Gemini не справится.

Возможность уже доступна в английской версии Drive для подписчиков Workspace и Google One и AI Premium, а также владельцев корпоративных дополнений Gemini. И еще Гугл добавил в плеер базовую аналитику просмотров — теперь видно, сколько раз видео открывали. Полезно для оценки интереса к вашему контенту.
workspaceupdates.googleblog.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
✔️«ИИ-компании должны платить налоги, чтобы смягчить удар по рынку труда»

CEO Anthropic Дарио Амодей считает, что такие компании, как его, могут в будущем облагаться специальным налогом — чтобы компенсировать массовую потерю рабочих мест.

Он предупреждает: уже через 1–5 лет ИИ способен вытеснить младший офисный персонал по всему миру.

Даже если Anthropic остановится, говорит Амодей, это ничего не изменит:

«Остальные продолжат. А если нет — нас обгонит Китай».

🚌 «Автобус уже мчится — остановить его нельзя. Но, возможно, мы ещё можем повернуть руль».

📌 Полное интервью: https://www.youtube.com/watch?v=NWxHOrn8-rs

#Anthropic #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/30 23:15:13
Back to Top
HTML Embed Code: