Контекст Claude 4 Sonnet расширили до миллиона токенов
Апдейт запустили в бете для клиентов Tier 4 — это те кто купили API кредитов на $400+. Про планы на доступность расширенного контекста в подписке ничего не говорят. Но их тут никто не подгоняет — главный конкурент всё ещё умудряется давать модели с 32k токенов контекста в Plus плане за $20 в месяц, а вот на рынке API конкуренция по окну контекста куда жёстче.
Claude уже давно умеет в большие окна контекста — Claude Haiku с миллионом токенов контекста показывали ещё в Model Card Claude 3, но в релизе было доступно всего лишь 200к токенов. После этого они запустили подписку Claude Enterprise с 500k токенов контекста в прошлом сентябре.
Цена за промпты длиннее 200к токенов значительно выше — $6/$22.5 за миллион токенов, цена за промпты до 200к токенов остаётся прежней — $3/$15 за миллион токенов. GPT 4.1 остаётся единственной заметной моделью с миллионом токенов контекста, цена на которую не повышается после определённого порога.
@ai_newz
Апдейт запустили в бете для клиентов Tier 4 — это те кто купили API кредитов на $400+. Про планы на доступность расширенного контекста в подписке ничего не говорят. Но их тут никто не подгоняет — главный конкурент всё ещё умудряется давать модели с 32k токенов контекста в Plus плане за $20 в месяц, а вот на рынке API конкуренция по окну контекста куда жёстче.
Claude уже давно умеет в большие окна контекста — Claude Haiku с миллионом токенов контекста показывали ещё в Model Card Claude 3, но в релизе было доступно всего лишь 200к токенов. После этого они запустили подписку Claude Enterprise с 500k токенов контекста в прошлом сентябре.
Цена за промпты длиннее 200к токенов значительно выше — $6/$22.5 за миллион токенов, цена за промпты до 200к токенов остаётся прежней — $3/$15 за миллион токенов. GPT 4.1 остаётся единственной заметной моделью с миллионом токенов контекста, цена на которую не повышается после определённого порога.
@ai_newz
5❤109👍41🔥28😁3🤯2🫡1
Технологическая платформа Авито запускает AI лабу с прикладным уклоном
Заниматься будут генеративными моделями, компьютерным зрением, распознаванием голоса, защитой от дипфейков и генерацией 3D. На старте компания закладывает 1 млрд рублей ($12.5M) инвестиций, с планами инвестировать в AI до 12 миллиардов ($150M) к 2028 году.
Лабораторию возглавил Александр Рыжков — трёхкратный Kaggle Grandmaster (пик — топ-44 мирового рейтинга). Это очень круто — я на пике входил в топ-45, это эксклюзивный клуб куда попадают очень немногие. Команда лаборатории будет заниматься не только фундаментальными исследованиями, но и быстрым созданием MVP – разработки должны внедряться в продукты Авито. Надеюсь, смогут натренировать что-то классное свое!
@ai_newz
Заниматься будут генеративными моделями, компьютерным зрением, распознаванием голоса, защитой от дипфейков и генерацией 3D. На старте компания закладывает 1 млрд рублей ($12.5M) инвестиций, с планами инвестировать в AI до 12 миллиардов ($150M) к 2028 году.
Лабораторию возглавил Александр Рыжков — трёхкратный Kaggle Grandmaster (пик — топ-44 мирового рейтинга). Это очень круто — я на пике входил в топ-45, это эксклюзивный клуб куда попадают очень немногие. Команда лаборатории будет заниматься не только фундаментальными исследованиями, но и быстрым созданием MVP – разработки должны внедряться в продукты Авито. Надеюсь, смогут натренировать что-то классное свое!
@ai_newz
7👍175❤57🔥42😁25😱7⚡5🤯5💔3
Artificial Analysis начали проверять API провайдеров на точность
Начали пока что с GPT OSS 120B, хотя такую практику стоило бы расширить и на другие модели. Тестируют модель, прогоняя несколько бенчмарков несколько раз на каждом API провайдере, при это показывают не только медианное значение, но и разброс результатов бенчмарков. Как оказалось, разница между провайдерами огромная — на AIME25 худший провайдер уступает лучшему на 15 процентных пунктов.
Хуже всех себя показали Azure, AWS и Nebius, хотя, казалось бы, у триллионных компаний должны быть ресурсы на контроль качества. А вот лучше всех себя показали инференс стартапы — Fireworks, Novita и DeepInfra. Cerebras даёт лучшие результаты на AIME25, но на GPQA и IFBench заметно просаживаются.
Такой разброс может быть результатом как багов в софте, так и незадокументированных изменений в процессе инференса, вроде квантизации. Инференс LLM всё же крайне сложное дело — мелкие неточности в подсчётах могут крайне сильно повлиять на результаты, особенно если речь идёт о fp8 инференсе. Поэтому независимые и стандартизированные бенчи настолько важны. Ну а Artificial Analysis стоит подумать, как убедится что провайдеры не используют практики Volkswagen.
@ai_newz
Начали пока что с GPT OSS 120B, хотя такую практику стоило бы расширить и на другие модели. Тестируют модель, прогоняя несколько бенчмарков несколько раз на каждом API провайдере, при это показывают не только медианное значение, но и разброс результатов бенчмарков. Как оказалось, разница между провайдерами огромная — на AIME25 худший провайдер уступает лучшему на 15 процентных пунктов.
Хуже всех себя показали Azure, AWS и Nebius, хотя, казалось бы, у триллионных компаний должны быть ресурсы на контроль качества. А вот лучше всех себя показали инференс стартапы — Fireworks, Novita и DeepInfra. Cerebras даёт лучшие результаты на AIME25, но на GPQA и IFBench заметно просаживаются.
Такой разброс может быть результатом как багов в софте, так и незадокументированных изменений в процессе инференса, вроде квантизации. Инференс LLM всё же крайне сложное дело — мелкие неточности в подсчётах могут крайне сильно повлиять на результаты, особенно если речь идёт о fp8 инференсе. Поэтому независимые и стандартизированные бенчи настолько важны. Ну а Artificial Analysis стоит подумать, как убедится что провайдеры не используют практики Volkswagen.
@ai_newz
56🔥130❤38👍24😱5😁4🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
Tencent выложили веса своего нейронного игрового движка.
Hunyuan Gamecraft можно запустить на 4090, он может генерировать видео в 720p и хорошо запоминает контекст сцены. Я уже делал обзор пейпера когда модель впервые показали, почитать можно тут. Это SOTA, по состоянию на начало лета, от Genie 3 она отстаёт, но на голову выше остальных конкурентов.
Так как моделька основана на Hunyuan Video, в квантизированном виде она запускается на 4090. К сожалению, работать быстро она там вряд-ли будет — дистиллированная в Phased Consistency Model версия модели выдаёт 6 FPS на гораздо более мощной H100. Но оптимизации инференса порой творят чудеса, так что посмотрим что с моделью натворят умельцы.
Genie 3 хорошо так поднял внимание к world models, у нас уже второй открытый релиз на этой неделе, хотя обычно в этой нише открытые релизы крайне редки. Интересно, как будет выглядеть первый успешный коммерческий продукт на основе таких моделей.
Веса
Код
Пейпер
Сайт проекта
@ai_newz
Hunyuan Gamecraft можно запустить на 4090, он может генерировать видео в 720p и хорошо запоминает контекст сцены. Я уже делал обзор пейпера когда модель впервые показали, почитать можно тут. Это SOTA, по состоянию на начало лета, от Genie 3 она отстаёт, но на голову выше остальных конкурентов.
Так как моделька основана на Hunyuan Video, в квантизированном виде она запускается на 4090. К сожалению, работать быстро она там вряд-ли будет — дистиллированная в Phased Consistency Model версия модели выдаёт 6 FPS на гораздо более мощной H100. Но оптимизации инференса порой творят чудеса, так что посмотрим что с моделью натворят умельцы.
Genie 3 хорошо так поднял внимание к world models, у нас уже второй открытый релиз на этой неделе, хотя обычно в этой нише открытые релизы крайне редки. Интересно, как будет выглядеть первый успешный коммерческий продукт на основе таких моделей.
Веса
Код
Пейпер
Сайт проекта
@ai_newz
2🔥109👍32❤26🤯9
Imagen 4, SOTA txt2img модель от Google, появилась в официальном API
На Artificial Analysis Image Arena Leaderboard модель пока сидит на 3м месте, при этом ultra версия уже успела занять топ-1 на арене от LMSYS.
Цены: $60/$40/$20 за 1000 изображений для режимов Ultra, Standard и Fast соответственно. В режиме Fast картинка генерируется за пару секунд. В Ultra, даже в разрешении 2K, — около 20 секунд, что в разы быстрее той же GPT. Но, к сожалению, без редактирования текстом (для этого есть Veo 3😂 ).
Потыкаться во все три режима бесплатно можно в AI Studio.
@ai_newz
На Artificial Analysis Image Arena Leaderboard модель пока сидит на 3м месте, при этом ultra версия уже успела занять топ-1 на арене от LMSYS.
Цены: $60/$40/$20 за 1000 изображений для режимов Ultra, Standard и Fast соответственно. В режиме Fast картинка генерируется за пару секунд. В Ultra, даже в разрешении 2K, — около 20 секунд, что в разы быстрее той же GPT. Но, к сожалению, без редактирования текстом (для этого есть Veo 3
Потыкаться во все три режима бесплатно можно в AI Studio.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥51❤30👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Project Odyssey Season 3
Открылась регистрация на 3-й сезон самого масштабного конкурса AI-фильмов.
Если вы AI-кинодел, то вам точно стоит поучаствовать в этом конкурсе. Хотя, судя по всему, конкуренция там уже такая, что без бэкграунда в кино не обойтись. Финалисты работают большими командами с режиссёрами, креативными директорами и монтажёрами с опытом в моушен-графике для ретуши артефактов.
Но даже если шансов победить не так много, к этому стоит присоединиться хотя бы ради халявы. В прошлый раз раздавали подписки и токены чуть ли не на всё подряд. Хоть и в ограниченных количествах, бюджет видео в среднем составил 200 баксов только на токены, боюсь представить сколько выйдет сейчас, когда все получили доступ к VEO 3.
Прошлых финалистов можно посмотреть здесь.
projectodyssey.ai
@ai_newz
Открылась регистрация на 3-й сезон самого масштабного конкурса AI-фильмов.
Если вы AI-кинодел, то вам точно стоит поучаствовать в этом конкурсе. Хотя, судя по всему, конкуренция там уже такая, что без бэкграунда в кино не обойтись. Финалисты работают большими командами с режиссёрами, креативными директорами и монтажёрами с опытом в моушен-графике для ретуши артефактов.
Но даже если шансов победить не так много, к этому стоит присоединиться хотя бы ради халявы. В прошлый раз раздавали подписки и токены чуть ли не на всё подряд. Хоть и в ограниченных количествах, бюджет видео в среднем составил 200 баксов только на токены, боюсь представить сколько выйдет сейчас, когда все получили доступ к VEO 3.
Прошлых финалистов можно посмотреть здесь.
projectodyssey.ai
@ai_newz
🔥67❤27👍18🦄6❤🔥1
Нейродайджест за неделю (#82)
LLM
- Контекст Claude 4 Sonnet расширили до миллиона токенов — Апдейт в бете для клиентов Tier 4 (купивших API кредитов на $400+). Цена за промпты длиннее 200к токенов выросла в 1.5-2x.
- Провайдеров GPT OSS 120B проверили на качество ответов — Разница огромная, клауд гиганты AWS и Azure в числе худших, лучше всех — инференс-стартапы Fireworks, Novita и DeepInfra.
Генеративные модели
- Hunyuan GameCraft от Tencent — Открытый нейронный игровой движок, который можно запустить на 4090. Генерирует видео в 720p с хорошей памятью контекста сцены. SOTA на начало лета, хотя и отстает от Genie 3.
- Imagen 4 официально релизнулась, цены — $60/$40/$20 за 1000 изображений для Ultra/Standard/Fast режимов.
Прочее
- Project Odyssey Season 3 — Открылась регистрация на самый масштабный конкурс AI-фильмов. В прошлом сезоне средний бюджет видео составил $200 только на токены, сейчас с доступом к VEO 3 может быть еще дороже.
Читать дайджест #81
#дайджест
@ai_newz
LLM
- Контекст Claude 4 Sonnet расширили до миллиона токенов — Апдейт в бете для клиентов Tier 4 (купивших API кредитов на $400+). Цена за промпты длиннее 200к токенов выросла в 1.5-2x.
- Провайдеров GPT OSS 120B проверили на качество ответов — Разница огромная, клауд гиганты AWS и Azure в числе худших, лучше всех — инференс-стартапы Fireworks, Novita и DeepInfra.
Генеративные модели
- Hunyuan GameCraft от Tencent — Открытый нейронный игровой движок, который можно запустить на 4090. Генерирует видео в 720p с хорошей памятью контекста сцены. SOTA на начало лета, хотя и отстает от Genie 3.
- Imagen 4 официально релизнулась, цены — $60/$40/$20 за 1000 изображений для Ultra/Standard/Fast режимов.
Прочее
- Project Odyssey Season 3 — Открылась регистрация на самый масштабный конкурс AI-фильмов. В прошлом сезоне средний бюджет видео составил $200 только на токены, сейчас с доступом к VEO 3 может быть еще дороже.
Читать дайджест #81
#дайджест
@ai_newz
1👍33❤17🔥9⚡4🦄1
Как вы уже слышали, недавно у меня произошла трансформация Staff Research Scientist Meta → CEO GenAI стартапа, который я основал. Мы занимаемся тем, что я умею лучше всего - обучением генеративных моделей для картинок и видео.
Если вы частый пользователь GenAI тулов для генерации картинок и видео, то хочу услышать ваше мнение о том, что вы сейчас используете и какие у этого есть недостатки. Заполните короткий опростник, и отпишитесь, если хотели бы созвониться с нами обсудить свой опыт и боли в генерации визуального контента.
В благодарность некоторым из вас мы сможем выдать приоритетный доступ к beta тесту нашей модели и лимитированный "эйай ньюз" мерч)!
🚩Пройти опрос (1 минута): ссылка.
Заранее спасибо!
@ai_newz
Если вы частый пользователь GenAI тулов для генерации картинок и видео, то хочу услышать ваше мнение о том, что вы сейчас используете и какие у этого есть недостатки. Заполните короткий опростник, и отпишитесь, если хотели бы созвониться с нами обсудить свой опыт и боли в генерации визуального контента.
В благодарность некоторым из вас мы сможем выдать приоритетный доступ к beta тесту нашей модели и лимитированный "эйай ньюз" мерч)!
🚩Пройти опрос (1 минута): ссылка.
Заранее спасибо!
@ai_newz
20🔥263❤63😁24👍14🦄10🤩8😍5
Две AI/ML-вакансии в продуктовой компании
Команда, развивающая AI-продукт с MAU 40 млн, ищет двух специалистов: Lead и Engineer.
1. AI/ML Lead (релокация на Кипр)
Задачи:
- Руководство командой AI/ML-инженеров.
- Создание PoC и прототипов новых AI-сервисов.
- Проектирование и оптимизация архитектуры взаимодействия с LLM (Agent, RAG, мультимодальные модели).
- Развитие чат-бота и качества image/video generation.
- Отслеживание трендов и их внедрение в продукт.
Требования:
- 2+ года опыта в роли Team Lead.
- 2+ года hands-on опыта с LLM (prompt-engineering, fine-tuning, интеграция в продакшен).
- Опыт работы с Agent/RAG.
- Python, опыт с GPU-инференсом.
- Опыт с Stable Diffusion / video generation.
- MSc в области AI/ML будет плюсом.
Условия:
- Возможность работать удалённо с последующей релокацией на Кипр.
- Работа над продуктом с большой аудиторией.
Откликнуться
2. AI Engineer / Computer Vision Engineer (удалённо)
Задачи:
- Post-train (дотренировка) базовых моделей.
- Оптимизация моделей.
- Тестирование и валидация сгенерированных изображений.
- Мониторинг последних исследований в области AI.
- Построение и оптимизация пайплайнов t2i, i2v, t2v.
Требования:
- BSc/MSc в CS/AI/ML.
- Опыт в AI image generation и prompt-engineering.
- Глубокое понимание нейросетей и training workflows (checkpoints, merges).
- Стек: Python + PyTorch/diffusers/transformers/DeepSpeed/ONNX/TensorRT/CUDA.
- Знание трендов на Civitai, Hugging Face.
- Опыт работы с SDXL, a1111, ComfyUI.
- Опыт оптимизации инференса (fp8, Flash Attention, LoRA).
- Опыт с video generation и streaming pipelines.
Условия:
- Полностью удалённая работа с возможностью релокации в будущем.
- Возможности для карьерного роста.
Откликнуться
#промо
Команда, развивающая AI-продукт с MAU 40 млн, ищет двух специалистов: Lead и Engineer.
1. AI/ML Lead (релокация на Кипр)
Задачи:
- Руководство командой AI/ML-инженеров.
- Создание PoC и прототипов новых AI-сервисов.
- Проектирование и оптимизация архитектуры взаимодействия с LLM (Agent, RAG, мультимодальные модели).
- Развитие чат-бота и качества image/video generation.
- Отслеживание трендов и их внедрение в продукт.
Требования:
- 2+ года опыта в роли Team Lead.
- 2+ года hands-on опыта с LLM (prompt-engineering, fine-tuning, интеграция в продакшен).
- Опыт работы с Agent/RAG.
- Python, опыт с GPU-инференсом.
- Опыт с Stable Diffusion / video generation.
- MSc в области AI/ML будет плюсом.
Условия:
- Возможность работать удалённо с последующей релокацией на Кипр.
- Работа над продуктом с большой аудиторией.
Откликнуться
2. AI Engineer / Computer Vision Engineer (удалённо)
Задачи:
- Post-train (дотренировка) базовых моделей.
- Оптимизация моделей.
- Тестирование и валидация сгенерированных изображений.
- Мониторинг последних исследований в области AI.
- Построение и оптимизация пайплайнов t2i, i2v, t2v.
Требования:
- BSc/MSc в CS/AI/ML.
- Опыт в AI image generation и prompt-engineering.
- Глубокое понимание нейросетей и training workflows (checkpoints, merges).
- Стек: Python + PyTorch/diffusers/transformers/DeepSpeed/ONNX/TensorRT/CUDA.
- Знание трендов на Civitai, Hugging Face.
- Опыт работы с SDXL, a1111, ComfyUI.
- Опыт оптимизации инференса (fp8, Flash Attention, LoRA).
- Опыт с video generation и streaming pipelines.
Условия:
- Полностью удалённая работа с возможностью релокации в будущем.
- Возможности для карьерного роста.
Откликнуться
#промо
1❤42🔥22😁15👍5🤯5😱3
🐳DeepSeek V3.1
Очередной апдейт V3 линейки, на той же архитектуре, но на этот раз апдейтнули и base модель. Похоже модель гибридная — ризонер и инстракт в одном флаконе.
Заметного прироста в интеллекте не замечено, но модель теперь тратит в разы меньше токенов. Это крайне полезно В чём-то релиз по духу похож на DeepSeek V2.5, вышедшего почти год назад — тогда линейку DeepSeek Coder смержили в основную. Так что есть нехилые шансы что свидетели релиза R2 его так и не дождутся.
Пока ждём пейпера, анонса и окончательного релиза весов, модель уже можно попробовать в чате.
chat.deepseek.com
@ai_newz
Очередной апдейт V3 линейки, на той же архитектуре, но на этот раз апдейтнули и base модель. Похоже модель гибридная — ризонер и инстракт в одном флаконе.
Заметного прироста в интеллекте не замечено, но модель теперь тратит в разы меньше токенов. Это крайне полезно В чём-то релиз по духу похож на DeepSeek V2.5, вышедшего почти год назад — тогда линейку DeepSeek Coder смержили в основную. Так что есть нехилые шансы что свидетели релиза R2 его так и не дождутся.
Пока ждём пейпера, анонса и окончательного релиза весов, модель уже можно попробовать в чате.
chat.deepseek.com
@ai_newz
🔥79👍31❤18💔4
Детали DeepSeek V3.1
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению с V3-0324. А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению с V3-0324. А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
👍101❤45🔥28🦄2
Если вам не хватало странного в жизни — PewDiePie выпустил видео, где он собирает сервер для локального инференса LLM своими руками. 8 видеокарт, Threadripper, 160 гигабайт видеопамяти. Вот никогда не думал что увижу такое.
https://www.youtube.com/watch?v=2JzOe1Hs26Q
@ai_newz
https://www.youtube.com/watch?v=2JzOe1Hs26Q
@ai_newz
YouTube
Accidentally Built a Nuclear Supercomputer.
#ad - THE NEW G FUEL FORMULA 👉 https://gfuel.ly/pdp-new-formula
🌎 Get an exclusive 15% discount on Saily data plans! Use code pewdiepie at checkout. Download Saily app or go to https://saily.com/pewdiepie ⛵
🌎 Get an exclusive 15% discount on Saily data plans! Use code pewdiepie at checkout. Download Saily app or go to https://saily.com/pewdiepie ⛵
🔥197🤯71❤29😁21👍4
GigaAM: эффективный метод предобучения для распознавания речи
Исследователи из Сбера представили новый подход к обучению моделей распознавания речи, который показывает хорошие результаты даже без большого объема размеченных данных. Работа была принята на Interspeech 2025 — главной конференции года в области речевых технологий.
Как работает
Вместо классического метода с акустическими переменными (как в wav2vec 2.0 или HuBERT), GigaAM использует сигналы из CTC-модели. CTC (Connectionist Temporal Classification) — это подход, который умеет получать текст прямо из аудио, не требуя точной разметки где какой звук. В отличие от низкоуровневых акустических признаков, CTC-модель уже понимает семантику речи.
Self-supervised подход работает в два этапа: сначала они обучили свою CTC-модель на базе Conformer на 50k часах русской речи. Потом берут её выходы, делают K-means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио. Используется последний слой CTC-модели, а не промежуточные — так получаются более осмысленные цели.
Итоговое обучение идёт на 50k часов русской речи, а чтобы модель работала и в онлайн режиме, и с полным контекстом, во время обучения случайно меняют размер чанков (от 200мс до 8с).
Результаты
— минус 50% WER по сравнению с Whisper-large-v3
— лучшая точность среди open-source решений для русского
— одна модель для онлайн- и оффлайн-режимов
— масштабируется по данным и параметрам
— работает даже на 0.1% размеченных данных
На мой взгляд, это заметно облегчает одну из главных болей сферы — зависимость от размеченных датасетов. Для русского языка это особенно критично: собрать хороший корпус — долго, дорого и часто невозможно. А тут self-supervised подход, который работает даже в условиях дефицита данных.
Практически это означает более доступную разработку голосовых интерфейсов: помощников, систем распознавания звонков, ASR в чат-ботах. Модель и код выложены в открытый доступ — можно адаптировать под другие языки и задачи.
Статья
Код
@ai_newz
Исследователи из Сбера представили новый подход к обучению моделей распознавания речи, который показывает хорошие результаты даже без большого объема размеченных данных. Работа была принята на Interspeech 2025 — главной конференции года в области речевых технологий.
Как работает
Вместо классического метода с акустическими переменными (как в wav2vec 2.0 или HuBERT), GigaAM использует сигналы из CTC-модели. CTC (Connectionist Temporal Classification) — это подход, который умеет получать текст прямо из аудио, не требуя точной разметки где какой звук. В отличие от низкоуровневых акустических признаков, CTC-модель уже понимает семантику речи.
Self-supervised подход работает в два этапа: сначала они обучили свою CTC-модель на базе Conformer на 50k часах русской речи. Потом берут её выходы, делают K-means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио. Используется последний слой CTC-модели, а не промежуточные — так получаются более осмысленные цели.
Итоговое обучение идёт на 50k часов русской речи, а чтобы модель работала и в онлайн режиме, и с полным контекстом, во время обучения случайно меняют размер чанков (от 200мс до 8с).
Результаты
— минус 50% WER по сравнению с Whisper-large-v3
— лучшая точность среди open-source решений для русского
— одна модель для онлайн- и оффлайн-режимов
— масштабируется по данным и параметрам
— работает даже на 0.1% размеченных данных
На мой взгляд, это заметно облегчает одну из главных болей сферы — зависимость от размеченных датасетов. Для русского языка это особенно критично: собрать хороший корпус — долго, дорого и часто невозможно. А тут self-supervised подход, который работает даже в условиях дефицита данных.
Практически это означает более доступную разработку голосовых интерфейсов: помощников, систем распознавания звонков, ASR в чат-ботах. Модель и код выложены в открытый доступ — можно адаптировать под другие языки и задачи.
Статья
Код
@ai_newz
3❤108🔥58👍27😁12⚡3❤🔥2💯2🤯1🤩1
Фей-Фей Ли хвастается world model своего стартапа — World Labs
Для генерации всего мира понадобилась всего лишь одна картинка, причём по видео видно что консистентность на высоте — модель не забывает детали локации как только пользователь отвернулся. Ну и длина генерации не ограничена.
Все потому что это не традиционная генерация, основанная на видео диффузии (как Genie 3 или Gamecraft), а на гаусовских сплатах (пост с объяснением).
@ai_newz
Для генерации всего мира понадобилась всего лишь одна картинка, причём по видео видно что консистентность на высоте — модель не забывает детали локации как только пользователь отвернулся. Ну и длина генерации не ограничена.
Все потому что это не традиционная генерация, основанная на видео диффузии (как Genie 3 или Gamecraft), а на гаусовских сплатах (пост с объяснением).
@ai_newz
❤135🔥78👍20🤩5😍5😁3🤯1🦄1
Gen:48 Aleph Edition
Сегодня стартовал таймер конкурса Runway. Наверное, второй по масштабу конкурс после Project Odyssey. Но если на последний нужно брать отпуск, то для Gen:48 хватит выходных: цель — сделать фильм на 1-4 минуты за 48 часов. И поскольку сроки так коротки, решает в первую очередь не бюджет, а командная работа и идея.
Если вы занимаетесь генеративным видео, это хороший способ проявить себя, хотя, опять же, конкуренция очень высокая. Тема этого года — VFX, ведь сейчас Aleph — главный козырь Runway. По ощущениям, это другая модель, отдельная от Gen-4. Я ради теста прогонял через неё видео, не требуя редактирования, и на выходе получал просто более качественные и красивые кадры. Да и промпту она следует лучше.
Чёткого ТЗ нет, но, чтобы всё было честно и никто не загружал заранее сделанные видео, есть список тем, которые нужно осветить в своём фильме. Надо сказать, очень вдохновляющих.
В этот раз у нас:
Завязка:
- Исчезновение
- Мир, мерцающий между реальностями
- Метаморфоза
- Внезапное прибытие
Архетип:
- Странник
- Тёмная сущность
- Загадочный учитель
- Древнее существо
- Путешественник во времени
Локация:
- Одна локация в разные эпохи
- Пустота
- Заброшенный офис
- Снежное поле
Принять участие: runwayml.com/gen48
@ai_newz
Сегодня стартовал таймер конкурса Runway. Наверное, второй по масштабу конкурс после Project Odyssey. Но если на последний нужно брать отпуск, то для Gen:48 хватит выходных: цель — сделать фильм на 1-4 минуты за 48 часов. И поскольку сроки так коротки, решает в первую очередь не бюджет, а командная работа и идея.
Если вы занимаетесь генеративным видео, это хороший способ проявить себя, хотя, опять же, конкуренция очень высокая. Тема этого года — VFX, ведь сейчас Aleph — главный козырь Runway. По ощущениям, это другая модель, отдельная от Gen-4. Я ради теста прогонял через неё видео, не требуя редактирования, и на выходе получал просто более качественные и красивые кадры. Да и промпту она следует лучше.
Чёткого ТЗ нет, но, чтобы всё было честно и никто не загружал заранее сделанные видео, есть список тем, которые нужно осветить в своём фильме. Надо сказать, очень вдохновляющих.
В этот раз у нас:
Завязка:
- Исчезновение
- Мир, мерцающий между реальностями
- Метаморфоза
- Внезапное прибытие
Архетип:
- Странник
- Тёмная сущность
- Загадочный учитель
- Древнее существо
- Путешественник во времени
Локация:
- Одна локация в разные эпохи
- Пустота
- Заброшенный офис
- Снежное поле
Принять участие: runwayml.com/gen48
@ai_newz
❤19⚡3👍3🔥3🦄1