Telegram Group Search
Контекст Claude 4 Sonnet расширили до миллиона токенов

Апдейт запустили в бете для клиентов Tier 4 — это те кто купили API кредитов на $400+. Про планы на доступность расширенного контекста в подписке ничего не говорят. Но их тут никто не подгоняет — главный конкурент всё ещё умудряется давать модели с 32k токенов контекста в Plus плане за $20 в месяц, а вот на рынке API конкуренция по окну контекста куда жёстче.

Claude уже давно умеет в большие окна контекста — Claude Haiku с миллионом токенов контекста показывали ещё в Model Card Claude 3, но в релизе было доступно всего лишь 200к токенов. После этого они запустили подписку Claude Enterprise с 500k токенов контекста в прошлом сентябре.

Цена за промпты длиннее 200к токенов значительно выше — $6/$22.5 за миллион токенов, цена за промпты до 200к токенов остаётся прежней — $3/$15 за миллион токенов. GPT 4.1 остаётся единственной заметной моделью с миллионом токенов контекста, цена на которую не повышается после определённого порога.

@ai_newz
5109👍41🔥28😁3🤯2🫡1
Технологическая платформа Авито запускает AI лабу с прикладным уклоном

Заниматься будут генеративными моделями, компьютерным зрением, распознаванием голоса, защитой от дипфейков и генерацией 3D. На старте компания закладывает 1 млрд рублей ($12.5M) инвестиций, с планами инвестировать в AI до 12 миллиардов ($150M) к 2028 году.

Лабораторию возглавил Александр Рыжков — трёхкратный Kaggle Grandmaster (пик — топ-44 мирового рейтинга). Это очень круто — я на пике входил в топ-45, это эксклюзивный клуб куда попадают очень немногие. Команда лаборатории будет заниматься не только фундаментальными исследованиями, но и быстрым созданием MVP – разработки должны внедряться в продукты Авито. Надеюсь, смогут натренировать что-то классное свое!

@ai_newz
7👍17557🔥42😁25😱75🤯5💔3
Artificial Analysis начали проверять API провайдеров на точность

Начали пока что с GPT OSS 120B, хотя такую практику стоило бы расширить и на другие модели. Тестируют модель, прогоняя несколько бенчмарков несколько раз на каждом API провайдере, при это показывают не только медианное значение, но и разброс результатов бенчмарков. Как оказалось, разница между провайдерами огромная — на AIME25 худший провайдер уступает лучшему на 15 процентных пунктов.

Хуже всех себя показали Azure, AWS и Nebius, хотя, казалось бы, у триллионных компаний должны быть ресурсы на контроль качества. А вот лучше всех себя показали инференс стартапы — Fireworks, Novita и DeepInfra. Cerebras даёт лучшие результаты на AIME25, но на GPQA и IFBench заметно просаживаются.

Такой разброс может быть результатом как багов в софте, так и незадокументированных изменений в процессе инференса, вроде квантизации. Инференс LLM всё же крайне сложное дело — мелкие неточности в подсчётах могут крайне сильно повлиять на результаты, особенно если речь идёт о fp8 инференсе. Поэтому независимые и стандартизированные бенчи настолько важны. Ну а Artificial Analysis стоит подумать, как убедится что провайдеры не используют практики Volkswagen.

@ai_newz
56🔥13038👍24😱5😁4🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
Tencent выложили веса своего нейронного игрового движка.

Hunyuan Gamecraft можно запустить на 4090, он может генерировать видео в 720p и хорошо запоминает контекст сцены. Я уже делал обзор пейпера когда модель впервые показали, почитать можно тут. Это SOTA, по состоянию на начало лета, от Genie 3 она отстаёт, но на голову выше остальных конкурентов.

Так как моделька основана на Hunyuan Video, в квантизированном виде она запускается на 4090. К сожалению, работать быстро она там вряд-ли будет — дистиллированная в Phased Consistency Model версия модели выдаёт 6 FPS на гораздо более мощной H100. Но оптимизации инференса порой творят чудеса, так что посмотрим что с моделью натворят умельцы.

Genie 3 хорошо так поднял внимание к world models, у нас уже второй открытый релиз на этой неделе, хотя обычно в этой нише открытые релизы крайне редки. Интересно, как будет выглядеть первый успешный коммерческий продукт на основе таких моделей.

Веса
Код
Пейпер
Сайт проекта

@ai_newz
2🔥109👍3226🤯9
Imagen 4, SOTA txt2img модель от Google, появилась в официальном API

На Artificial Analysis Image Arena Leaderboard модель пока сидит на 3м месте, при этом ultra версия уже успела занять топ-1 на арене от LMSYS.

Цены: $60/$40/$20 за 1000 изображений для режимов Ultra, Standard и Fast соответственно. В режиме Fast картинка генерируется за пару секунд. В Ultra, даже в разрешении 2K, — около 20 секунд, что в разы быстрее той же GPT. Но, к сожалению, без редактирования текстом (для этого есть Veo 3 😂).

Потыкаться во все три режима бесплатно можно в AI Studio.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥5130👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Project Odyssey Season 3

Открылась регистрация на 3-й сезон самого масштабного конкурса AI-фильмов.

Если вы AI-кинодел, то вам точно стоит поучаствовать в этом конкурсе. Хотя, судя по всему, конкуренция там уже такая, что без бэкграунда в кино не обойтись. Финалисты работают большими командами с режиссёрами, креативными директорами и монтажёрами с опытом в моушен-графике для ретуши артефактов.

Но даже если шансов победить не так много, к этому стоит присоединиться хотя бы ради халявы. В прошлый раз раздавали подписки и токены чуть ли не на всё подряд. Хоть и в ограниченных количествах, бюджет видео в среднем составил 200 баксов только на токены, боюсь представить сколько выйдет сейчас, когда все получили доступ к VEO 3.

Прошлых финалистов можно посмотреть здесь.

projectodyssey.ai

@ai_newz
🔥6727👍18🦄6❤‍🔥1
Нейродайджест за неделю (#82)

LLM
- Контекст Claude 4 Sonnet расширили до миллиона токенов — Апдейт в бете для клиентов Tier 4 (купивших API кредитов на $400+). Цена за промпты длиннее 200к токенов выросла в 1.5-2x.
- Провайдеров GPT OSS 120B проверили на качество ответов — Разница огромная, клауд гиганты AWS и Azure в числе худших, лучше всех — инференс-стартапы Fireworks, Novita и DeepInfra.

Генеративные модели
- Hunyuan GameCraft от Tencent — Открытый нейронный игровой движок, который можно запустить на 4090. Генерирует видео в 720p с хорошей памятью контекста сцены. SOTA на начало лета, хотя и отстает от Genie 3.
- Imagen 4 официально релизнулась, цены — $60/$40/$20 за 1000 изображений для Ultra/Standard/Fast режимов.

Прочее
- Project Odyssey Season 3 — Открылась регистрация на самый масштабный конкурс AI-фильмов. В прошлом сезоне средний бюджет видео составил $200 только на токены, сейчас с доступом к VEO 3 может быть еще дороже.


Читать дайджест #81

#дайджест
@ai_newz
1👍3317🔥94🦄1
Как вы уже слышали, недавно у меня произошла трансформация Staff Research Scientist Meta → CEO GenAI стартапа, который я основал. Мы занимаемся тем, что я умею лучше всего - обучением генеративных моделей для картинок и видео.

Если вы частый пользователь GenAI тулов для генерации картинок и видео, то хочу услышать ваше мнение о том, что вы сейчас используете и какие у этого есть недостатки. Заполните короткий опростник, и отпишитесь, если хотели бы созвониться с нами обсудить свой опыт и боли в генерации визуального контента.

В благодарность некоторым из вас мы сможем выдать приоритетный доступ к beta тесту нашей модели и лимитированный "эйай ньюз" мерч)!

🚩Пройти опрос (1 минута): ссылка.

Заранее спасибо!

@ai_newz
20🔥26363😁24👍14🦄10🤩8😍5
Две AI/ML-вакансии в продуктовой компании

Команда, развивающая AI-продукт с MAU 40 млн, ищет двух специалистов: Lead и Engineer.

1. AI/ML Lead (релокация на Кипр)

Задачи:
- Руководство командой AI/ML-инженеров.
- Создание PoC и прототипов новых AI-сервисов.
- Проектирование и оптимизация архитектуры взаимодействия с LLM (Agent, RAG, мультимодальные модели).
- Развитие чат-бота и качества image/video generation.
- Отслеживание трендов и их внедрение в продукт.

Требования:
- 2+ года опыта в роли Team Lead.
- 2+ года hands-on опыта с LLM (prompt-engineering, fine-tuning, интеграция в продакшен).
- Опыт работы с Agent/RAG.
- Python, опыт с GPU-инференсом.
- Опыт с Stable Diffusion / video generation.
- MSc в области AI/ML будет плюсом.

Условия:
- Возможность работать удалённо с последующей релокацией на Кипр.
- Работа над продуктом с большой аудиторией.

Откликнуться


2. AI Engineer / Computer Vision Engineer (удалённо)

Задачи:
- Post-train (дотренировка) базовых моделей.
- Оптимизация моделей.
- Тестирование и валидация сгенерированных изображений.
- Мониторинг последних исследований в области AI.
- Построение и оптимизация пайплайнов t2i, i2v, t2v.

Требования:
- BSc/MSc в CS/AI/ML.
- Опыт в AI image generation и prompt-engineering.
- Глубокое понимание нейросетей и training workflows (checkpoints, merges).
- Стек: Python + PyTorch/diffusers/transformers/DeepSpeed/ONNX/TensorRT/CUDA.
- Знание трендов на Civitai, Hugging Face.
- Опыт работы с SDXL, a1111, ComfyUI.
- Опыт оптимизации инференса (fp8, Flash Attention, LoRA).
- Опыт с video generation и streaming pipelines.

Условия:
- Полностью удалённая работа с возможностью релокации в будущем.
- Возможности для карьерного роста.

Откликнуться

#промо
142🔥22😁15👍5🤯5😱3
🐳DeepSeek V3.1

Очередной апдейт V3 линейки, на той же архитектуре, но на этот раз апдейтнули и base модель. Похоже модель гибридная — ризонер и инстракт в одном флаконе.

Заметного прироста в интеллекте не замечено, но модель теперь тратит в разы меньше токенов. Это крайне полезно В чём-то релиз по духу похож на DeepSeek V2.5, вышедшего почти год назад — тогда линейку DeepSeek Coder смержили в основную. Так что есть нехилые шансы что свидетели релиза R2 его так и не дождутся.

Пока ждём пейпера, анонса и окончательного релиза весов, модель уже можно попробовать в чате.

chat.deepseek.com

@ai_newz
🔥79👍3118💔4
Детали DeepSeek V3.1

Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению с V3-0324. А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.

Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.

С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.

Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.

Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.

@ai_newz
👍10145🔥28🦄2
Если вам не хватало странного в жизни — PewDiePie выпустил видео, где он собирает сервер для локального инференса LLM своими руками. 8 видеокарт, Threadripper, 160 гигабайт видеопамяти. Вот никогда не думал что увижу такое.

https://www.youtube.com/watch?v=2JzOe1Hs26Q

@ai_newz
🔥197🤯7129😁21👍4
GigaAM: эффективный метод предобучения для распознавания речи

Исследователи из Сбера представили новый подход к обучению моделей распознавания речи, который показывает хорошие результаты даже без большого объема размеченных данных. Работа была принята на Interspeech 2025 — главной конференции года в области речевых технологий.

Как работает

Вместо классического метода с акустическими переменными (как в wav2vec 2.0 или HuBERT), GigaAM использует сигналы из CTC-модели. CTC (Connectionist Temporal Classification) — это подход, который умеет получать текст прямо из аудио, не требуя точной разметки где какой звук. В отличие от низкоуровневых акустических признаков, CTC-модель уже понимает семантику речи.

Self-supervised подход работает в два этапа: сначала они обучили свою CTC-модель на базе Conformer на 50k часах русской речи. Потом берут её выходы, делают K-means кластеризацию для создания меток и учат новую модель угадывать эти метки на замаскированных кусках аудио. Используется последний слой CTC-модели, а не промежуточные — так получаются более осмысленные цели.

Итоговое обучение идёт на 50k часов русской речи, а чтобы модель работала и в онлайн режиме, и с полным контекстом, во время обучения случайно меняют размер чанков (от 200мс до 8с).

Результаты

— минус 50% WER по сравнению с Whisper-large-v3
— лучшая точность среди open-source решений для русского
— одна модель для онлайн- и оффлайн-режимов
— масштабируется по данным и параметрам
— работает даже на 0.1% размеченных данных

На мой взгляд, это заметно облегчает одну из главных болей сферы — зависимость от размеченных датасетов. Для русского языка это особенно критично: собрать хороший корпус — долго, дорого и часто невозможно. А тут self-supervised подход, который работает даже в условиях дефицита данных.

Практически это означает более доступную разработку голосовых интерфейсов: помощников, систем распознавания звонков, ASR в чат-ботах. Модель и код выложены в открытый доступ — можно адаптировать под другие языки и задачи.

Статья
Код

@ai_newz
3108🔥58👍27😁123❤‍🔥2💯2🤯1🤩1
Фей-Фей Ли хвастается world model своего стартапа — World Labs

Для генерации всего мира понадобилась всего лишь одна картинка, причём по видео видно что консистентность на высоте — модель не забывает детали локации как только пользователь отвернулся. Ну и длина генерации не ограничена.

Все потому что это не традиционная генерация, основанная на видео диффузии (как Genie 3 или Gamecraft), а на гаусовских сплатах (пост с объяснением).

@ai_newz
135🔥78👍20🤩5😍5😁3🤯1🦄1
Gen:48 Aleph Edition

Сегодня стартовал таймер конкурса Runway. Наверное, второй по масштабу конкурс после Project Odyssey. Но если на последний нужно брать отпуск, то для Gen:48 хватит выходных: цель — сделать фильм на 1-4 минуты за 48 часов. И поскольку сроки так коротки, решает в первую очередь не бюджет, а командная работа и идея.

Если вы занимаетесь генеративным видео, это хороший способ проявить себя, хотя, опять же, конкуренция очень высокая. Тема этого года — VFX, ведь сейчас Aleph — главный козырь Runway. По ощущениям, это другая модель, отдельная от Gen-4. Я ради теста прогонял через неё видео, не требуя редактирования, и на выходе получал просто более качественные и красивые кадры. Да и промпту она следует лучше.

Чёткого ТЗ нет, но, чтобы всё было честно и никто не загружал заранее сделанные видео, есть список тем, которые нужно осветить в своём фильме. Надо сказать, очень вдохновляющих.

В этот раз у нас:

Завязка:
- Исчезновение
- Мир, мерцающий между реальностями
- Метаморфоза
- Внезапное прибытие

Архетип:
- Странник
- Тёмная сущность
- Загадочный учитель
- Древнее существо
- Путешественник во времени

Локация:
- Одна локация в разные эпохи
- Пустота
- Заброшенный офис
- Снежное поле

Принять участие: runwayml.com/gen48

@ai_newz
193👍3🔥3🦄1
2025/08/23 20:24:22
Back to Top
HTML Embed Code: