FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Появилась новость: за первый месяц работы платформы hh и Минцифры выдано уже 15 тысяч сертификатов. Это добровольный инструмент для оценки IT-навыков: Java, Python, SQL и ещё 14 направлений. После прохождения теста можно получить сертификат и добавить его в резюме — он будет виден рекрутеру.
И вот, буквально на следующий день в чатах пошли обсуждения в духе “как обойти систему”. Кто-то предлагает проходить тест рядом с другом, кто-то — гуглить со второго экрана, кто-то — сажать рядом “знатока”. И ты такой читаешь всё это и думаешь: а зачем?
Это же не экзамен. Не собеседование. Сделано как тест, который ты можешь пройти сам — и по его результату понять: “я вот это знаю, а вот тут пробел”.
📌 Если результат слабый — никто его не увидит. Через месяц можно попробовать ещё раз.
📌 Если прошёл — в профиле появится значок. Да, почти как ачивка в Steam, только это видят работодатели. Особенно это может помочь, если ты джун и пока сложно выделиться среди других резюме.
Качество тестов, кстати, удивило. Ожидал очередную формальность от HR-отдела, а там вполне вменяемая методология.
Контент валидируют инженеры и люди из крупных IT-компаний, пересматривают регулярно.
Внутри представлен пул заданий, вариативность, темы довольно точечные — Python, SQL, Java, и так далее. Сейчас вроде 17 направлений, планируют 21.
Многие знакомые кодеры проходят, чтобы потестить свои скиллы. Без цели “выиграть” или “продать себя”. Просто посмотреть, где я сейчас и что стоит подтянуть.
Кто-нибудь еще проходил? Какие впечатления?
И вот, буквально на следующий день в чатах пошли обсуждения в духе “как обойти систему”. Кто-то предлагает проходить тест рядом с другом, кто-то — гуглить со второго экрана, кто-то — сажать рядом “знатока”. И ты такой читаешь всё это и думаешь: а зачем?
Это же не экзамен. Не собеседование. Сделано как тест, который ты можешь пройти сам — и по его результату понять: “я вот это знаю, а вот тут пробел”.
📌 Если результат слабый — никто его не увидит. Через месяц можно попробовать ещё раз.
📌 Если прошёл — в профиле появится значок. Да, почти как ачивка в Steam, только это видят работодатели. Особенно это может помочь, если ты джун и пока сложно выделиться среди других резюме.
Качество тестов, кстати, удивило. Ожидал очередную формальность от HR-отдела, а там вполне вменяемая методология.
Контент валидируют инженеры и люди из крупных IT-компаний, пересматривают регулярно.
Внутри представлен пул заданий, вариативность, темы довольно точечные — Python, SQL, Java, и так далее. Сейчас вроде 17 направлений, планируют 21.
Многие знакомые кодеры проходят, чтобы потестить свои скиллы. Без цели “выиграть” или “продать себя”. Просто посмотреть, где я сейчас и что стоит подтянуть.
Кто-нибудь еще проходил? Какие впечатления?
Большие языковые модели все активнее проникают в науку, и кажется, что они вот-вот совершат революцию в генерации исследовательских идей. Первые исследования показывали удивительные результаты: идеи, созданные ИИ, эксперты-люди вслепую оценивали как более новаторские и интересные, чем предложения своих коллег. Возникло ощущение, что мы стоим на пороге эры, где креативность станет прерогативой машин.
Ученые из Стэнфорда решили проверить, что стоит за красивой оберткой ИИ-идей. Ведь хорошая идея должна не просто впечатлять на бумаге, а приводить к реальным результатам.
Для этого они провели эксперимент: наняли 43 опытных исследователей и случайным образом раздали им проекты. Часть идей была сгенерирована Claude 3.5 Sonnet, другая — написана экспертами-людьми. Участники, не зная происхождения своей задачи, потратили в среднем по 100 часов на реализацию каждого проекта: писали код, проводили эксперименты и оформляли результаты в виде короткой научной статьи. Весь эксперимент занял почти 3 месяца.
После практической реализации оценки идей, предложенных ИИ, рухнули по всем ключевым метрикам: новизне, значимости, эффективности и общей привлекательности. В то же время оценки человеческих идей почти не изменились.
Этот феномен назвали «разрывом между идеей и реализацией». Если на начальном этапе ИИ-идеи получали условные 6 баллов из 10 за эффективность, то после выполнения проекта их оценка падала до 4. Человеческие идеи, стартовав с 4.8 балла, финишировали с результатом 4.78. Первоначальное преимущество ИИ полностью испарилось.
Анализ показал, что на этапе идеи легко увлечься красивыми формулировками и проигнорировать технические сложности. ИИ отлично справляется с созданием правдоподобных, но поверхностных концепций.
Например, он часто предлагает амбициозные, но трудновыполнимые эксперименты, вроде масштабных опросов носителей языка, которые в реальности исполнители заменяют на более простые, но менее надежные автоматические метрики. Когда же дело доходит до кода и реальных данных, все недочеты, слабые места и отсутствие глубины становятся очевидны.
Команда, работавшая над этим проектом, предлагает 3 пути:
Без этого автоматизация научных открытий останется красивой иллюзией.
Это исследование - важное напоминание для всех, кто работает в технологической сфере. Оно не обесценивает потенциал ИИ, но показывает, что дьявол, как и прежде, кроется в деталях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Ученые из Yale, NYU и Allen Institute запустили SciArena - платформу для сравнения ИИ-моделей по качеству ответов на научные вопросы. Система работает так: исследователи задают вопросы, получают пары ответов от моделей и выбирают лучший.
Среди лидеров: OpenAI o3, обогнавший Claude и Gemini, а из открытых моделей Deepseek-R1-0528 вне конкуренции, она превзошла закрытые аналоги. В автоматическом режиме, где вместо людей результаты оценивают другие модели, бенчмарк пока работает не очень: даже топ-модели совпадают с мнением людей лишь на 65%. Код и наборы данных бенчмарка опубликованы в отрытом доступе.
allenai.org
Соцсеть X (бывшая Twitter) внедряет ИИ-генерируемые заметки, чтобы дополнять или опровергать информацию в постах. Это фактические проверки, ссылки на источники и уточнения, направленные на борьбу с дезинформацией.
Позже система заметок откроется для сторонних разработчиков: их алгоритмы смогут писать заметки, сначала тестируясь на пробных постах, а затем публиковаться. Окончательное решение о публикации будет принимать человек: заметку одобрят, если она покажется полезной пользователям с разными точками зрения. При этом ИИ-модель можно использовать любую, ограничений нет.
bloomberg.com
Baidu запустил масштабное обновление поисковой системы, добавив ИИ-функции. Теперь пользователи могут вводить тексты до 1000 слов, загружать фото, голосовые сообщения и даже видео для поиска. В интерфейс интегрированы генераторы текста и изображений, а бизнесу предложили инструмент для создания видео. Это первый серьезный ребрендинг за 10 лет, так компания пытается вернуть утраченные позиции.
Причина - спад выручки от онлайн-рекламы из-за конкуренции с TikTok (Douyin) и новыми ИИ-браузерами. Google и компания Цукерберга забирают львиную долю рекламных бюджетов, поэтому Baidu не может игнорировать перемены. Новые функции должны удержать аудиторию и привлечь рекламодателей, сделав поиск умнее и удобнее.
techinasia.com
Perplexity представила подписку Max, самый мощный тариф для тех, кто хочет максимизировать продуктивность ИИ. Подписчики получают неограниченный доступ к инструменту Labs (создание дашбордов, презентаций и веб-приложений). Подписчики тарифа также получат ранний доступ к браузереру Comet, приоритетную поддержку и топовые модели ИИ, OpenAI o3-pro и Claude Opus 4. Max уже доступен на iOS и вебе, а вскоре появится и корпоративная версия подписки.
perplexity.ai
Amazon запустил ИИ-систему DeepFleet, которая управляет глобальной сетью из миллиона складских роботов. Вместо фиксированных маршрутов ИИ анализирует данные о прошлых перемещениях и генерирует оптимальные пути в реальном времени, как «умная» система управления городским трафиком. Это должно сократить время перемещений на 10%, ускорить доставку заказов и снизить общее энергопотребление.
Система постоянно обучается на новых данных и работает в 300 центрах по всему миру, адаптируясь к изменениям на складах: роботы Hercules поднимают тяжелые грузы, а Proteus автономно перемещается по помещениям.
wsj.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🤝 Николай Савушкин, инженер рекомендательных систем Яндекса, отметил, что поиск и рекомендации — это одна область с научной точки зрения.
Универсализация — это технологический тренд во всём мире прямо сейчас. Он коснулся поиска и рекомендаций. Оказалось, что это очень похожие задачи с технической точки зрения, потому как всё сошлось к проблеме многоступенчатого ранжирования.
🧠 Подробнее о развитии рекомендательных технологий, проклятии качественного насыщения и пользе датасета Yambda для опенсорса Николай Савушкин рассказал на подкасте издания N + 1.
@ai_machinelearning_big_data
#news #ai #ml
Универсализация — это технологический тренд во всём мире прямо сейчас. Он коснулся поиска и рекомендаций. Оказалось, что это очень похожие задачи с технической точки зрения, потому как всё сошлось к проблеме многоступенчатого ранжирования.
🧠 Подробнее о развитии рекомендательных технологий, проклятии качественного насыщения и пользе датасета Yambda для опенсорса Николай Савушкин рассказал на подкасте издания N + 1.
@ai_machinelearning_big_data
#news #ai #ml
Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.
В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.
ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.
Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.
Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.
С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.
Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.
Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.
В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.
Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.
Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Во времена золотой лихорадки богатели продавцы лопат, а не старатели.
Сегодня тот же принцип работает в ИИ: NVIDIA — продавец лопат XXI века 🛠️
• Золотоискатели-2025 — стартапы и корпорации, обучающие LLM, строящие автономных агентов и генеративные сервисы.
• Лопаты — GPU серии A/H, NVLink, CUDA-стек, DGX-сервера и сетевые ускорители.
• Магазин инструментов — собственные облака NVIDIA и партнёрские дата-центры.
Пока одни ищут «золото» в данных, NVIDIA продаёт каждому из них новые лопаты — и зарабатывает на каждом.
💰 Если бы вы вложили $10,000 в Nvidia в 2010… сейчас у вас было бы $4,400,000.
@ai_machinelearning_big_data
#ai #ml #Nvidia #market
#AI #GPU #NVIDIA #Инфраструктура
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Veo 3 Fast - это ускоренная версия модели для создания видео из текста. Она обрабатывает запросы более чем в два раза быстрее Veo 3, но с ограничением по качеству: максимум 720p.
Сервис доступен в 159 странах, включая все страны Европы. Пользователи Gemini Pro получают три генерации в день, а подписчики Ultra — до 125 видео в месяц. Дополнительно, снизили частоту отклонения пользовательских промптов.
Google уже готовит добавление функции Image-to-video, она находится «на финальной стадии».
Josh Woodward (VP Google) в сети X
Ученые из Helmholtz Munich создали модель Centaur, способную предсказывать решения людей в любых психологических задачах, от выбора риска до обучения. Команда адаптировала Llama 3.1, обучив ее на данных из 10 млн. решений. По тестам Centaur превзошел специализированные алгоритмы, которые разрабатывали годами. Модель угадывает поведение даже в новых сценариях при изменении контекста задачи или добавления новых опций.
Внутренние процессы Centaur начали напоминать активность человеческого мозга без прямого обучения на нейронных данных. Цифровой «мозг» даже открыл новую стратегию принятия решений.
Исследователи открыли доступ к модели и датасету Psych-101, обещая прорыв в психологии, образовании и дизайне продуктов.
nature.com
Компания разрабатывает функцию для чат-ботов в своем AI Studio: они смогут инициировать диалог с пользователями, если те ранее активно общались с ботом (не менее 5 сообщений за 2 недели). После первого ответного сообщения от пользователя боты продолжат общение, но только в течение 14 дней, и прекратят попытки, если ответа не последует.
Цель функции - удерживать аудиторию, увеличивая вовлеченность, это напрямую связано со стратегией монетизации ИИ-продуктов (прогнозируемый доход $2–3 млрд. в 2025 году). Пилотный тест уже запущен, но детали реализации остаются расплывчатыми.
businessinsider.com
Более 45 технологических и промышленных гигантов призвали Еврокомиссию перенести сроки вступления в силу закона об искусственном интеллекте на два года. Они утверждают, что текущие требования к мощным ИИ-моделям слишком расплывчаты и угрожают развитию инноваций.
Регулирование должно начаться в августе, инициативу отрытого обращения к ЕК запустили General Catalyst, SAP и Spotify, хотя последние двое не подписали письмо.
bloomberg.com
Облачный провайдер CoreWeave первым установил серверы Nvidia GB300 NVL72 с новыми GPU Blackwell Ultra. Платформа, собранная Dell, объединяет 72 видеокарты и 36 процессоров Grace, обеспечивает 50-кратный роста производительности при инференсе и 5-кратную энергоэффективность по сравнению с архитектурой Hopper. Инсталляция ориентирована на тяжелые нейросетевые задачи и агентные вычисления.
Система уже доступна клиентам, раннее внедрение может стать козырем провайдера в конкуренции за внимание технической аудитории.
cnbc.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Хочешь стать уверенным специалистом в ИИ и машинном обучении?
Открой дверь в профессию будущего вместе с магистратурой ИТМО «Проектирование и разработка систем искусственного интеллекта»!
🔍 Что тебя ждёт:
Ты не просто изучишь теорию — ты научишься создавать полноценные ИИ-продукты, работать с современными ML-инструментами и станешь ключевым игроком в команде разработки сложных высоконагруженных систем.
🧠 В программе:
• формирование и анализ бизнес-требований к ИИ-системам;
• интеграция методов машинного обучения в реальные продукты;
• проектирование архитектур ML-систем, включая инференс и мониторинг;
• освоение инструментов MLFlow, Airflow, DVC, TensorBoard, ClearML и др.
👨🏫 Преподаватели — практики из индустрии, а среди партнёров программы — MTS, Ecom.Tech, Nexign, Россети, Росатом.
📈 Кем ты сможешь стать:
• архитектором ИИ-систем (AI Architect);
• тимлидом команды машинного обучения (ML Team Lead);
• менеджером ИИ-проектов (ML Project Manager).
🎓 26 бюджетных мест и возможность поступить дистанционно — не упусти шанс!
📌 Подробнее о программе и подача документов по ссылке:
https://abit.itmo.ru/program/master/ai_systems/
Реклама. Кугаевских Александр Владимирович. Erid: CQH36pWzJqNKPmQBs3w5fiMnbfBi1UroNwDTyfwC6Lfjwp
Открой дверь в профессию будущего вместе с магистратурой ИТМО «Проектирование и разработка систем искусственного интеллекта»!
🔍 Что тебя ждёт:
Ты не просто изучишь теорию — ты научишься создавать полноценные ИИ-продукты, работать с современными ML-инструментами и станешь ключевым игроком в команде разработки сложных высоконагруженных систем.
🧠 В программе:
• формирование и анализ бизнес-требований к ИИ-системам;
• интеграция методов машинного обучения в реальные продукты;
• проектирование архитектур ML-систем, включая инференс и мониторинг;
• освоение инструментов MLFlow, Airflow, DVC, TensorBoard, ClearML и др.
👨🏫 Преподаватели — практики из индустрии, а среди партнёров программы — MTS, Ecom.Tech, Nexign, Россети, Росатом.
📈 Кем ты сможешь стать:
• архитектором ИИ-систем (AI Architect);
• тимлидом команды машинного обучения (ML Team Lead);
• менеджером ИИ-проектов (ML Project Manager).
🎓 26 бюджетных мест и возможность поступить дистанционно — не упусти шанс!
📌 Подробнее о программе и подача документов по ссылке:
https://abit.itmo.ru/program/master/ai_systems/
Реклама. Кугаевских Александр Владимирович. Erid: CQH36pWzJqNKPmQBs3w5fiMnbfBi1UroNwDTyfwC6Lfjwp
Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.
Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.
В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.
Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.
Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.
С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.
Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.
Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.
Точное восприятие мира совершенно не гарантирует точного прогноза.
Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.
Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.
У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.
@ai_machinelearning_big_data
#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Коалиция независимых издателей подала антимонопольную жалобу на Google в Еврокомиссию. Они утверждают, что новая функция AI Overviews отбирает у них трафик и рекламные доходы, используя их контент без разрешения и компенсации.
Основная претензия заключается в том, что издатели не могут запретить использование своих материалов для обучения нейросетей и создания саммари, не рискуя при этом полностью исчезнуть из результатов поиска. Google же заявляет, что AI Overviews лишь помогает пользователям находить контент.
reuters.com
Сохам Парекх оказался в центре скандала, когда выяснилось, что он тайно занимал фултайм-позиции сразу в нескольких стартапах. Все началось с поста основателя Playground AI, который рассказал, что Парех умудрялся работать на 3-4 компании сразу. К обсуждению быстро подключились другие компании, подтвердившие, что тоже собеседовали или нанимали его.
Схема была проста: Парех впечатлял на технических интервью и имел активный профиль на GitHub, это и помогало ему получать офферы. Но после найма он срывал сроки и не выполнял задачи. Поймали его, заметив коммиты в репозитории другой компании во время его предполагаемого «больничного». Сам инженер объяснил свои действия тяжелым финансовым положением.
Сейчас Парекх работает в стартапе Darwin Studios, стартапе по ремикшированию видео с использованием ИИ.
theverge.com
Команда исследователей из Кореи использовала машинное обучение для решения проблемы утилизации ядерных отходов. Их целью был радиоактивный I-129, изотоп с периодом полураспада 15,7 млн лет, крайне опасный для живых организмов.
С помощью ИИ ученые нашли новый адсорбент на основе меди, хрома, железа и алюминия, который удаляет более 90% радиоактивного йода из воды. Это значительно эффективнее существующих методов.
Главное преимущество ИИ было в скорости. Вместо полного перебора комбинаций модель предсказывала самые перспективные составы, что позволило протестировать лишь 16% от всех возможных вариантов для нахождения оптимального. Команда уже патентует технологию для коммерческого применения.
phys.org
Проект ZLUDA, позволяющий запускать код CUDA на видеокартах AMD и Intel, поделились важными обновлениями после спасения от закрытия. Проект теперь ведут два фултайм-разработчика, один из которых сфокусирован на поддержке ИИ-нагрузок.
Главный фокус - запуск GPT-2 в рамках тестового проекта llm.c. Это необходимый шаг к поддержке фреймворков наподобие PyTorch. Также разработчики повышают точность вычислений, стремясь к побитовому соответствию с результатами на железе Nvidia с помощью PTX-тестов.
vosen.github.io
Китайская компания Kunlun Wanwei выпустила вторую версию своих открытых reward-моделей, которые помогают «объяснить» LLM, какие ответы считать хорошими, а какие — плохими.
Новая серия V2 обучена на огромном датасете из 26 миллионов пар оценок и включает 8 моделей разного размера. По заявлениям разработчиков, флагманская версия на 8 млрд. параметров превосходит все существующие аналоги на ключевых бенчмарках, а самая компактная, 600 по производительности почти догнала их старшую модель прошлого поколения на 27 млрд. параметров. Новое семейство уже доступно на HuggingFace.
github.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию,
temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм -
inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM