Небольшая подборка черри-пиков от нас 🦾
Поделитесь, пожалуйста, вашими результатами в комментариях 👇
Поделитесь, пожалуйста, вашими результатами в комментариях 👇
🔥16👍8😍5😱1
Forwarded from GigaDev — разработка GigaChat
Вакансия: Deep Learning Engineer, ASR 🎧
Ищем инженера-исследователя в ML команду распознавания речи (ASR)
Мы развиваем технологии распознавания речи во всей экосистеме Сбера: от умных устройств и видео-конференций до телефонного канала и B2B-продаж
Задачи
Недавно мы выложили в open-source SSL модель GigaAM (GitHub, arXiv), а ее улучшенная версия GigaAM Max уже доступна в @smartspeech_sber_bot и умных устройствах.
Следующая амбициозная цель — донести то же качество до всех поверхностей: от высоконагруженных кол-центров до компактных CPU-моделей.
Поэтому основными задачами будут исследование методов онлайн-дистилляции, обучение потоковых моделей, ансамблирование моделей в продакшене, эксперименты с новыми архитектурами и многое другое!
Требования
- python: модульный код, ООП, concurrency, pep, тесты
- хорошее знание алгоритмов и структур данных
- понимание методов оценки качества ML-систем
- глубокие теоретические знания в DL + опыт отладки/обучения (крайне желателен multi-gpu)
- знание современных подходов в NLP/Speech
- pytorch + способность разобраться во фреймворках (lightning, NeMo, fairseq, huggingface)
- docker: сборка образов для обучения/тестирования моделей
- linux, git
Будет плюсом
- знание C++
- опыт оптимизации нейросетей для инференса
- опыт работы с crowdsource-разметкой
- базовое знание цифровой обработки сигналов
Условия
- конкурентная зарплата
- еженедельные встречи с разборами статей
- возможность преподавать на курсах по речевым технологиям (МФТИ, МГУ и другие площадки)
- возможность менторить стажеров в исследовательских проектах
- сильный отдел специалистов (от низкоуровневых алгоритмов улучшения качества звука до оптимизации инференса на CUDA). Выпускники ШАД, МФТИ, ВШЭ, Сколтех, МГУ, ex-Yandex
- молодая дружная команда: собираемся в барах, на завтраках и других активностях
- гибкий график работы, удаленка по всей России
- ДМС, зал в офисе, участие и выступления на конференциях
Вопросы и резюме можно присылать на почту [email protected]
Ищем инженера-исследователя в ML команду распознавания речи (ASR)
Мы развиваем технологии распознавания речи во всей экосистеме Сбера: от умных устройств и видео-конференций до телефонного канала и B2B-продаж
Задачи
Недавно мы выложили в open-source SSL модель GigaAM (GitHub, arXiv), а ее улучшенная версия GigaAM Max уже доступна в @smartspeech_sber_bot и умных устройствах.
Следующая амбициозная цель — донести то же качество до всех поверхностей: от высоконагруженных кол-центров до компактных CPU-моделей.
Поэтому основными задачами будут исследование методов онлайн-дистилляции, обучение потоковых моделей, ансамблирование моделей в продакшене, эксперименты с новыми архитектурами и многое другое!
Требования
- python: модульный код, ООП, concurrency, pep, тесты
- хорошее знание алгоритмов и структур данных
- понимание методов оценки качества ML-систем
- глубокие теоретические знания в DL + опыт отладки/обучения (крайне желателен multi-gpu)
- знание современных подходов в NLP/Speech
- pytorch + способность разобраться во фреймворках (lightning, NeMo, fairseq, huggingface)
- docker: сборка образов для обучения/тестирования моделей
- linux, git
Будет плюсом
- знание C++
- опыт оптимизации нейросетей для инференса
- опыт работы с crowdsource-разметкой
- базовое знание цифровой обработки сигналов
Условия
- конкурентная зарплата
- еженедельные встречи с разборами статей
- возможность преподавать на курсах по речевым технологиям (МФТИ, МГУ и другие площадки)
- возможность менторить стажеров в исследовательских проектах
- сильный отдел специалистов (от низкоуровневых алгоритмов улучшения качества звука до оптимизации инференса на CUDA). Выпускники ШАД, МФТИ, ВШЭ, Сколтех, МГУ, ex-Yandex
- молодая дружная команда: собираемся в барах, на завтраках и других активностях
- гибкий график работы, удаленка по всей России
- ДМС, зал в офисе, участие и выступления на конференциях
Вопросы и резюме можно присылать на почту [email protected]
👍9❤1🔥1
Media is too big
VIEW IN TELEGRAM
⚡Полная версия MiVOLO на HuggingFace!
Наша молниеносная модель в 29 млн. параметров для определения пола и возраста, которая до сих пор #1 на 7 открытых бенчмарках, теперь открытая!
Изначально мы публиковали только веса, полученные на открытых данных. С тех пор многое изменилось и мультимодальные нейросети ушли далеко вперёд.
Когда мы разрабатывали первую версию, ещё не было ассистентов, работающих с изображениями — ChatGPT только готовился выпустить ныне почивший 4V, который, как оказалось, работал хуже MiVOLO в определении пола и возраста.
Сегодня же, многие MLLM способны выполнять эту задачу лучше любых специальных моделей.
Однако, есть и обратная сторона — прогресс в спец. моделях существенно замедлился и за прошедшие годы подходов сильнее так и не появилось. Нужда в них, при этом, не пропала — не везде приемлимо дорогостоящее, неспешное, зависящее от кого-то внешнего API с кучей лимитов.
Чтобы помочь развитию области, мы немного дотюнили полную модель на всех доступных данных, в т.ч. наших коммерческих, и интегрировали её в HuggingFace.
Так что теперь лучшая MiVOLO доступна всем в буквально пару строк кода!
📄 MiVOLO
📄 MiVOLOv2
💻 GitHub repo
🤗 Hugging Face model
Наша молниеносная модель в 29 млн. параметров для определения пола и возраста, которая до сих пор #1 на 7 открытых бенчмарках, теперь открытая!
Изначально мы публиковали только веса, полученные на открытых данных. С тех пор многое изменилось и мультимодальные нейросети ушли далеко вперёд.
Когда мы разрабатывали первую версию, ещё не было ассистентов, работающих с изображениями — ChatGPT только готовился выпустить ныне почивший 4V, который, как оказалось, работал хуже MiVOLO в определении пола и возраста.
Сегодня же, многие MLLM способны выполнять эту задачу лучше любых специальных моделей.
Однако, есть и обратная сторона — прогресс в спец. моделях существенно замедлился и за прошедшие годы подходов сильнее так и не появилось. Нужда в них, при этом, не пропала — не везде приемлимо дорогостоящее, неспешное, зависящее от кого-то внешнего API с кучей лимитов.
Чтобы помочь развитию области, мы немного дотюнили полную модель на всех доступных данных, в т.ч. наших коммерческих, и интегрировали её в HuggingFace.
Так что теперь лучшая MiVOLO доступна всем в буквально пару строк кода!
📄 MiVOLO
📄 MiVOLOv2
💻 GitHub repo
🤗 Hugging Face model
🔥25🎉10 8❤4
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
Вышел наш первый препринт из запланированного цикла статей по теме редактирования изображений.
Основная мысль, вокруг которой построено повествование, это как бы так автоматизировать процесс сбора данных (триплетов <входное изображение, инструкция, выходное изображение>), чтобы было одновременно и качественно, и без участия человека. Обычно одно из двух (или даже ни одно из).
Многие исходят из идеи, что в мире уже понаделано очень много специализированных моделей, они работают неплохо, а значит можно как-то собрать инженерный пайплайн, чтобы на выходе были чистые данные😳
Например, за года развития накоплено множество неплохих данных с сегментацией \ ббоксами объектов и есть inpaint модели, как например разные варианты с FLUX, так что объекты можно заменять почти бесконечно, формируя триплеты. По нашему опыту, такие пайплайны даже имеют приемлемое качество.
Но, получить что-то выше «приемлемо», т.е. чистые автоматические данные, так нельзя. Слишком много всего должно быть собрано вручную и с применением клея. Добавляет радости отсутствие в области надёжного автоматического способа оценки результатов редактирования.
И, что даже важнее, сильно разнообразных операций таким образом, тоже, конечно, не собрать.
А в методах, которых можно разгуляться посильнее, например, в основанных на контроле внимания (Prompt2Prompt), качество будет совсем печальным, см. InstructPix2Pix и его метрики в нашей работе.
Очевидное решение — валидировать данные вручную, на крауд-сорсе, например.
Но люди тоже ошибаются, а ещё нужно большое перекрытие, всё это не дёшево и медленно, когда нужны десятки миллионов триплетов.
Так, конечно, в любой задаче, но именно в инструктивном редактировании совсем нечем надёжно проверить результат и сигнал выходит особенно грязный.
В общем, с автовалидацией как с больным зубом — можно какое-то время проблему игнорировать или отодвигать полумерами, можно надеяться на лучшее, но нормально решать всё равно однажды придётся.
Нужно, однако, осозновать, для оценки результата редактирования во всём его многообразии модель должна понимать очень много всего от абстрактных вещей до физики нашего мира, что не всегда разгребают даже относительно комплексные модели.
Что говорить о моделях поменьше, на которых пытаются ехать многие авторы.
Можно попробовать использовать лучшие доступные MLLM по API с каким-то промптом. Но, спойлер, они к этим задачам не адаптированы и пока тянут плохо (числа см. в нашей работе).
Мы всё это прошли пару итераций назад, и дошли до того, что используем специально затюненные под задачу ChatGPT и Gemini. Причём без всякого ризонинга.
В статье мы описываем подробно, как это сделали и почему так лучше.
Таким образом, всё, что нужно для создания данных прямо совсем без участия человека, получается уже создано:
✅ модели, которые будут придумывать сцены и что в них поменять — есть.
✅ модели для генерации изображений — есть.
✅ модели для редактирования изображений — есть.
✅ валидатор — теперь тоже есть.
И у всех текстовый интерфейс, а значит можно собрать вместе самых лучших,дать безлимитный запас пива🍻 и попросить общаться. Что-то будет редактироваться не с первого раза, ну так мы повторим, пока не получится.
Примерно так мы и поступили. Вышла🌿 среди датасетов. Конечно, ещё не идеально, но уже бесконечно далеко от типичной синтетики.
Поскольку каждый бит информации в пайплайне был получен совершенно без участия человека, такой метод можно даже использовать в цикле самоулучшения с агентом.
Короче:
— Собрали и опубликовали новый открытый датасет на 358К триплетов с разнообразными операциями, стилями, соотношениями сторон, тематиками и пр — NHR-Edit📈
— Провели самое масштабное и полное сравнение всех датасетов на данный момент.
— Описали наш способ валидации и показали, почему он лучший.
— Чуть-чуть дообучили на полученных данных нашумевший Bagel от ByteDance и выбили SOTA метрики на открытых бенчмарках🌿
🔗 Датасет, демо Bagel-NHR-Edit, ссылка на статью, всё
>> тут <<
Вышел наш первый препринт из запланированного цикла статей по теме редактирования изображений.
Основная мысль, вокруг которой построено повествование, это как бы так автоматизировать процесс сбора данных (триплетов <входное изображение, инструкция, выходное изображение>), чтобы было одновременно и качественно, и без участия человека. Обычно одно из двух (или даже ни одно из).
Многие исходят из идеи, что в мире уже понаделано очень много специализированных моделей, они работают неплохо, а значит можно как-то собрать инженерный пайплайн, чтобы на выходе были чистые данные
Например, за года развития накоплено множество неплохих данных с сегментацией \ ббоксами объектов и есть inpaint модели, как например разные варианты с FLUX, так что объекты можно заменять почти бесконечно, формируя триплеты. По нашему опыту, такие пайплайны даже имеют приемлемое качество.
Но, получить что-то выше «приемлемо», т.е. чистые автоматические данные, так нельзя. Слишком много всего должно быть собрано вручную и с применением клея. Добавляет радости отсутствие в области надёжного автоматического способа оценки результатов редактирования.
И, что даже важнее, сильно разнообразных операций таким образом, тоже, конечно, не собрать.
А в методах, которых можно разгуляться посильнее, например, в основанных на контроле внимания (Prompt2Prompt), качество будет совсем печальным, см. InstructPix2Pix и его метрики в нашей работе.
Очевидное решение — валидировать данные вручную, на крауд-сорсе, например.
Но люди тоже ошибаются, а ещё нужно большое перекрытие, всё это не дёшево и медленно, когда нужны десятки миллионов триплетов.
Так, конечно, в любой задаче, но именно в инструктивном редактировании совсем нечем надёжно проверить результат и сигнал выходит особенно грязный.
В общем, с автовалидацией как с больным зубом — можно какое-то время проблему игнорировать или отодвигать полумерами, можно надеяться на лучшее, но нормально решать всё равно однажды придётся.
Нужно, однако, осозновать, для оценки результата редактирования во всём его многообразии модель должна понимать очень много всего от абстрактных вещей до физики нашего мира, что не всегда разгребают даже относительно комплексные модели.
Что говорить о моделях поменьше, на которых пытаются ехать многие авторы.
Можно попробовать использовать лучшие доступные MLLM по API с каким-то промптом. Но, спойлер, они к этим задачам не адаптированы и пока тянут плохо (числа см. в нашей работе).
Мы всё это прошли пару итераций назад, и дошли до того, что используем специально затюненные под задачу ChatGPT и Gemini. Причём без всякого ризонинга.
В статье мы описываем подробно, как это сделали и почему так лучше.
Таким образом, всё, что нужно для создания данных прямо совсем без участия человека, получается уже создано:
✅ модели, которые будут придумывать сцены и что в них поменять — есть.
✅ модели для генерации изображений — есть.
✅ модели для редактирования изображений — есть.
✅ валидатор — теперь тоже есть.
И у всех текстовый интерфейс, а значит можно собрать вместе самых лучших,
Примерно так мы и поступили. Вышла
Поскольку каждый бит информации в пайплайне был получен совершенно без участия человека, такой метод можно даже использовать в цикле самоулучшения с агентом.
Короче:
— Собрали и опубликовали новый открытый датасет на 358К триплетов с разнообразными операциями, стилями, соотношениями сторон, тематиками и пр — NHR-Edit
— Провели самое масштабное и полное сравнение всех датасетов на данный момент.
— Описали наш способ валидации и показали, почему он лучший.
— Чуть-чуть дообучили на полученных данных нашумевший Bagel от ByteDance и выбили SOTA метрики на открытых бенчмарках
🔗 Датасет, демо Bagel-NHR-Edit, ссылка на статью, всё
>> тут <<
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Абсолютно всё в этих примерах создано без участия человека, мы просто задали направление.
(о3, FLUX, QwenVL, Gemini, Malvina).
(о3, FLUX, QwenVL, Gemini, Malvina).
🔥18👏9 7👎4🌚1
Bagel-NHR-Edit.png
2.2 MB
Ещё раз напомню, что доступно бесплатное демо нашего файнтюна Bagel-NHR-Edit на HuggingFace.
Текущая S.O.T.A. на GEdit-Bench-EN и ImgEdit-Data
И ещё, нам будет приятно, если вы отдадите свой голос за работу на HuggingFace 🤗 (нужен аккаунт).
Текущая S.O.T.A. на GEdit-Bench-EN и ImgEdit-Data
И ещё, нам будет приятно, если вы отдадите свой голос за работу на HuggingFace 🤗 (нужен аккаунт).
Forwarded from Mashkka про Data Science
✨Big Tech Night: не пропусти первую «Ночь музеев» в мире IT
12 сентября в Москве пройдёт Big Tech Night — первая «Ночь музеев», посвященная IT, где выступят мои коллеги, а также спикеры из таких компаний как Яндекс, X5, Т-Банк и Lamoda.
В программе: топовые доклады про последние достижения IT и GenAI, неформальное общение, нетворкинг, а также сюрпризы от каждой компании.
Ждем экспертов по разработке, аналитике, ML и AI в оффлайне и приглашаем присоединиться всех-всех-всех онлайн.
👉Регистрация тут.
#it #llm #genai
12 сентября в Москве пройдёт Big Tech Night — первая «Ночь музеев», посвященная IT, где выступят мои коллеги, а также спикеры из таких компаний как Яндекс, X5, Т-Банк и Lamoda.
В программе: топовые доклады про последние достижения IT и GenAI, неформальное общение, нетворкинг, а также сюрпризы от каждой компании.
Ждем экспертов по разработке, аналитике, ML и AI в оффлайне и приглашаем присоединиться всех-всех-всех онлайн.
👉Регистрация тут.
#it #llm #genai
👍5🔥4 4