This media is not supported in your browser
VIEW IN TELEGRAM
За что я не люблю задачи по транскрибации аудио😀
Media is too big
VIEW IN TELEGRAM
В последнее время замечаю рост популярности бенчмарка GPQA для оценки LLM.
Перевел с помощью ИИ видео о том:
- как GPQA устроен
- сколько сотен тысяч долларов потратили на его создание
- почему авторы разочаровались в нем и отказываются его дальше развивать
Приятного просмотра!
Перевел с помощью ИИ видео о том:
- как GPQA устроен
- сколько сотен тысяч долларов потратили на его создание
- почему авторы разочаровались в нем и отказываются его дальше развивать
Приятного просмотра!
Всем привет!
Мы с Димой Антиповым организуем секцию Data Collection & Labelling на Data Fest 2025.
Если у вас есть опыт или интересные истории про сбор и разметку данных — го к нам! Поможем с подготовкой, организацией и выступлением.
В приоритете темы:
• Разметка данных для LLM
• Нестандартные и креативные подходы к сбору/разметке
• Разметка VLM-ками
• Интересные кейсы по генерации синтетических датасетов
📅 Дедлайн подачи: 7 мая
🎤 Формат: онлайн или офлайн — как удобно
Хочешь стать спикером? 👉 [тык]
Мы с Димой Антиповым организуем секцию Data Collection & Labelling на Data Fest 2025.
Если у вас есть опыт или интересные истории про сбор и разметку данных — го к нам! Поможем с подготовкой, организацией и выступлением.
В приоритете темы:
• Разметка данных для LLM
• Нестандартные и креативные подходы к сбору/разметке
• Разметка VLM-ками
• Интересные кейсы по генерации синтетических датасетов
📅 Дедлайн подачи: 7 мая
🎤 Формат: онлайн или офлайн — как удобно
Хочешь стать спикером? 👉 [тык]
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
P.S: За новость спасибо Валерию Ковальскому, автору канала Neural Deep
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
P.S: За новость спасибо Валерию Ковальскому, автору канала Neural Deep
Ребята из Just AI тут запустили классный движ – pov и real в индустрии genAI! Мифов и предубеждений на рынке много, сегодня развеиваю один из них 👆🏻
А эстафету передаю Валерию Ковальскому из red_mad_robot
А эстафету передаю Валерию Ковальскому из red_mad_robot
Всем привет! Май был крайне насыщен, решил поделиться с вами интересными новостями:
- Побывал на огромной конференции Token 2049 в Дубае (крипта, ИИ Агенты и много скама)
- Отдохнул с физтехами на невероятной Регате Века
- Физтехи заманили к себе, стал ассоциированным партнером Физтех-Союза
- Окончил академию РВК по созданию венчурных фондов
- Почти научился кататься на кайтсерфинге
И еще предстоит:
- В следующий понедельник на конференции TECH WEEK буду рассказывать о применении краудсорсинга для AI/ML, приходите послушать!
- 30-го мая в Сбере провожу Data Fest секцию Data Collection & Labelling - Дима Антипов отобрал бомбезные доклады, обязательно к посещению
- 11-го июня лечу в Сочи праздновать свой 30-й день рождения на South Hub - самый лучший кэмп в России (по моему мнению)
- Побывал на огромной конференции Token 2049 в Дубае (крипта, ИИ Агенты и много скама)
- Отдохнул с физтехами на невероятной Регате Века
- Физтехи заманили к себе, стал ассоциированным партнером Физтех-Союза
- Окончил академию РВК по созданию венчурных фондов
- Почти научился кататься на кайтсерфинге
И еще предстоит:
- В следующий понедельник на конференции TECH WEEK буду рассказывать о применении краудсорсинга для AI/ML, приходите послушать!
- 30-го мая в Сбере провожу Data Fest секцию Data Collection & Labelling - Дима Антипов отобрал бомбезные доклады, обязательно к посещению
- 11-го июня лечу в Сочи праздновать свой 30-й день рождения на South Hub - самый лучший кэмп в России (по моему мнению)
Всем привет!
Мы ровно через час начинаем онлайн Data Fest секцию Data Collection & Labelling
11:00 Разметка карточек товаров на LLM --- Юлия Силова
11:30 Как найти мнения студентов и не потонуть в спаме? --- Полина Басина
12:00 LIBRA: Long Input Benchmark for Russian Analysis --- Игорь Чурин
12:30 Пайплайн подготовки данных для проверки ремней безопасности -- Алексей Сушков
Приходите послушать и пообщаться со спикерами!
Ссылка: https://app.spatial.chat/s/ods/roomgYgdzGaMZ2tW5VfYnbI2
Пароль
Мы ровно через час начинаем онлайн Data Fest секцию Data Collection & Labelling
11:00 Разметка карточек товаров на LLM --- Юлия Силова
11:30 Как найти мнения студентов и не потонуть в спаме? --- Полина Басина
12:00 LIBRA: Long Input Benchmark for Russian Analysis --- Игорь Чурин
12:30 Пайплайн подготовки данных для проверки ремней безопасности -- Алексей Сушков
Приходите послушать и пообщаться со спикерами!
Ссылка: https://app.spatial.chat/s/ods/roomgYgdzGaMZ2tW5VfYnbI2
Пароль
datafest2025_3105
This media is not supported in your browser
VIEW IN TELEGRAM
Согласны?
P.S для тех кто не понял: какой-то nerd с помощью AI сделал фейковое интервью с собой и стал популярен!
Блин, какие крутые и потрясающие возможности открывает AI для вирусного и хайпового маркетинга.
Кстати, у моего AI аватара уже 8к подписчиков, просто на органике и сгенерированном контенте, как вам результат? 😉
P.S для тех кто не понял: какой-то nerd с помощью AI сделал фейковое интервью с собой и стал популярен!
Блин, какие крутые и потрясающие возможности открывает AI для вирусного и хайпового маркетинга.
Кстати, у моего AI аватара уже 8к подписчиков, просто на органике и сгенерированном контенте, как вам результат? 😉
🔥 AI-конференции 2025 под контролем
Май был крайне жаркий на конференции, количество эвентов просто зашкваливало. Если честно, то у меня голова шла кругом, от того, чтобы во всем этом разобраться, понять и отследить. И с такой проблемой столкнулся не только я.
Поэтому мы в LLM Arena решили собрать живую таблицу из всех AI-ивентов в России и обновлять её каждую неделю.
Что внутри?
▸ даты и локации — планируйте поездки заранее
▸ фокус и уровень каждой конференции — сразу понимаете, кому будет полезно
▸ приоритет — тратить время или пролистнуть
👉 Сохраняй таблицу и делись со своей командой!
Май был крайне жаркий на конференции, количество эвентов просто зашкваливало. Если честно, то у меня голова шла кругом, от того, чтобы во всем этом разобраться, понять и отследить. И с такой проблемой столкнулся не только я.
Поэтому мы в LLM Arena решили собрать живую таблицу из всех AI-ивентов в России и обновлять её каждую неделю.
Что внутри?
▸ даты и локации — планируйте поездки заранее
▸ фокус и уровень каждой конференции — сразу понимаете, кому будет полезно
▸ приоритет — тратить время или пролистнуть
👉 Сохраняй таблицу и делись со своей командой!
Фан факт
Когда был на кэмпе South HUB, и рассказывал о LLM Arena, CTO крупной компании поделился забавной историей:
Звонит ему дядя, который особо не шарит в ИИ, нейросетях и говорит: я тут на авито за 1000 руб купил безлимитный доступ ко всем нейросетям, вот есть секретный сайт, мне сказали никому не скидывать, но я скину тебе -вот https://lmarena.ai/
СТО в афиге, спрошивает, что за объявление на Авито - дядя ему скидывает https://www.avito.ru/moskva/igry_pristavki_i_programmy/sayt_s_bezlimitnymi_neyrosetyami_-_bez_vpn_4810389376 😀😀😀
Я изучил, таких объявлений оказалось очень много: 1,2,3,4,5 и куча довольных отзывов покупателей.
Поэтому я хочу еще раз напомнить:
Если вы хотите получить безлимитный доступ ко всем топовым нейросетям без VPN и регистрации, не нужно платить 1000 руб мошейникам, заходите на наш сайт llmarena.ru, пользуйтесь, и не забывайте голосовать за понравившиеся модели 😉
Когда был на кэмпе South HUB, и рассказывал о LLM Arena, CTO крупной компании поделился забавной историей:
Звонит ему дядя, который особо не шарит в ИИ, нейросетях и говорит: я тут на авито за 1000 руб купил безлимитный доступ ко всем нейросетям, вот есть секретный сайт, мне сказали никому не скидывать, но я скину тебе -
СТО в афиге, спрошивает, что за объявление на Авито - дядя ему скидывает https://www.avito.ru/moskva/igry_pristavki_i_programmy/sayt_s_bezlimitnymi_neyrosetyami_-_bez_vpn_4810389376 😀😀😀
Я изучил, таких объявлений оказалось очень много: 1,2,3,4,5 и куча довольных отзывов покупателей.
Поэтому я хочу еще раз напомнить:
Если вы хотите получить безлимитный доступ ко всем топовым нейросетям без VPN и регистрации, не нужно платить 1000 руб мошейникам, заходите на наш сайт llmarena.ru, пользуйтесь, и не забывайте голосовать за понравившиеся модели 😉
На South HUB много обсуждал Gen AI, Агентов, LLM и RAGи
Делюсь своими наблюдениями:
• Всех начинает волновать безопасность ИИ, @aisecuritylab ждите наплыв новых клиентов
• Многие уже внедрили агентов, RAGов в прод и столкнулись с проблемой оценки качества AI систем - людьми оценивать дорого, а автоэвалом сложно. Приходите к нам в llmarena.team, расскажем как😉
• В B2C компании могут зарабатывать на транзакционной, рекламной и подписочной модели. Большинство участников South HUB сходятся во мнении, что подписочная модель заработка будет основной. Вы привыкли каждый месяц платить за телефон, интернет, Яндекс.Музыку, потому что жить без этого не можете? Вот и с AI сервисами будет также.
• Многие бизнесы воспринимают LLM и агентов как волшебную пилюлю, которая починит все процессы и проблемы. Но GenAI нужно воспринимать как новую технологию автоматизации, а не какое-то волшебство. Магии не будет 🥲
• Практически никто не использует Fine-tuning - прирост в качестве достигают за счет улучшения промпта и базы знаний RAG.
• Деньги на ИИ заработают компании с сильной технической командой и обладающие экспертизой в узких нишах. Низко висящие фрукты уже сорвали - нужно идти в доменную область и решать конкретную боль людей. Компания Cursor - наглядный тому пример.
А еще я невероятно сильно рекомендую прочитать недавно вышедшую статью https://a16z.com/ai-enterprise-2025/ - подписываюсь под каждым пунктом от туда, топ материал 💯
Делюсь своими наблюдениями:
• Всех начинает волновать безопасность ИИ, @aisecuritylab ждите наплыв новых клиентов
• Многие уже внедрили агентов, RAGов в прод и столкнулись с проблемой оценки качества AI систем - людьми оценивать дорого, а автоэвалом сложно. Приходите к нам в llmarena.team, расскажем как😉
• В B2C компании могут зарабатывать на транзакционной, рекламной и подписочной модели. Большинство участников South HUB сходятся во мнении, что подписочная модель заработка будет основной. Вы привыкли каждый месяц платить за телефон, интернет, Яндекс.Музыку, потому что жить без этого не можете? Вот и с AI сервисами будет также.
• Многие бизнесы воспринимают LLM и агентов как волшебную пилюлю, которая починит все процессы и проблемы. Но GenAI нужно воспринимать как новую технологию автоматизации, а не какое-то волшебство. Магии не будет 🥲
• Практически никто не использует Fine-tuning - прирост в качестве достигают за счет улучшения промпта и базы знаний RAG.
• Деньги на ИИ заработают компании с сильной технической командой и обладающие экспертизой в узких нишах. Низко висящие фрукты уже сорвали - нужно идти в доменную область и решать конкретную боль людей. Компания Cursor - наглядный тому пример.
А еще я невероятно сильно рекомендую прочитать недавно вышедшую статью https://a16z.com/ai-enterprise-2025/ - подписываюсь под каждым пунктом от туда, топ материал 💯
Media is too big
VIEW IN TELEGRAM
Интересная концепция технологического ИИ сендвича от Gartner
Как думаете, российские вендоры выпали из гонки инноваций и участвуют только в гонке применения ИИ, или у нас еще есть шанс?
Как думаете, российские вендоры выпали из гонки инноваций и участвуют только в гонке применения ИИ, или у нас еще есть шанс?
На этой неделе ребята из Anthropic выкатили любопытную работу — SHADE-Arena. Это такой испытательный полигон, где LLM-агенту дают «белую» задачу + скрытую «чёрную» миссию, а сверху ставят вторую ИИ модель-монитор, которая оценивает: «не творится ли тут чего неладного?»
Что меня зацепило
• Интересная постановка задачи из 17 кейсов. Модели должны одновременно помочь пользователю и тихонько насолить.
• Ни одна из 14 моделей не пробила 30% общего успеха. Саботаж по-настоящему сложен — и слава роботам.
• Но! сильнейшие LLM всё-таки прятали грязные делишки почти в 60% попыток.
• Самое сочное: монитор-LLM оказались лучше людей-оценщиков (80 % шанс поймать саботаж = 20 % ложных тревог). Всё чаще вижу, как LLM as a judge бьёт полноценную фокус-группу людей.
• Когда монитору показали цепочку мыслей агента, успехи злоумышленника рухнули — многие модели тупо проговаривали свои тайные планы вслух 🤦♂️
Почему это важно
1.Агенские Агентные LLM стремительно учатся. Проверять их «на саботаж» — next-level безопасность.
2. Автоэвал сильнее человеческой толпы → дешевле и быстрее масштабировать контроль.
3. Если строите прод-агентов, придётся думать не только о способности «делать полезное», но и о способности не вредить (и о том, кто за этим будет следить).
🔥 Spoiler alert: в среду на GigaConf буду рассказывать про бенчмарки оценки ИИ Агентов. Так что, если тема цепляет — залетайте послушать!
Что меня зацепило
• Интересная постановка задачи из 17 кейсов. Модели должны одновременно помочь пользователю и тихонько насолить.
• Ни одна из 14 моделей не пробила 30% общего успеха. Саботаж по-настоящему сложен — и слава роботам.
• Но! сильнейшие LLM всё-таки прятали грязные делишки почти в 60% попыток.
• Самое сочное: монитор-LLM оказались лучше людей-оценщиков (80 % шанс поймать саботаж = 20 % ложных тревог). Всё чаще вижу, как LLM as a judge бьёт полноценную фокус-группу людей.
• Когда монитору показали цепочку мыслей агента, успехи злоумышленника рухнули — многие модели тупо проговаривали свои тайные планы вслух 🤦♂️
Почему это важно
1.
2. Автоэвал сильнее человеческой толпы → дешевле и быстрее масштабировать контроль.
3. Если строите прод-агентов, придётся думать не только о способности «делать полезное», но и о способности не вредить (и о том, кто за этим будет следить).
🔥 Spoiler alert: в среду на GigaConf буду рассказывать про бенчмарки оценки ИИ Агентов. Так что, если тема цепляет — залетайте послушать!