Telegram Group Search
Что такое vegetative electron microscopy?

Я натолкнулся на интересное "расследование". Какое-то время назад учёные обнаружили, что в некоторых статьях по химии, встречается странный термин "vegetative electron microscopy". В этом блогпосте отлично расписана история обнаружения этого.

Сам термин не значит ничего, он не имеет смысла.

Источник нашли в статье 1959 года. Дело в том, что в электронном виде pdf документ не очень хорошо отформатирован. Получилось так, что в левой колонке одна строка заканчивается на "vegetative electron", а дальше, во второй колонке строка начинается с "microscopy". И из-за плохого форматирования документа, эти три слова можно выделить вместе - как будто это одна фраза.

Сразу пошли обвинения о том, что это LLM копируют этот текст и добавляют в новые статьи. Мол, paper-mill во всей красе.

Автор одной из таких статей защищал себя тем, что он специльно придумал/использовал такой термин. На что получил великолепный комментарий от одного из учёных: "So, we are learning that bacterial cellulose is a kind of “vegetative structure”. They are taking a piss without even pulling their pants down, aren’t they?"

Но... оказалось, что всё не так просто. Первое, что смутило лично меня - если эта фраза случайно "появилась" в одной единственной статье от 1959 года, но вряд ли бы LLM запомнили её и стали активно использовать. Второе - новые статьи с этой странной фразой появлялись и до популярных LLM - в 2022 и даже в 2020 годах.

И вот нашлось более вероятное, пусть и тривиальное объяснение. Оказывается, в переводе на персидский "scanning electron microscopy" - "mikroskop elektroni robeshi", а "vegetative electron microscopy" переводится как "mikroskop elektroni royashi". Это в транслитерации. А если это написать на персидском, то различие всего в одном символе, и это легко пропустить. Иранские учёные подтвердили, что их коллеги нередко пишут свои статьи на персидском языке, а затем просят какие-нибудь агентства перевести их на английский. А поскольку в агентствах вряд ли есть специалисты по научным темам, они вполне могут допустить такие ошибки. Потом кто-то повторил это и пошло... а дальше - возможно LLM смогли это запомнить и стали повторять.

В общем, "На зеркало неча пенять, коли рожа крива" (с)
Voice AI & Voice Agents: An Illustrated Primer

https://voiceaiandvoiceagents.com/

Огромный гайд о современных подходах к разработке и использованию Voice AI. Авторы собрали свой опыт за последние два года и написали красивый блогпост об этом. Пишут про железо, косты, STS, STT, TTS, обработку сырого аудио, практические аспекты (определение того, чья очередь сейчас говорить, обработка прерываний диалога и прочее), оценку качества и многое другое.

#datascience
GPT 4.1 Prompting Guide

Помимо самой GPT 4.1, OpenAI выпустили большой гайд о том, как эту версию промптить.

Казалось, что мы уже немного ушли от необходимости писать длинные инструкции, но нет - опять возвращаемся к этому.

Настоятельно советуется использовать три типа напоминалок для модели:
• Persistence - напоминать модели, чтобы думала до конца решения проблемы, в не возвращала ответ слишком рано
• Tool-calling - напоминать использовать инструменты
• Planning - напоминать модели, что планировать и рефлексировать полезно.

Как-то мне кажется, что это шаг назад - модели вроде итак должны этому следовать. С другой стороны, почти весь Deep Learning - это шаманство, алхимия, махание руками и надежда на то, что очередной трюк успешно сработает. Или, как это называется по-умному - experimentation and trial and error :)

Кстати, их системный промтп на SWE-bench Verified занимает почти 80 строк.

#datascience
​​https://openai.com/index/introducing-o3-and-o4-mini/

OpenAI выпустили новые модельки. Лично для меня самое интересное то, что теперь есть reasoning над картинками
The State of Reinforcement Learning for LLM Reasoning by Sebastian Raschka

Уважаемый товарищ выкатил огромный блогпост про состояние RL для современного ризонинга в LLM.

Для тех, кто не в теме, если большое введение с описанием RLHF, PPO, GRPO и прочих алгоритмов.
Основные посылы:
• RL улучшает не только большие модели, но и дистиллированные
• нередко RL предпочитает длинные ответы, даже если они неправильные. Но если добавить штраф на длинные некорректные ответы или использовать другие трюки, получается норм
• RL - основной подход для ризонинга, но не единственный

Если вы погружены в эту тему, блогпост вряд ли будет полезным. Если же нет - советую почитать.

https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training

#datascience
​​M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

M1 — гибридная reasoning-модель на основе Mamba, дающая эффективный по памяти inference. Её обучают вначале через дистиляцию, дальше докидывают SFT и RL. M1 показывает сравнимую точность с DeepSeek R1 на AIME и MATH, но работает более чем в 3 раза быстрее, достигая лучшей точности при фиксированном времени генерации.

Если честно, статья странная. Авторы сравнивают M1-3B с DeepSeek-R1-Distill-Qwen-1.5B и радуются, что их модель даёт схожее качество. Оправдываются тем, что нет дистиллированой DeepSeek-R1 модели на 3B. Добавляют, что, мол, раз скорость инференса схожая, то сравнение честное. Если смотреть с точки зрения чисто метрик качества - это некрасиво. Если смотреть с точки зрения качества за единицу времени, то ещё как-то можно оправдать.

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​https://newsletter.pragmaticengineer.com/p/one-million

Интересно, есть ли личные рассылки/блоги на инженерные темы с большей популярностью? 🤔
​​Detecting and Countering Malicious Uses of Claude

Очередной интересный пост от Anthropic.

Они делятся тем, как ловят "плохое" использование их сервисов.
• Создание сетей влияния, про это есть даже отдельный отчёт. Злоумышленники организовали сервис: создали сотни ботов в соцмедия которые продвигают то, что хотят клиенты. Боты использовали claude, чтобы создавать отдельные персоны (видимо боты с разными стилями текста и поведением), дальше решалось с каким контентом и как взаимодействовать. Что интересно - у таких ботов был акцент не на том, чтобы завирусить какие-то конкретные посты, а на долгосрочное влияние. Ребята из Anthropic выявили минимум 4 кампании: продвижение ОАЭ и критика Европы в плане ведения бизнеса и политики, продвижение конкретных политических лиц в Кении, а так же продвижение специфических мнений в Европе и Иране.
• Скрейпинг случайно выложенных паролей и логинов для доступов к девайсам IoT
• Скам в рекрутинге - организовывались скам собеседования. Деньги никто не успел потерять, максимальная потеря - утечка личной информации. Тут генерили вопросы и сценарии для собесов, писали профессионально выглядящие тексты и так далее
• Вообще забавный случай: мол, был человек, который был очень слаб в кодинге и начал использовать Claude для создания вирусов и в целом malware. Очень быстро его программы стали более продвинутыми.

После прочтения всего этого у меня возник вопрос: а были ли случаи, когда llm-ки использовали подобным образом, но для хорошего? Не уверен. Пока кажется, что такие возможности лишь упрощают условно "плохие" масштабные активности, а условно "хорошим" не способствуют.

#datascience

​​Claude Code годно развивается
​​AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

AgentA/B — это система, которая использует LLM-агентов для симуляции пользовательского поведения на реальных веб-страницах с целью проведения A/B тестирования. Она решает проблемы традиционных A/B тестов: необходимость в большом трафике реальных пользователей и длительное ожидание результатов. В эксперименте с 1000 LLM-агентами было показано, что их поведение сопоставимо с поведением реальных пользователей, что делает систему перспективной для масштабируемой и быстрой оценки UI/UX решений.

===

Если говорить от себя, то статья кажется очень сомнительной. Сам эксперимент: на страничке amazon изменили поведение фильтров - вместо отображения всех фильтров показывают только те, которые релевантны поисковому запросу. Сами агенты могут делать пять действий: поиск, клик на продукте, клик на фильтре, покупка и завершение. Плюс, агенты работают с почищенной страницей - страницу предварительно конвертируют в JSON и чистят от всего лишнего.

А если посмотреть на результаты, получается ещё веселее. Alignment людей и агентов - люди намного больше времени (и действий) тратят на исследования (например, в среднем они делают 6-7 поисковых запросов и кликов на продукты, а агенты - 1-2), а агенты очень целенаправленны (неудивительно, ведь это их роль). Доля покупок у людей и агентов одинакова... но есть нюанс - для сохранения приватности, нам не показывают сколько в среднем денег потратили люди, а это ведь по факту главное. И не показывают сравнение людей на двух выборках.
Если посмотреть на поведение агентов на control/treatment, то разница статистически не значима, только в treatment покупают чуть больше.

В итоге, как мне кажется, получается классическая ошибка A/B тестов - радуемся тому, что какие-то метрики выросли, а на все остальные аккуратно закрываем глаза. Ну и моделирование тестов агентами - тоже спорно, ибо поведение агентов всё же отличается от людей.

Можно ли такой подход использовать как дополнительный к полноценному тестированию? Наверное можно. Можно ли ему доверять? Кажется нет.

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Duolingo - AI-first company

Недавно CEO Shopify объявил, что все сотрудники компании обязаны активно использовать AI. Тренд продолжается, теперь в Duolingo заявили, что компания становится AI-first. Что показательно - это официально выложили в LinkedIn, который в последние годы стал квинтессенцией буллшита.

В целом, этого следовало бы ожидать - Duolingo методично убирает фичи (некоторые варианты практики, форумы, обсуждения конкретных вопросов и многое другое). Часть фичей уже была заменена на AI - какое-то время назад появилась подписка Max (доступная лишь в некоторых странах), стоящая аж 30$/month, которая позволяет попросить объяснение предложения (что раньше можно было найти в обсужждениях) и даёт несколько дополнительных вариантов практики (если судить по обсуждениям на reddit - очень базовые).

В плане дохода компании всё отлично - уже который год они показывают большой рост, да и в целом являются самым известным приложением для изучения иностранных языков. В плане качества - это вопрос. Судя по тому, что я слышал, примерно 5-7 курсов для самых популярных языков имеют хорошее качество, дальше всё хуже - либо мало контента, либо в упражнениях полно ошибок.
Зато Duolingo запустил мини-приложения для изучения... математики и музыки, а также недавно появился намёк на приложение для изучения шахмат.

Потенциал использования AI для изучения языков, конечно, огромен. Главное - чтобы компания могла его грамотно использовать, а также делала верификацию ошибок.

Посмотрим, что получится. Сам я несколько месяце назад прекратил использовать Duolingo - для практики известных мне языков он уже мне не нужен, а изучение новых языков я пока не планирую.
Meta AI App

META выпустили приложение, в котором можно пообщаться с их помощником на базе Llama 4. В нём есть генерация картинок, память, общение голосом (пока только в US, Canada, Australia, New Zealand) и прочее.

Web
iOS
Android
Gradio -> MCP server

HuggingFace выкатил обновление для Gradio. Теперь функции из приложений, созданных на gradio, могут конвертироваться в тулы для использования в MCP.

https://huggingface.co/blog/gradio-mcp
Бизнесы, которые умирают с появлением AI

Это пост не про панику или про крики ужаса "ААА, мы все потеряем работу".
Я увидел на Reddit пост с обсуждением того, как конкретные живые люди потеряли работу или бизнес по мере развития AI. Примеры интересные:

• Бизнес по переводу текстов с испанского на английский, был жив 18+ лет и приносил приличный доход. Теперь спрос практически нулевой. Примерно такая же история у бизнеса по переводу с немецкого на английский.
• Современные стартапы делающие обертки над AI. Умирают при появлении новых версий LLM, которые умеют делать это из коробки
• Телемедицина по простым вопросам. Вместо ожидания очереди к врачам люди просто спрашивают Chatgpt и получают годные рекомендации
• Фотограф, делающий stock фотографии. Доход за последнее время упал процентов на 70.
• Разработка сайтов с хорошим seo и контентом. Теперь модели могут генерить сайты покрасивее, с более качественным seo и приличным контентом
• Аудио инженер.
• Редактирование контента, обучение рисованию и прочее подобное
• Консультанты по фитнесу, по деньгам менее востребованы

Довольно интерсный и разнообразный список. Остаётся надеяться, что со временем скорость появления новых работ будет выше, чем скорость пропадания существующих.
Claude can now connect to your world

В Claude добавили интеграции - возможность дергать MCP сервера. Раньше это работало только в десктопной версии, теперь ещё и в браузере будет доступно. Для начала доступно всего 10, но явно будет больше. И, конечно, свои можно добавлять.
Наконец-то можно через claude тикеты в Jira создавать, а не ручками это делать и страдать!

А ещё обновили Research. Теперь он может искать... до 45 минут. Боюсь представить, что оно за почти час сделает.

Пока это счастье доступно в Max, Team и Enterprise, но обещают докатить и до Pro.

https://www.anthropic.com/news/integrations
​​Какое-то время назад я постил, что можно смотреть стрим того, как Claude играет в покемонов: https://www.group-telegram.com/datastorieslanguages.com/377

Так вот, Gemini умудрилась пройти Pokemon Blue - победить лигу https://x.com/sundarpichai/status/1918455766542930004
Очередной чекбокс в умениях современного "AI" закрыт.
​​Споры о валидности Chatbot Arena

Chatbot Arena появилась в 2023 году и стала популярна в 2024. Теперь там соревнуются все топовые компании и отчитываются о метриках.
Как можно ожидать, когда метрика становится целью, её пытаются максимизировать любыми способами.
Было немало споров о том честна арена или нет. Недавно была опубликована статья от Cohere, где они разбирают систематичные проблемы с ареной и предлагают рекомендации по улучшению.

Естественно арена такое не могла пропустить - они написали длинный твит, где утверждают, что в статье много фактических ошибок, а арена совсем честная.

Лезть в этот спор глубоко не хочется, но в статье есть один интересный аргумент, которые в твите не смогли адресовать: многие компании тестят модели на арене приватно. Что это значит, что можно взять модель, затюнить её несколькими способами, каждый вариант выложить на арену приватно, а потом оставить тот, у которого лучшие метрики.
В твите утверждается "Model providers do not just choose “the best score to disclose”. Any model listed on the public leaderboard must be a production model available to everyone and intend to have longer-term support.". Но это всё-таки не противоречит тому, что компания может подготовить несколько готовых вариантов модели, а затем постепенно убрать "плохие".

Является ли это чем-то неожиданным? Вряд ли. Давно известно, что нередко модели тюнят на тестовых данных (ещё до популярности LLM) и вряд ли что-то можно с этим делать. Для юзеров самое неприятное последствие это то, что метрикам верить сложно. И использование одной и той же модели разными способами (арена, чат-интерфейс, апи) может давать результаты разного качества, даже с поправкой на рандом.

#datascience
Современный "AI". OpenAI уменьшили "психопатность" 4o, но следы остались
Когда гонка за впихиванием AI в любые места проваливается

Есть такая компания - Klarna. Она занимается предоставлением финансовых услуг онлайн.

В 2023-2024 году они громко заявили, что заменяют customer support на ботов с полным успехом: https://africa.businessinsider.com/news/klarna-ceo-says-the-company-stopped-hiring-a-year-ago-because-ai-can-already-do-all/xk390bl

Мол, в 2024 они остановили найм, и всё идёт отлично. Бот заменяет примерно 700 людей, обслуживает 2/3 всех клиентов. https://www.klarna.com/international/press/klarna-ai-assistant-handles-two-thirds-of-customer-service-chats-in-its-first-month/

После этого многие компании ставили её в пример - мол, смотрите, они сделали круто, надо повторять!

Но, увы, всё не так позитивно. Теперь вот CEO заявил, что не получилось. Использовать бота дешевле, чем платить людям... но качество хуже.

> “As cost unfortunately seems to have been a too predominant evaluation factor when organizing this, what you end up having is lower quality,” he told Bloomberg this week. “Really investing in the quality of the human support is the way of the future for us.”

https://fortune.com/2025/05/09/klarna-ai-humans-return-on-investment/

С одной стороны, итак известно, что по статистике большая часть ML проектов не заканчивается с успехом.
С другой стороны, компании слишком активно пихают ботов в поддержку несмотря на то, что людям это не нравится.

Посмотрим, что будет дальше.
​​Absolute Zero: Reinforced Self-play Reasoning with Zero Data

На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.

Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).

Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.

У меня есть несколько сомнений:
Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.

В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.

#datascience
2025/05/13 10:50:21
Back to Top
HTML Embed Code: