Claude can now connect to your world
В Claude добавили интеграции - возможность дергать MCP сервера. Раньше это работало только в десктопной версии, теперь ещё и в браузере будет доступно. Для начала доступно всего 10, но явно будет больше. И, конечно, свои можно добавлять.
Наконец-то можно через claude тикеты в Jira создавать, а не ручками это делать и страдать!
А ещё обновили Research. Теперь он может искать... до 45 минут. Боюсь представить, что оно за почти час сделает.
Пока это счастье доступно в Max, Team и Enterprise, но обещают докатить и до Pro.
https://www.anthropic.com/news/integrations
В Claude добавили интеграции - возможность дергать MCP сервера. Раньше это работало только в десктопной версии, теперь ещё и в браузере будет доступно. Для начала доступно всего 10, но явно будет больше. И, конечно, свои можно добавлять.
Наконец-то можно через claude тикеты в Jira создавать, а не ручками это делать и страдать!
А ещё обновили Research. Теперь он может искать... до 45 минут. Боюсь представить, что оно за почти час сделает.
Пока это счастье доступно в Max, Team и Enterprise, но обещают докатить и до Pro.
https://www.anthropic.com/news/integrations
Anthropic
Claude can now connect to your world
Today we're announcing Integrations, a new way to connect your apps and tools to Claude. We're also expanding Claude's Research capabilities with an advanced mode that searches the web, your Google Workspace, and now your Integrations too.
Какое-то время назад я постил, что можно смотреть стрим того, как Claude играет в покемонов: https://www.group-telegram.com/datastorieslanguages.com/377
Так вот, Gemini умудрилась пройти Pokemon Blue - победить лигу https://x.com/sundarpichai/status/1918455766542930004
Очередной чекбокс в умениях современного "AI" закрыт.
Так вот, Gemini умудрилась пройти Pokemon Blue - победить лигу https://x.com/sundarpichai/status/1918455766542930004
Очередной чекбокс в умениях современного "AI" закрыт.
Споры о валидности Chatbot Arena
Chatbot Arena появилась в 2023 году и стала популярна в 2024. Теперь там соревнуются все топовые компании и отчитываются о метриках.
Как можно ожидать, когда метрика становится целью, её пытаются максимизировать любыми способами.
Было немало споров о том честна арена или нет. Недавно была опубликована статья от Cohere, где они разбирают систематичные проблемы с ареной и предлагают рекомендации по улучшению.
Естественно арена такое не могла пропустить - они написали длинный твит, где утверждают, что в статье много фактических ошибок, а арена совсем честная.
Лезть в этот спор глубоко не хочется, но в статье есть один интересный аргумент, которые в твите не смогли адресовать: многие компании тестят модели на арене приватно. Что это значит, что можно взять модель, затюнить её несколькими способами, каждый вариант выложить на арену приватно, а потом оставить тот, у которого лучшие метрики.
В твите утверждается "Model providers do not just choose “the best score to disclose”. Any model listed on the public leaderboard must be a production model available to everyone and intend to have longer-term support.". Но это всё-таки не противоречит тому, что компания может подготовить несколько готовых вариантов модели, а затем постепенно убрать "плохие".
Является ли это чем-то неожиданным? Вряд ли. Давно известно, что нередко модели тюнят на тестовых данных (ещё до популярности LLM) и вряд ли что-то можно с этим делать. Для юзеров самое неприятное последствие это то, что метрикам верить сложно. И использование одной и той же модели разными способами (арена, чат-интерфейс, апи) может давать результаты разного качества, даже с поправкой на рандом.
#datascience
Chatbot Arena появилась в 2023 году и стала популярна в 2024. Теперь там соревнуются все топовые компании и отчитываются о метриках.
Как можно ожидать, когда метрика становится целью, её пытаются максимизировать любыми способами.
Было немало споров о том честна арена или нет. Недавно была опубликована статья от Cohere, где они разбирают систематичные проблемы с ареной и предлагают рекомендации по улучшению.
Естественно арена такое не могла пропустить - они написали длинный твит, где утверждают, что в статье много фактических ошибок, а арена совсем честная.
Лезть в этот спор глубоко не хочется, но в статье есть один интересный аргумент, которые в твите не смогли адресовать: многие компании тестят модели на арене приватно. Что это значит, что можно взять модель, затюнить её несколькими способами, каждый вариант выложить на арену приватно, а потом оставить тот, у которого лучшие метрики.
В твите утверждается "Model providers do not just choose “the best score to disclose”. Any model listed on the public leaderboard must be a production model available to everyone and intend to have longer-term support.". Но это всё-таки не противоречит тому, что компания может подготовить несколько готовых вариантов модели, а затем постепенно убрать "плохие".
Является ли это чем-то неожиданным? Вряд ли. Давно известно, что нередко модели тюнят на тестовых данных (ещё до популярности LLM) и вряд ли что-то можно с этим делать. Для юзеров самое неприятное последствие это то, что метрикам верить сложно. И использование одной и той же модели разными способами (арена, чат-интерфейс, апи) может давать результаты разного качества, даже с поправкой на рандом.
#datascience
Когда гонка за впихиванием AI в любые места проваливается
Есть такая компания - Klarna. Она занимается предоставлением финансовых услуг онлайн.
В 2023-2024 году они громко заявили, что заменяют customer support на ботов с полным успехом: https://africa.businessinsider.com/news/klarna-ceo-says-the-company-stopped-hiring-a-year-ago-because-ai-can-already-do-all/xk390bl
Мол, в 2024 они остановили найм, и всё идёт отлично. Бот заменяет примерно 700 людей, обслуживает 2/3 всех клиентов. https://www.klarna.com/international/press/klarna-ai-assistant-handles-two-thirds-of-customer-service-chats-in-its-first-month/
После этого многие компании ставили её в пример - мол, смотрите, они сделали круто, надо повторять!
Но, увы, всё не так позитивно. Теперь вот CEO заявил, что не получилось. Использовать бота дешевле, чем платить людям... но качество хуже.
> “As cost unfortunately seems to have been a too predominant evaluation factor when organizing this, what you end up having is lower quality,” he told Bloomberg this week. “Really investing in the quality of the human support is the way of the future for us.”
https://fortune.com/2025/05/09/klarna-ai-humans-return-on-investment/
С одной стороны, итак известно, что по статистике большая часть ML проектов не заканчивается с успехом.
С другой стороны, компании слишком активно пихают ботов в поддержку несмотря на то, что людям это не нравится.
Посмотрим, что будет дальше.
Есть такая компания - Klarna. Она занимается предоставлением финансовых услуг онлайн.
В 2023-2024 году они громко заявили, что заменяют customer support на ботов с полным успехом: https://africa.businessinsider.com/news/klarna-ceo-says-the-company-stopped-hiring-a-year-ago-because-ai-can-already-do-all/xk390bl
Мол, в 2024 они остановили найм, и всё идёт отлично. Бот заменяет примерно 700 людей, обслуживает 2/3 всех клиентов. https://www.klarna.com/international/press/klarna-ai-assistant-handles-two-thirds-of-customer-service-chats-in-its-first-month/
После этого многие компании ставили её в пример - мол, смотрите, они сделали круто, надо повторять!
Но, увы, всё не так позитивно. Теперь вот CEO заявил, что не получилось. Использовать бота дешевле, чем платить людям... но качество хуже.
> “As cost unfortunately seems to have been a too predominant evaluation factor when organizing this, what you end up having is lower quality,” he told Bloomberg this week. “Really investing in the quality of the human support is the way of the future for us.”
https://fortune.com/2025/05/09/klarna-ai-humans-return-on-investment/
С одной стороны, итак известно, что по статистике большая часть ML проектов не заканчивается с успехом.
С другой стороны, компании слишком активно пихают ботов в поддержку несмотря на то, что людям это не нравится.
Посмотрим, что будет дальше.
Business Insider
Klarna CEO says the company stopped hiring a year ago because AI 'can already do all of the jobs'
Klarna CEO Sebastian Siemiatkowski said the company stopped hiring a year ago, shrinking the workforce as it embraces AI.
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.
Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).
Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.
У меня есть несколько сомнений:
• Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.
В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.
#datascience
На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.
Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).
Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.
У меня есть несколько сомнений:
• Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.
В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.
#datascience
Cредний юзер AI: Вы посмотрите, что AI может делать!!! ChatGPT повернул картинку со статуей, как я попросил! Фон чуть-чуть неправильно обработан, но в остальном настоящая магия!
А то, что на сгенерированной картинке левая, а не правая нога впереди - это так, мелочи
А то, что на сгенерированной картинке левая, а не правая нога впереди - это так, мелочи
AlphaEvolve: A coding agent for scientific and algorithmic discovery
AlphaEvolve — это эволюционный agent от DeepMind, использующий LLM для автономного улучшения алгоритмов через итеративные изменения кода и оценку его результатов. Этот подход уже показал эффективность в решении сложных научных и инженерных задач: улучшил алгоритм планирования в дата-центрах Google, упростил схему TPU, ускорил обучение самой LLM и нашёл новые алгоритмы превосходящие SOTA в релевантных областях. Одной из основных ачивок называют то, что AlphaEvolve впервые за 56 лет улучшил алгоритм умножения двух 4×4 комплексных матриц, превзойдя результат Strassen (я без понятия, что это такое, но звучит внушительно :).
Ещё одно внушительное: в математике есть задачи, в которых прогресс достигается через поиск конструкций (объектов) с лучшими свойствами по сравнению с ранее известными, согласно заданным математическим критериям. AlphaEvolve применили к более чем 50 таким задачам и получили конструкции, соответствующие SOTA примерно в 75% случаев (это, возможно, итак оптимальные результаты). А для ~20% задач AlphaEvolve превзошёл SOTA. Если в данных не было лика, это звучит действительно впечатляюще.
Ещё они ускорили скомпилированную версию FlashAttention.
Основное отличие от предыдущих подходов типа Co-Scientist в том, что здесь не просто предлагаются описания решений, а генерится (и проверяется) код, что минимизирует галлюцинации.
Я считаю, что это весьма круто. Есть много задач, где прогресс достигается дотошным и скрупулёзным анализом большого количества материала и кучей экспериментов. Если подобный подход может это оптимизировать - отлично, люди смогут заниматься более интересными вещами. Кстати в статье прям приведён пример - мол, модель оптимизировала вычисления кернелов на низком уровне, что позволило экспертам заниматься более высокоуровневыми вопросами.
Paper
Blogpost
Mathematical results
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
AlphaEvolve — это эволюционный agent от DeepMind, использующий LLM для автономного улучшения алгоритмов через итеративные изменения кода и оценку его результатов. Этот подход уже показал эффективность в решении сложных научных и инженерных задач: улучшил алгоритм планирования в дата-центрах Google, упростил схему TPU, ускорил обучение самой LLM и нашёл новые алгоритмы превосходящие SOTA в релевантных областях. Одной из основных ачивок называют то, что AlphaEvolve впервые за 56 лет улучшил алгоритм умножения двух 4×4 комплексных матриц, превзойдя результат Strassen (я без понятия, что это такое, но звучит внушительно :).
Ещё одно внушительное: в математике есть задачи, в которых прогресс достигается через поиск конструкций (объектов) с лучшими свойствами по сравнению с ранее известными, согласно заданным математическим критериям. AlphaEvolve применили к более чем 50 таким задачам и получили конструкции, соответствующие SOTA примерно в 75% случаев (это, возможно, итак оптимальные результаты). А для ~20% задач AlphaEvolve превзошёл SOTA. Если в данных не было лика, это звучит действительно впечатляюще.
Ещё они ускорили скомпилированную версию FlashAttention.
Основное отличие от предыдущих подходов типа Co-Scientist в том, что здесь не просто предлагаются описания решений, а генерится (и проверяется) код, что минимизирует галлюцинации.
Я считаю, что это весьма круто. Есть много задач, где прогресс достигается дотошным и скрупулёзным анализом большого количества материала и кучей экспериментов. Если подобный подход может это оптимизировать - отлично, люди смогут заниматься более интересными вещами. Кстати в статье прям приведён пример - мол, модель оптимизировала вычисления кернелов на низком уровне, что позволило экспертам заниматься более высокоуровневыми вопросами.
Paper
Blogpost
Mathematical results
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
StackOverflow совсем уходит в прошлое
Один из топ-контрибьюторов пошарил вот такой график - количество новых вопросов.
Интерактивную версию можно посмотреть тут.
В целом неудивительно... но стоит отметить, что пик был где-то в 2014, а дальше началось падение. Идея ресурса была прекрасной, но жесткая модерация с закрытием многих вопросов (дубликаты) и стиль общения привели к вот таким результатам.
А теперь когда под рукой есть LLM, StackOverflow совсем потерял актуальность.
Ушла эпоха...
#datascience
Один из топ-контрибьюторов пошарил вот такой график - количество новых вопросов.
Интерактивную версию можно посмотреть тут.
В целом неудивительно... но стоит отметить, что пик был где-то в 2014, а дальше началось падение. Идея ресурса была прекрасной, но жесткая модерация с закрытием многих вопросов (дубликаты) и стиль общения привели к вот таким результатам.
А теперь когда под рукой есть LLM, StackOverflow совсем потерял актуальность.
Ушла эпоха...
#datascience
Workforce.com и AI
А теперь ситуация обратная описанному в этом посте
Есть такая компания - Workforce, SaaS продукт, существует 12 лет на рынке, занимается всем связанным с организацией сотрудников в компаниях - HR, выплата зарплат и прочее.
И вот их кофаундер недавно поделился тем как они используют AI:
• Они дали всем разработчикам (около 40) возможность выбрать между Cursor и Claude Code. Пока выбирают примерно поровну между ними, Cursor чуть больше.
• Claude лучше работает самостоятельно и скорее всего может сделать фичу самостоятельно, но его нередко заносит и он делает ненужное. Cursor лучше делает мелкие и чёткие изменения.
• Средний рост продуктивности - 20% (по ощущениям автора, без метрик)
• Head of product (бывший адвокат) научился кодить и выкатил 150 PR за 12 месяцев, другой продакт менеджер - 130
• Один инженер в одиночку выкатил новый продукт на новый регион. И это работает.
• Автоматическое исправление багов, выявленных Linear/Sonar не работает, нужен вклад людей
• Claude Code хорошо делает скучные задачи типа рефакторинга
• Cursor дешевле (благодаря фиксированной стоимости), Claude Code дороже. Активные юзеры тратят до 50$/месяц, но это того стоит
• Стиль и "красота" кода страдают, но эту жертву они готовы принести в угоду результатам
• Довольно важно делать так, чтобы агентам было проще использовать кодовую базу - подготавливать документы с гайдлайнами, упрощать запуск тестов и так далее
А теперь ситуация обратная описанному в этом посте
Есть такая компания - Workforce, SaaS продукт, существует 12 лет на рынке, занимается всем связанным с организацией сотрудников в компаниях - HR, выплата зарплат и прочее.
И вот их кофаундер недавно поделился тем как они используют AI:
• Они дали всем разработчикам (около 40) возможность выбрать между Cursor и Claude Code. Пока выбирают примерно поровну между ними, Cursor чуть больше.
• Claude лучше работает самостоятельно и скорее всего может сделать фичу самостоятельно, но его нередко заносит и он делает ненужное. Cursor лучше делает мелкие и чёткие изменения.
• Средний рост продуктивности - 20% (по ощущениям автора, без метрик)
• Head of product (бывший адвокат) научился кодить и выкатил 150 PR за 12 месяцев, другой продакт менеджер - 130
• Один инженер в одиночку выкатил новый продукт на новый регион. И это работает.
• Автоматическое исправление багов, выявленных Linear/Sonar не работает, нужен вклад людей
• Claude Code хорошо делает скучные задачи типа рефакторинга
• Cursor дешевле (благодаря фиксированной стоимости), Claude Code дороже. Активные юзеры тратят до 50$/месяц, но это того стоит
• Стиль и "красота" кода страдают, но эту жертву они готовы принести в угоду результатам
• Довольно важно делать так, чтобы агентам было проще использовать кодовую базу - подготавливать документы с гайдлайнами, упрощать запуск тестов и так далее
Telegram
Data, Stories and Languages
Когда гонка за впихиванием AI в любые места проваливается
Есть такая компания - Klarna. Она занимается предоставлением финансовых услуг онлайн.
В 2023-2024 году они громко заявили, что заменяют customer support на ботов с полным успехом: https://africa…
Есть такая компания - Klarna. Она занимается предоставлением финансовых услуг онлайн.
В 2023-2024 году они громко заявили, что заменяют customer support на ботов с полным успехом: https://africa…
VS Code: Open Source AI Editor
Пришло откуда не ждали. Во-первых, расширение GitHub Copilot Chat откроют под MIT-лицензией. А потом постепенно интегрируют в сам VS Code, и он станет "open source AI editor", что бы это ни значило.
https://code.visualstudio.com/blogs/2025/05/19/openSourceAIEditor
#datascience
Пришло откуда не ждали. Во-первых, расширение GitHub Copilot Chat откроют под MIT-лицензией. А потом постепенно интегрируют в сам VS Code, и он станет "open source AI editor", что бы это ни значило.
https://code.visualstudio.com/blogs/2025/05/19/openSourceAIEditor
#datascience
Visualstudio
VS Code: Open Source AI Editor
We will open source the GitHub Copilot Chat extension. It’s the next step towards making VS Code an open source AI editor.
My new hobby: watching AI slowly drive Microsoft employees insane
Тредик на reddit.
Недавно был выпущен GitHub Copilot agent.
Судя по тому как он работает в репозиториях, относящихся к .NET, работает он очень сомнительно. Можно увидеть как люди пишут агенту комментарии, которые он бодро игнорирует или газлайтит.
Несколько примеров:
https://github.com/dotnet/runwww.group-telegram.com/pull/115762
https://github.com/dotnet/runwww.group-telegram.com/pull/115743
https://github.com/dotnet/runwww.group-telegram.com/pull/115733
https://github.com/dotnet/runwww.group-telegram.com/pull/115732
Тредик на reddit.
Недавно был выпущен GitHub Copilot agent.
Судя по тому как он работает в репозиториях, относящихся к .NET, работает он очень сомнительно. Можно увидеть как люди пишут агенту комментарии, которые он бодро игнорирует или газлайтит.
Несколько примеров:
https://github.com/dotnet/runwww.group-telegram.com/pull/115762
https://github.com/dotnet/runwww.group-telegram.com/pull/115743
https://github.com/dotnet/runwww.group-telegram.com/pull/115733
https://github.com/dotnet/runwww.group-telegram.com/pull/115732
Reddit
From the ExperiencedDevs community on Reddit: My new hobby: watching AI slowly drive Microsoft employees insane
Explore this post and more from the ExperiencedDevs community
Обзор книги "Вымышленные истории" Борхеса
Недавно я задумался о том, как у меня со временем меняются литературные предпочтения.
В школьные времена я читал все книги из списков школьной литературы. Что-то нравилось, многое читал просто потому это требовали, что-то не понимал или мне не нравилось.
Потом, во время учёбы в университете и позже я перешёл на фантастику и фэнтези. Хотя сложно сказать, что перешёл - в списках школьной литературы встречалась советская и зарубежная фантастика, я и сам нередко читал её по своему желанию.
Но постепенно я перешёл именно на фэнтези - вначале российское, потом зарубежное. И стал читать не потому что "надо", а потому что нравилось. Как дополнительный бонус, читать на иностранных языках помогает улучшать уровень владения этим языками.
Плюс, многие произведения фэнтези удостаиваются литературных премий и затрагивают такие же актуальные для людей темы как и классика.
Но классику я не совсем забрасываю. Недавно вот читал "Мастера и Маргариту", на этот раз понял намного больше отсылок, чем при прочтении в школьные годы. Но сам стиль книги мне не особо понравился.
Несколько недель назад, из любопытства, решил почитать что-то из совсем другой классики и выбрал "Вымышленные истории" Борхеса (читал на испанском).
С одной стороны, это было впечатляюще. У Борхеса потрясающий талант к написанию коротких рассказов. Даже в рассказе на пять страниц он способен создать захватывающее повествование. Его истории полны отсылок к другим книгам, философским идеям и, иногда, неожиданным поворотам сюжета.
С другой стороны, меня они особо не заинтересовали. У меня возникло впечатление, что он пишет "для своих". Если ты не знаком с книгами, историческими моментами и философскими идеями, на которые он ссылается, многое теряется. А читать десятки книг чисто ради этого не хочется.
У меня возникала ассоциация с теорией математики: есть немало людей, которые её обожают и могут часами обсуждать детали, но большинству она неинтересна. И мне кажется, что с произведениями Борхеса — та же история. Есть аудитория, которая получает удовольствие от такого стиля повествования, но это явно не для всех. Да и повороты сюжета (которые впечатляют критиков) нередко можно угадать заранее.
Так что я восхищаюсь мастерством Борхеса, но этот автор не для меня.
#books
Недавно я задумался о том, как у меня со временем меняются литературные предпочтения.
В школьные времена я читал все книги из списков школьной литературы. Что-то нравилось, многое читал просто потому это требовали, что-то не понимал или мне не нравилось.
Потом, во время учёбы в университете и позже я перешёл на фантастику и фэнтези. Хотя сложно сказать, что перешёл - в списках школьной литературы встречалась советская и зарубежная фантастика, я и сам нередко читал её по своему желанию.
Но постепенно я перешёл именно на фэнтези - вначале российское, потом зарубежное. И стал читать не потому что "надо", а потому что нравилось. Как дополнительный бонус, читать на иностранных языках помогает улучшать уровень владения этим языками.
Плюс, многие произведения фэнтези удостаиваются литературных премий и затрагивают такие же актуальные для людей темы как и классика.
Но классику я не совсем забрасываю. Недавно вот читал "Мастера и Маргариту", на этот раз понял намного больше отсылок, чем при прочтении в школьные годы. Но сам стиль книги мне не особо понравился.
Несколько недель назад, из любопытства, решил почитать что-то из совсем другой классики и выбрал "Вымышленные истории" Борхеса (читал на испанском).
С одной стороны, это было впечатляюще. У Борхеса потрясающий талант к написанию коротких рассказов. Даже в рассказе на пять страниц он способен создать захватывающее повествование. Его истории полны отсылок к другим книгам, философским идеям и, иногда, неожиданным поворотам сюжета.
С другой стороны, меня они особо не заинтересовали. У меня возникло впечатление, что он пишет "для своих". Если ты не знаком с книгами, историческими моментами и философскими идеями, на которые он ссылается, многое теряется. А читать десятки книг чисто ради этого не хочется.
У меня возникала ассоциация с теорией математики: есть немало людей, которые её обожают и могут часами обсуждать детали, но большинству она неинтересна. И мне кажется, что с произведениями Борхеса — та же история. Есть аудитория, которая получает удовольствие от такого стиля повествования, но это явно не для всех. Да и повороты сюжета (которые впечатляют критиков) нередко можно угадать заранее.
Так что я восхищаюсь мастерством Борхеса, но этот автор не для меня.
#books
Goodreads
Ficciones
The seventeen pieces in Ficciones demonstrate the whirl…
Deeplearning.ai course: MCP: Build Rich-Context AI Apps with Anthropic
Deeplearning.ai в последнее время выпускает мини-курсы один за другим, часто рекламные и поверхностные. Я некоторые из них смотрел - какие-то годные, какие-то нет.
Из свежего мне понравился курс по MCP в сотрудничестве с Anthropic.
Я как-то до этого не пробовал MCP, а этот курс помог понять как это работает. Курс короткий, но даёт годный пример того, как написать MCP server и client для получения желаемой информации с arvix.org.
#datascience
Deeplearning.ai в последнее время выпускает мини-курсы один за другим, часто рекламные и поверхностные. Я некоторые из них смотрел - какие-то годные, какие-то нет.
Из свежего мне понравился курс по MCP в сотрудничестве с Anthropic.
Я как-то до этого не пробовал MCP, а этот курс помог понять как это работает. Курс короткий, но даёт годный пример того, как написать MCP server и client для получения желаемой информации с arvix.org.
#datascience
DeepLearning.AI - Learning Platform
MCP: Build Rich-Context AI Apps with Anthropic - DeepLearning.AI
Build AI apps that access tools, data, and prompts using the Model Context Protocol.
Claude 4
https://www.anthropic.com/news/claude-4
Среди прочего, Extended thinking with tool use - например, может думать при поиске в интернете
https://www.anthropic.com/news/claude-4
Среди прочего, Extended thinking with tool use - например, может думать при поиске в интернете
DRW - Crypto Market Prediction
Не знаю радоваться или плакать. На каггле запустили сореву по предсказанию цены крипты. Соревнование не официальное, а community, но приз - 25k$ в сумме.
Более того, орги сделали promotion video для рекламы соревнования.
#datascience
Не знаю радоваться или плакать. На каггле запустили сореву по предсказанию цены крипты. Соревнование не официальное, а community, но приз - 25k$ в сумме.
Более того, орги сделали promotion video для рекламы соревнования.
#datascience
Kaggle
DRW - Crypto Market Prediction
Develop a model capable of predicting crypto future price movements
HuggingFace в разделе статей теперь суммаризирует статьи для совсем ленивых.
Лень прочитать статью? Читайте abstract. Лень читать abstract? Теперь есть "уникальная" возможность прочитать одно предложение самым главным.
Печально
Лень прочитать статью? Читайте abstract. Лень читать abstract? Теперь есть "уникальная" возможность прочитать одно предложение самым главным.
Печально
Минутка ностальгии
Я открыл каггл впервые за долгое время и увидел, что один из моих ноутбуков получил золото неделю назад. Открыл его - а это ноутбук по соревнованию от Авито которое было 7 лет назад.
А казалось, что всё это было недавно...
Я открыл каггл впервые за долгое время и увидел, что один из моих ноутбуков получил золото неделю назад. Открыл его - а это ноутбук по соревнованию от Авито которое было 7 лет назад.
А казалось, что всё это было недавно...
Visual Planning: Let's Think Only with Images
Авторы предлагают новый подход — Visual Planning, где планирование выполняется не через текст, а с помощью последовательностей изображений, что особенно эффективно для задач с пространственной и геометрической логикой. И разработали VPRL — reinforcement learning фреймворк, основанный на GRPO.
Результаты выглядят неплохо. Интересно, насколько хорошо это сработает для соревнования ARC?
Paper
Code
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Авторы предлагают новый подход — Visual Planning, где планирование выполняется не через текст, а с помощью последовательностей изображений, что особенно эффективно для задач с пространственной и геометрической логикой. И разработали VPRL — reinforcement learning фреймворк, основанный на GRPO.
Результаты выглядят неплохо. Интересно, насколько хорошо это сработает для соревнования ARC?
Paper
Code
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Мне недавно на почту пришло уведомление, что кто-то мне написал сообщение на Kaggle. Открываю - меня просят дать фидбек на ноутбук.
Смотрю ноутбук и прям с первых же строк появляется ощущение, что текст сгенерен chatgpt или чем-то подобным.
По приколу спросил ChatGPT: "What are the chances that this text is llm-generated?".
И от ответа стало как-то грустно. Оказывается, "Clear and Logical Flow", "Consistent Tone", "a strong grasp of domain knowledge", "Explanation Depth" - это всё признаки LLM.
Что же теперь получается: истинные признаки текста, написанного человеком - неструктурированный поток мысли без всякой глубины? 😅
Смотрю ноутбук и прям с первых же строк появляется ощущение, что текст сгенерен chatgpt или чем-то подобным.
По приколу спросил ChatGPT: "What are the chances that this text is llm-generated?".
И от ответа стало как-то грустно. Оказывается, "Clear and Logical Flow", "Consistent Tone", "a strong grasp of domain knowledge", "Explanation Depth" - это всё признаки LLM.
Что же теперь получается: истинные признаки текста, написанного человеком - неструктурированный поток мысли без всякой глубины? 😅