Telegram Group & Telegram Channel
Продолжаем изучать стэнфордский отчет AI Index Report 2025 (начало тут и тут). Вторая глава «Technical Performance» посвящена эволюции технических возможностей ИИ-систем.

🔥 Контекст и ключевые тренды. В 2024 году модели сильно продвинулись в классических тестах, но при этом столкнулись с фундаментальными ограничениями в сложных задачах.

1️⃣ Прорывы в бенчмарках и специализированных задачах

▫️ Рекорды на новых тестах. В сложных комплексных бенчмарках (MMMU, GPQA, SWE-bench) ИИ за год показал впечатляющий прогресс. Например, на SWE-bench в 2023 году модели решали лишь 4.4% задач, а в 2024 — 71.7%. Кстати, и мы на канале фиксировали этот тренд.
▫️Преодоление «человеческого» барьера. Благодаря улучшению алгоритмов рассуждений и интеграции символьных методов модели вроде o1-preview и Claude 3.5 Sonnet достигли 97,9% точности на датасете MATH — выше человеческого уровня (90%).

2️⃣ Конвергенция технологий и сокращение разрывов

▫️Открытые vs. закрытые модели. Разрыв в производительности между топовыми открытыми и проприетарными моделями сократился с 8% до 1.7% (уровень статистической погрешности), что демократизирует доступ к передовым ИИ-технологиям.
👉 Добавим от себя пару комментариев:
• опенсорс заставляет даже завзятых проприетарщиков, таких как OpenAI, выпускать бесплатные версии своих моделей;
• но демократизация доступа к ИИ имеет обратную сторону — проблему безопасности данных.

▫️Малые модели vs. большие. Успехи таких проектов, как Mistral и Phi-3, доказали, что могут небольшие модели при правильном обучении. Phi-3-mini (3.8B параметров) сравнялась по эффективности с PaLM (540B) — 142-кратное сокращение размера при той же производительности. Качество работы модели больше не зависит линейно от масштаба, и мы об этом писали.

▫️Глобальное выравнивание. Китайские модели (напр., DeepSeek и Qwen) догнали по качеству американские. Разрыв на бенчмарках за год сократился с десятков до долей процента.

3️⃣ Новые парадигмы обучения

Индустрия освоила test-time compute (TTC) — метод оптимизации работы ИИ, при котором ресурсы выделяются динамически, а не фиксируются заранее. Это позволяет модели дольше «размышлять» над сложными задачами, улучшая качество ответов.
▫️Например, модель o1 от OpenAI решает 74.4% задач математической олимпиады против 9.3% у GPT-4o. Но требует в 6 раз больше вычислительной мощности и работает в 30 раз медленнее.

4️⃣ Революция в генерации видео

Видеогенерация в продвинутых моделях SORA и Veo 2 преодолела проблему контекстной согласованности — теперь возможно создание минутных роликов с физически точной динамикой и детализацией, которые были немыслимы еще год назад.

5️⃣ Ограничения и «стены» прогресса

Несмотря на успехи в математике, модели проваливаются в задачах, требующих многошаговой логики. Лучшие системы решают лишь 2% задач из FrontierMath и 8-12% на PlanBench и Humanity’s Last Exam, что указывает на фундаментальные ограничения текущих архитектур.

🎯 Выводы

👉 Главный тренд: ИИ становится быстрее и доступнее, но упирается в непреодолимые барьеры в сложных рассуждениях. Дальнейшее улучшение работы потребует смены парадигмы, а не оптимизации существующих подходов, резюмируют авторы.

👉 Перспективы: Активное развитие агентного ИИ (что совпадает и с нашей оценкой) и поиск альтернатив масштабированию (нейроморфные чипы, квантовые методы). ИИ-агенты уже используются для автоматизации программирования, анализа данных и управления ИТ-инфраструктурой. Отдельно подчеркивается их роль в науке и робототехнике.

👉 Продолжение следует...

#AI #ниокр #bigdata #инференс #тренды #аналитика #тесты #AI_index_report_2025

🚀 ©ТехноТренды



group-telegram.com/technologies_trends/250
Create:
Last Update:

Продолжаем изучать стэнфордский отчет AI Index Report 2025 (начало тут и тут). Вторая глава «Technical Performance» посвящена эволюции технических возможностей ИИ-систем.

🔥 Контекст и ключевые тренды. В 2024 году модели сильно продвинулись в классических тестах, но при этом столкнулись с фундаментальными ограничениями в сложных задачах.

1️⃣ Прорывы в бенчмарках и специализированных задачах

▫️ Рекорды на новых тестах. В сложных комплексных бенчмарках (MMMU, GPQA, SWE-bench) ИИ за год показал впечатляющий прогресс. Например, на SWE-bench в 2023 году модели решали лишь 4.4% задач, а в 2024 — 71.7%. Кстати, и мы на канале фиксировали этот тренд.
▫️Преодоление «человеческого» барьера. Благодаря улучшению алгоритмов рассуждений и интеграции символьных методов модели вроде o1-preview и Claude 3.5 Sonnet достигли 97,9% точности на датасете MATH — выше человеческого уровня (90%).

2️⃣ Конвергенция технологий и сокращение разрывов

▫️Открытые vs. закрытые модели. Разрыв в производительности между топовыми открытыми и проприетарными моделями сократился с 8% до 1.7% (уровень статистической погрешности), что демократизирует доступ к передовым ИИ-технологиям.
👉 Добавим от себя пару комментариев:
• опенсорс заставляет даже завзятых проприетарщиков, таких как OpenAI, выпускать бесплатные версии своих моделей;
• но демократизация доступа к ИИ имеет обратную сторону — проблему безопасности данных.

▫️Малые модели vs. большие. Успехи таких проектов, как Mistral и Phi-3, доказали, что могут небольшие модели при правильном обучении. Phi-3-mini (3.8B параметров) сравнялась по эффективности с PaLM (540B) — 142-кратное сокращение размера при той же производительности. Качество работы модели больше не зависит линейно от масштаба, и мы об этом писали.

▫️Глобальное выравнивание. Китайские модели (напр., DeepSeek и Qwen) догнали по качеству американские. Разрыв на бенчмарках за год сократился с десятков до долей процента.

3️⃣ Новые парадигмы обучения

Индустрия освоила test-time compute (TTC) — метод оптимизации работы ИИ, при котором ресурсы выделяются динамически, а не фиксируются заранее. Это позволяет модели дольше «размышлять» над сложными задачами, улучшая качество ответов.
▫️Например, модель o1 от OpenAI решает 74.4% задач математической олимпиады против 9.3% у GPT-4o. Но требует в 6 раз больше вычислительной мощности и работает в 30 раз медленнее.

4️⃣ Революция в генерации видео

Видеогенерация в продвинутых моделях SORA и Veo 2 преодолела проблему контекстной согласованности — теперь возможно создание минутных роликов с физически точной динамикой и детализацией, которые были немыслимы еще год назад.

5️⃣ Ограничения и «стены» прогресса

Несмотря на успехи в математике, модели проваливаются в задачах, требующих многошаговой логики. Лучшие системы решают лишь 2% задач из FrontierMath и 8-12% на PlanBench и Humanity’s Last Exam, что указывает на фундаментальные ограничения текущих архитектур.

🎯 Выводы

👉 Главный тренд: ИИ становится быстрее и доступнее, но упирается в непреодолимые барьеры в сложных рассуждениях. Дальнейшее улучшение работы потребует смены парадигмы, а не оптимизации существующих подходов, резюмируют авторы.

👉 Перспективы: Активное развитие агентного ИИ (что совпадает и с нашей оценкой) и поиск альтернатив масштабированию (нейроморфные чипы, квантовые методы). ИИ-агенты уже используются для автоматизации программирования, анализа данных и управления ИТ-инфраструктурой. Отдельно подчеркивается их роль в науке и робототехнике.

👉 Продолжение следует...

#AI #ниокр #bigdata #инференс #тренды #аналитика #тесты #AI_index_report_2025

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT








Share with your friend now:
group-telegram.com/technologies_trends/250

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels.
from us


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American