Telegram Group & Telegram Channel
🚨 Grok 4 — новая мощная модель от xAI

📊 Лидер на бенчмарках:
- Решает математику AIME25 на 100% — не ошиблась ни в одной из самых сложных задач
- ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus.

🧠 Главное достижение — Humanity’s Last Exam:
- С максимальными ресурсами и включённой поддержкой внешних инструментов — 44.4% (а на текстовой части даже 50.7%).
- Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%.
- Почти половина презентации была посвящена именно этому тесту.

🛠 Что под капотом:
- Архитектура — та же, что у Grok 3.
- Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения.
- На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов.
- Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением.
- Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini).

📉 Слабые места:
- Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку.
- Маск пообещал, что в следующей версии это исправят.

📏 Контекст увеличили до 256k токенов.

💬 API уже запущен:
- Стоимость — как у Grok 3 и Claude Sonnet.
- Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus.
- Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену.

🏭 Инфраструктура xAI растёт стремительно:
- Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200.
- В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг.
- В планах — новое расширение дата-центра Colossus.

📌 Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями.

Тестим здесь.

@ai_machinelearning_big_data

#grok
85👍55🔥18😁4🤣4👏1🫡1



group-telegram.com/ai_machinelearning_big_data/8003
Create:
Last Update:

🚨 Grok 4 — новая мощная модель от xAI

📊 Лидер на бенчмарках:
- Решает математику AIME25 на 100% — не ошиблась ни в одной из самых сложных задач
- ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus.

🧠 Главное достижение — Humanity’s Last Exam:
- С максимальными ресурсами и включённой поддержкой внешних инструментов — 44.4% (а на текстовой части даже 50.7%).
- Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%.
- Почти половина презентации была посвящена именно этому тесту.

🛠 Что под капотом:
- Архитектура — та же, что у Grok 3.
- Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения.
- На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов.
- Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением.
- Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini).

📉 Слабые места:
- Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку.
- Маск пообещал, что в следующей версии это исправят.

📏 Контекст увеличили до 256k токенов.

💬 API уже запущен:
- Стоимость — как у Grok 3 и Claude Sonnet.
- Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus.
- Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену.

🏭 Инфраструктура xAI растёт стремительно:
- Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200.
- В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг.
- В планах — новое расширение дата-центра Colossus.

📌 Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями.

Тестим здесь.

@ai_machinelearning_big_data

#grok

BY Machinelearning





Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/8003

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts.
from us


Telegram Machinelearning
FROM American