Telegram Group & Telegram Channel
Появился новый бенчмарк, который оценивает способность ИИ предсказывать будущее – Prophet Arena

Идея очень крутая. Во-первых, это в целом довольно занятный способ оценивать способности моделей. Тут тебе и вероятностное мышление, и стратегическое, и критическое, и способность улавливать причинно-следственные связи и закономерности.

Во-вторых, с точки зрения бенчмаркинга это прямо идеальный сетап. Такой тест не перенасыщается (потому что в мире что-то происходит постоянно), а еще тут совсем нет возможности лика данных: для предсказаний специально используются еще не произошедшие события.

Работает это так: агенты сами собирают новостной контекст и анализируют данные в Интернете, а затем на основе всего найденного выдвигают свои прогнозы.

Ну и как только событие случается в реальном мире, подсчитываются метрики. Две основные – это реальный средний доход от ставок на событие и обычная статистическая точность Брайера.

Пока лидерборд такой:
3 место – Gemini 2.5 Pro
2 место – o3
1 место – GPT-5
(Ну и гран-при – Симпсоны)

А по средней доходности, кстати, пока лидирует o3-mini. Интересно, что многие модели склонны демонстрировать какие-то определенные личностные байесы. Например, кто-то постоянно принимает более консервативные решения, а кто-то более рисковые.

Лидерборд полностью и актуальные ставки моделек на разные события (в том числе на спорт, естественно) смотрите тут: www.prophetarena.co/
2100👍41🔥22😁18



group-telegram.com/data_secrets/7629
Create:
Last Update:

Появился новый бенчмарк, который оценивает способность ИИ предсказывать будущее – Prophet Arena

Идея очень крутая. Во-первых, это в целом довольно занятный способ оценивать способности моделей. Тут тебе и вероятностное мышление, и стратегическое, и критическое, и способность улавливать причинно-следственные связи и закономерности.

Во-вторых, с точки зрения бенчмаркинга это прямо идеальный сетап. Такой тест не перенасыщается (потому что в мире что-то происходит постоянно), а еще тут совсем нет возможности лика данных: для предсказаний специально используются еще не произошедшие события.

Работает это так: агенты сами собирают новостной контекст и анализируют данные в Интернете, а затем на основе всего найденного выдвигают свои прогнозы.

Ну и как только событие случается в реальном мире, подсчитываются метрики. Две основные – это реальный средний доход от ставок на событие и обычная статистическая точность Брайера.

Пока лидерборд такой:
3 место – Gemini 2.5 Pro
2 место – o3
1 место – GPT-5
(Ну и гран-при – Симпсоны)

А по средней доходности, кстати, пока лидирует o3-mini. Интересно, что многие модели склонны демонстрировать какие-то определенные личностные байесы. Например, кто-то постоянно принимает более консервативные решения, а кто-то более рисковые.

Лидерборд полностью и актуальные ставки моделек на разные события (в том числе на спорт, естественно) смотрите тут: www.prophetarena.co/

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/7629

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed.
from us


Telegram Data Secrets
FROM American