Наконец-то нормальные бенчмарки.

Neural Shit

Наконец-то нормальные бенчмарки.

Чуваки на стриме заставили играть разные LLM в "Дипломатию".

Суть игры — старая карта Европы, несколько держав, надо договариваться, поддерживать, предавать и захватывать территорию. Побеждает не тот, кто умнее, а тот, кто хорошо врёт и в нужный момент предает.

В итоге участвовало 18 моделей, но ожидаемо, интересно повели себя самые крупные:

ChatGPT-o3: Главный победитель. Мастер обмана: тайно записывал планы в "дневник", создавал фиктивные коалиции, обещал одно, делал другое. В одном из матчей убедил союзников заключить "четырёхстороннюю ничью" (в этой игре такое невозможно), а после уничтожил каждого.

Claude 4 Opus Миротворец. Постоянно пытался играть честно и мирно, не умел врать. Ну оно ясно-понятно, Antrophic в модель столько сои насыпали, что совсем не удивительно, что его обманывали почти все.

Gemini 2.5 Pro: Сильный стратег. Почти победил, благодаря крутой тактике и грамотному захвату. Но был остановлен коалицией, которую тайно организовал o3. Несмотря на поражение, считается одним из самых опасных игроков. O3 использовал его доверчивость, чтобы заманить в фейковый союз, а затем предал

DeepSeek R1: Вёл себя как военный диктатор, с яркими фразами вроде "Ваш флот сгорит в Чёрном море". Агрессивный стиль, много воевал, часто был ближе всех к победе, несмотря на то, что дешевле и слабее по вычислениям.

Стрим можно посмотреть тут (твич)
Пост автора в твитторе.

Wikipedia

Дипломатия (игра)

настольная стратегическая игра

www.group-telegram.com/us/NeuralShit.com/6540

47K viewsedited Jun 6 at 22:57

group-telegram.com/NeuralShit/6540

Create: 2025-06-06
Last Update: 2025-07-22 13:55:51

BY Neural Shit

Share with your friend now:
group-telegram.com/NeuralShit/6540

Telegram | DID YOU KNOW?

Наконец-то нормальные бенчмарки.