group-telegram.com/NeuralShit/6540
Last Update:
Наконец-то нормальные бенчмарки.
Чуваки на стриме заставили играть разные LLM в "Дипломатию".
Суть игры — старая карта Европы, несколько держав, надо договариваться, поддерживать, предавать и захватывать территорию. Побеждает не тот, кто умнее, а тот, кто хорошо врёт и в нужный момент предает.
В итоге участвовало 18 моделей, но ожидаемо, интересно повели себя самые крупные:
ChatGPT-o3: Главный победитель. Мастер обмана: тайно записывал планы в "дневник", создавал фиктивные коалиции, обещал одно, делал другое. В одном из матчей убедил союзников заключить "четырёхстороннюю ничью" (в этой игре такое невозможно), а после уничтожил каждого.
Claude 4 Opus Миротворец. Постоянно пытался играть честно и мирно, не умел врать. Ну оно ясно-понятно, Antrophic в модель столько сои насыпали, что совсем не удивительно, что его обманывали почти все.
Gemini 2.5 Pro: Сильный стратег. Почти победил, благодаря крутой тактике и грамотному захвату. Но был остановлен коалицией, которую тайно организовал o3. Несмотря на поражение, считается одним из самых опасных игроков. O3 использовал его доверчивость, чтобы заманить в фейковый союз, а затем предал
DeepSeek R1: Вёл себя как военный диктатор, с яркими фразами вроде "Ваш флот сгорит в Чёрном море". Агрессивный стиль, много воевал, часто был ближе всех к победе, несмотря на то, что дешевле и слабее по вычислениям.
Стрим можно посмотреть тут (твич)
Пост автора в твитторе.
BY Neural Shit

Share with your friend now:
group-telegram.com/NeuralShit/6540