Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/buckwheat_thoughts/-23-24-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Гречневые мысли | Telegram Webview: buckwheat_thoughts/23 -
Telegram Group & Telegram Channel
Ну и не могу вдогонку не высказаться по поводу набившей оскомину o1. OpenAI подают её как первую модель, умеющую рассуждать, особенно впечатлительные юзеры пишут про новую парадигму в ИИ, а я смотрю на это всё и понимаю, что это тупик и маркетинговый трюк, чтобы вырваться на месяц-полтора вперёд на некоторых бенчах и заполучить ещё несколько сотен миллионов долларов инвестиций.

Наверняка мы этого не знаем, но, скорее всего, всё, что они сделали — это нагенерили 100500 рабочих трейсов CoT через Monte Carlo Tree Search, доучили модельку на них с помощью какого-нибудь DPO и дополнительно потюнили на нахождение собственных ошибок. Может быть, ещё руками разметили ветки для областей, где автоматическая верификация цепочек рассуждений невозможна. Не слишком неочевидная мысль, и, как показывает предыдущий пост, довольно ограниченная в мощности.

Юзеры, которым не очень интересна математика или код — те, кто хотят поролплеить или хотят фактологической точности — от o1 плюются, потому что стало дороже и не сильно лучше. Ресёрчеры плюются, потому что после вопросов о том, как o1 работает, им на почту прилетают письма счастья от OpenAI. Дурачки радуются, что наконец то в сфт добавили информацию сколько букв "r" в слове "strawberry" и говорят, что AGI уже рядом и мы скоро заживём счастливо и богато.

Имхо, OpenAI уже не те. Какое-то время назад они перестали быть open, но им это прощали, потому что они регулярно выкладывали крутые статьи или делали потрясающие продукты типа Sora, Advanced Voice Mode или GPT-4, которую аж полтора года никто не мог догнать по качеству. Ну а сейчас у них нет ни прорывного ресёрча, ни прорывного продукта (потому что o1 легко может быть побеждён генерацией программ на питоне и запуском их в репле), только top-1 скоры на Arena Hard и хайп на пустом месте.

Ну раз ты такой умный, то чё делать дальше то? Есть идеи как продвинуть область или ты только рантить можешь?

Есть. Двигать ресёрч в агентах (потому что решение задач чисто ллмками имеет очевидные ограничения), повышать IFEval (потому что это самое важное для агентов), учить модели пользоваться тулами (чтобы они не пытались обмануть свою токенизацию, считая число букв r в слове strawberry), пилить тру мультиязычность (а не то подобие мультиязычности с просадками в 10-15% на ммлу на чуть менее ресурсных языках не из романской группы), уменьшать галлюцинации (или хотя бы учиться их ловить!), исследовать новые архитектуры, заниматься interpretability, уменьшать стоимость и спарсити моделей через прунинг, учить большие энкдеки и сравнивать их с декодерами, море идей. Но чтобы делать всё и сразу мне недостаточно платят, так что сконцентрируюсь ка я пока что на всём, что начинается с "мульти-", а в свободное время буду рантить в канале.
👏5🌭4👍3🥴3👎1🤡1💯1



group-telegram.com/buckwheat_thoughts/23
Create:
Last Update:

Ну и не могу вдогонку не высказаться по поводу набившей оскомину o1. OpenAI подают её как первую модель, умеющую рассуждать, особенно впечатлительные юзеры пишут про новую парадигму в ИИ, а я смотрю на это всё и понимаю, что это тупик и маркетинговый трюк, чтобы вырваться на месяц-полтора вперёд на некоторых бенчах и заполучить ещё несколько сотен миллионов долларов инвестиций.

Наверняка мы этого не знаем, но, скорее всего, всё, что они сделали — это нагенерили 100500 рабочих трейсов CoT через Monte Carlo Tree Search, доучили модельку на них с помощью какого-нибудь DPO и дополнительно потюнили на нахождение собственных ошибок. Может быть, ещё руками разметили ветки для областей, где автоматическая верификация цепочек рассуждений невозможна. Не слишком неочевидная мысль, и, как показывает предыдущий пост, довольно ограниченная в мощности.

Юзеры, которым не очень интересна математика или код — те, кто хотят поролплеить или хотят фактологической точности — от o1 плюются, потому что стало дороже и не сильно лучше. Ресёрчеры плюются, потому что после вопросов о том, как o1 работает, им на почту прилетают письма счастья от OpenAI. Дурачки радуются, что наконец то в сфт добавили информацию сколько букв "r" в слове "strawberry" и говорят, что AGI уже рядом и мы скоро заживём счастливо и богато.

Имхо, OpenAI уже не те. Какое-то время назад они перестали быть open, но им это прощали, потому что они регулярно выкладывали крутые статьи или делали потрясающие продукты типа Sora, Advanced Voice Mode или GPT-4, которую аж полтора года никто не мог догнать по качеству. Ну а сейчас у них нет ни прорывного ресёрча, ни прорывного продукта (потому что o1 легко может быть побеждён генерацией программ на питоне и запуском их в репле), только top-1 скоры на Arena Hard и хайп на пустом месте.

Ну раз ты такой умный, то чё делать дальше то? Есть идеи как продвинуть область или ты только рантить можешь?

Есть. Двигать ресёрч в агентах (потому что решение задач чисто ллмками имеет очевидные ограничения), повышать IFEval (потому что это самое важное для агентов), учить модели пользоваться тулами (чтобы они не пытались обмануть свою токенизацию, считая число букв r в слове strawberry), пилить тру мультиязычность (а не то подобие мультиязычности с просадками в 10-15% на ммлу на чуть менее ресурсных языках не из романской группы), уменьшать галлюцинации (или хотя бы учиться их ловить!), исследовать новые архитектуры, заниматься interpretability, уменьшать стоимость и спарсити моделей через прунинг, учить большие энкдеки и сравнивать их с декодерами, море идей. Но чтобы делать всё и сразу мне недостаточно платят, так что сконцентрируюсь ка я пока что на всём, что начинается с "мульти-", а в свободное время буду рантить в канале.

BY Гречневые мысли





Share with your friend now:
group-telegram.com/buckwheat_thoughts/23

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today."
from us


Telegram Гречневые мысли
FROM American