Telegram Group & Telegram Channel
У конкурентов анонс: выпустили новые модельки o1 и o1-mini с серьёзным CoT. Как Reflection, только не мем, а реально рабочее. Самые большие приросты на сложных задачах олимпиадно-университетского уровня. Без скатывания канала в совсем бестолковую аналитику, хочется сразу пару наблюдений:

1. Очень дорогой инференс, порядка 100 раз увеличения затрат. Для простых работяг пока лимиты 30 сообщений в неделю (!). Придётся учиться формулировать весь запрос за раз. 😰

2. Мы всё дальше отходим от сравнимости моделей. Хотя для кодинга и существует арена, доверять простым людям на LLM-арене становится всё проблематичнее. Особенно тяжело сравнивать в околонаучных задачах, где мало бенчмарков, на которых согласны бенчмаркать люди.

3. Модели всё больше разделяются на “болталки” и профессиональные. Я об этом уже писал раньше, и вот теперь стало совсем понятно, что никаких клубничек в продуктах не будет.

4. Этот результат – заслуга пост-тренинга. Показывает, насколько много чего в моделях мы ещё даже не понимаем, как использовать (другими примером за последний месяц был Gemini 1.5 Pro-0827, который сильно вырвался по бенчмаркам относительно майской модели).

Вот тут можно найти o1 system card, где должно быть больше деталей (кроме самого интересного, конечно).
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/epsiloncorrect/199
Create:
Last Update:

У конкурентов анонс: выпустили новые модельки o1 и o1-mini с серьёзным CoT. Как Reflection, только не мем, а реально рабочее. Самые большие приросты на сложных задачах олимпиадно-университетского уровня. Без скатывания канала в совсем бестолковую аналитику, хочется сразу пару наблюдений:

1. Очень дорогой инференс, порядка 100 раз увеличения затрат. Для простых работяг пока лимиты 30 сообщений в неделю (!). Придётся учиться формулировать весь запрос за раз. 😰

2. Мы всё дальше отходим от сравнимости моделей. Хотя для кодинга и существует арена, доверять простым людям на LLM-арене становится всё проблематичнее. Особенно тяжело сравнивать в околонаучных задачах, где мало бенчмарков, на которых согласны бенчмаркать люди.

3. Модели всё больше разделяются на “болталки” и профессиональные. Я об этом уже писал раньше, и вот теперь стало совсем понятно, что никаких клубничек в продуктах не будет.

4. Этот результат – заслуга пост-тренинга. Показывает, насколько много чего в моделях мы ещё даже не понимаем, как использовать (другими примером за последний месяц был Gemini 1.5 Pro-0827, который сильно вырвался по бенчмаркам относительно майской модели).

Вот тут можно найти o1 system card, где должно быть больше деталей (кроме самого интересного, конечно).

BY epsilon correct




Share with your friend now:
group-telegram.com/epsiloncorrect/199

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. For tech stocks, “the main thing is yields,” Essaye said. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from us


Telegram epsilon correct
FROM American