❗️Как обучать языковые модели эффективнее: новое исследование от Harvard, Stanford, MIT и CMU
Свежая статья посвящена исследованию масштабируемости точности вычислений в контексте обучения и использования языковых моделей.
Обнаружен парадокс, чем дольше обучается модель, тем хуже она реагирует на снижение точности после обучения (квантизацию).
Предложен математический аппарат, позволяющий: - Предсказать деградацию модели при снижении точности - Найти оптимальный баланс между размером модели, объёмом данных и точностью вычислений - Спланировать эффективное обучение с учётом будущего использования модели
Результаты подтверждены масштабными экспериментами: - Более 465 циклов предварительного обучения - Модели до 1.7B параметров - Датасеты до 26B токенов
Практическое применение: - Для инференса: важно учитывать, как долго обучалась модель перед снижением точности - Для обучения: можно значительно снизить требования к памяти и вычислениям, правильно выбрав точность - Для планирования: появилась возможность точнее оценивать необходимые ресурсы
❗️Почему это важно? 1. Для бизнеса: потенциальное снижение затрат на обучение и эксплуатацию моделей 2. Для разработчиков: четкие ориентиры при выборе параметров обучения 3. Для исследователей: новый фреймворк для понимания масштабирования моделей
❗️Как обучать языковые модели эффективнее: новое исследование от Harvard, Stanford, MIT и CMU
Свежая статья посвящена исследованию масштабируемости точности вычислений в контексте обучения и использования языковых моделей.
Обнаружен парадокс, чем дольше обучается модель, тем хуже она реагирует на снижение точности после обучения (квантизацию).
Предложен математический аппарат, позволяющий: - Предсказать деградацию модели при снижении точности - Найти оптимальный баланс между размером модели, объёмом данных и точностью вычислений - Спланировать эффективное обучение с учётом будущего использования модели
Результаты подтверждены масштабными экспериментами: - Более 465 циклов предварительного обучения - Модели до 1.7B параметров - Датасеты до 26B токенов
Практическое применение: - Для инференса: важно учитывать, как долго обучалась модель перед снижением точности - Для обучения: можно значительно снизить требования к памяти и вычислениям, правильно выбрав точность - Для планирования: появилась возможность точнее оценивать необходимые ресурсы
❗️Почему это важно? 1. Для бизнеса: потенциальное снижение затрат на обучение и эксплуатацию моделей 2. Для разработчиков: четкие ориентиры при выборе параметров обучения 3. Для исследователей: новый фреймворк для понимания масштабирования моделей
BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. False news often spreads via public groups, or chats, with potentially fatal effects. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores.
from ua