Telegram Group & Telegram Channel
💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие.
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.

🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.

Что делает Farseer?

▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)

📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.

Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.

📌 Читать



group-telegram.com/machinelearning_books/1033
Create:
Last Update:

💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие.
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.

🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.

Что делает Farseer?

▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)

📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.

Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.

📌 Читать

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
group-telegram.com/machinelearning_books/1033

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. In 2018, Russia banned Telegram although it reversed the prohibition two years later.
from sg


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American