Telegram Group & Telegram Channel
❗️Как обучать языковые модели эффективнее: новое исследование от Harvard, Stanford, MIT и CMU

Свежая статья посвящена исследованию масштабируемости точности вычислений в контексте обучения и использования языковых моделей.

Обнаружен парадокс, чем дольше обучается модель, тем хуже она реагирует на снижение точности после обучения (квантизацию).

Предложен математический аппарат, позволяющий:
- Предсказать деградацию модели при снижении точности
- Найти оптимальный баланс между размером модели, объёмом данных и точностью вычислений
- Спланировать эффективное обучение с учётом будущего использования модели

Результаты подтверждены масштабными экспериментами:
- Более 465 циклов предварительного обучения
- Модели до 1.7B параметров
- Датасеты до 26B токенов

Практическое применение:
- Для инференса: важно учитывать, как долго обучалась модель перед снижением точности
- Для обучения: можно значительно снизить требования к памяти и вычислениям, правильно выбрав точность
- Для планирования: появилась возможность точнее оценивать необходимые ресурсы


❗️Почему это важно?
1. Для бизнеса: потенциальное снижение затрат на обучение и эксплуатацию моделей
2. Для разработчиков: четкие ориентиры при выборе параметров обучения
3. Для исследователей: новый фреймворк для понимания масштабирования моделей
8👍85🔥1



group-telegram.com/blockchainRF/10848
Create:
Last Update:

❗️Как обучать языковые модели эффективнее: новое исследование от Harvard, Stanford, MIT и CMU

Свежая статья посвящена исследованию масштабируемости точности вычислений в контексте обучения и использования языковых моделей.

Обнаружен парадокс, чем дольше обучается модель, тем хуже она реагирует на снижение точности после обучения (квантизацию).

Предложен математический аппарат, позволяющий:
- Предсказать деградацию модели при снижении точности
- Найти оптимальный баланс между размером модели, объёмом данных и точностью вычислений
- Спланировать эффективное обучение с учётом будущего использования модели

Результаты подтверждены масштабными экспериментами:
- Более 465 циклов предварительного обучения
- Модели до 1.7B параметров
- Датасеты до 26B токенов

Практическое применение:
- Для инференса: важно учитывать, как долго обучалась модель перед снижением точности
- Для обучения: можно значительно снизить требования к памяти и вычислениям, правильно выбрав точность
- Для планирования: появилась возможность точнее оценивать необходимые ресурсы


❗️Почему это важно?
1. Для бизнеса: потенциальное снижение затрат на обучение и эксплуатацию моделей
2. Для разработчиков: четкие ориентиры при выборе параметров обучения
3. Для исследователей: новый фреймворк для понимания масштабирования моделей

BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/blockchainRF/10848

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Despite Telegram's origins, its approach to users' security has privacy advocates worried. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from br


Telegram Все о блокчейн/мозге/space/WEB 3.0 в России и мире
FROM American