Telegram Group & Telegram Channel
🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов

Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста:

🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном
🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово

Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью:
- нового attention-механизма, который работает и для AR, и для MDM
- гибридной функции потерь, позволяющей переключаться между стилями генерации

💡 Что делает Eso-LMs уникальной:

В 65 раз быстрее, чем обычные diffusion-модели
В 4 раза быстрее, чем гибридные модели с KV-кэшем
📈 Генерирует качественный текст с низкой perplexity
💬 Умеет работать параллельно и быстро, без потерь в смысле

📦 Что внутри репозитория:

• Два варианта модели: Eso-LM (A) и Eso-LM (B)
• Поддержка разных архитектур: DiT, AR-трансформеры и др.
• Скрипты для обучения, оценки и генерации текстов
• Настройки, логи, загрузка данных и прочая инфраструктура

🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества.

🔗 Подробнее



group-telegram.com/data_analysis_ml/3631
Create:
Last Update:

🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов

Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста:

🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном
🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово

Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью:
- нового attention-механизма, который работает и для AR, и для MDM
- гибридной функции потерь, позволяющей переключаться между стилями генерации

💡 Что делает Eso-LMs уникальной:

В 65 раз быстрее, чем обычные diffusion-модели
В 4 раза быстрее, чем гибридные модели с KV-кэшем
📈 Генерирует качественный текст с низкой perplexity
💬 Умеет работать параллельно и быстро, без потерь в смысле

📦 Что внутри репозитория:

• Два варианта модели: Eso-LM (A) и Eso-LM (B)
• Поддержка разных архитектур: DiT, AR-трансформеры и др.
• Скрипты для обучения, оценки и генерации текстов
• Настройки, логи, загрузка данных и прочая инфраструктура

🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества.

🔗 Подробнее

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3631

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change.
from it


Telegram Анализ данных (Data analysis)
FROM American