group-telegram.com/data_analysis_ml/3504
Last Update:
🗣 Dia — это новаяоткрытая модель текст‑в‑речь от Nari Labs с 1.6 млрд параметров, способная генерировать полноценный диалог с богатой экспрессией.
Ключевые возможности:
- Ультра‑реалистичный диалог. Генерация согласованных реплик двух «говорящих» персонажей, помеченных тэгами [S1] и [S2] в одном тексте.
- Эмоции и тон. Можно задавать тональность и интонацию через акустический запрос (audio prompt), а также управлять «невербалкой»: смех, кашель, вздохи и т. д.
- Voice cloning. Клонирование голоса по короткому образцу: подгрузите аудио и его транскрипт, и модель адаптируется под заданный тембр
GitHub
Модель написана на Python (100 % кода) с использованием PyTorch 2.0 и CUDA 12.6
Производительность и требования:
Полная версия требует ≈10 GB VRAM; в будущем планируется квантование модели.
Установка и запуск:pip install git+https://github.com/nari-labs/dia.git
# или python app.py
git clone https://github.com/nari-labs/dia.git
cd dia
uv run app.py
В интерфейсе Gradio сразу можно оценить разницу с ElevenLabs и Sesame CSM‑1B
Лицензия: Apache 2.0.
Dia отлично подходит для ML‑исследований в TTS: вы получаете открытые весовые файлы, гибкий API для скриптов и UI для быстрой проверки гипотез.
На данный момент Dia поддерживает генерацию речи только на английском языке
▪Demo
▪Github
▪HF
@data_analysis_ml
BY Анализ данных (Data analysis)

Share with your friend now:
group-telegram.com/data_analysis_ml/3504