Telegram Group & Telegram Channel
Forwarded from AI Product | Igor Akimov
Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.

Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.

Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.

Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.

Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main
👍38🔥226



group-telegram.com/cgevent/10178
Create:
Last Update:

Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.

Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.

Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.

Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.

Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main

BY Метаверсище и ИИще




Share with your friend now:
group-telegram.com/cgevent/10178

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Telegram Messenger Blocks Navalny Bot During Russian Election Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp.
from sg


Telegram Метаверсище и ИИще
FROM American