Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.
Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.
Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных. Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.
Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени. Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.
Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.
Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.
Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных. Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.
Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени. Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.
The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from us