Запустить обучение Nvidia Canary 180M Flash на моей RTX 4090 было тем ещё приключением.
Причина: посредственная документация проекта NeMo, через который реализованы скрипты обучения.
Вывод: пишите документацию, будьте профессионалами.
Причина: посредственная документация проекта NeMo, через который реализованы скрипты обучения.
Вывод: пишите документацию, будьте профессионалами.
🔥4💯2
Прослушал курс про LangGraph от создателей LangChain
Недавно завершил обучение по курсу "Introduction to LangGraph" от команды разработчиков LangChain. Это отличный ресурс для тех, кто хочет продавать свои флоу под видом модных агентских систем, но пока ещё не знает как их делать.
В курсе подробно рассматриваются следующие темы:
- Построение сложных структур с использованием множества инструментов.
- Реализация операций выбора для передачи данных.
- Работа с короткосрочной и долгосрочной памятью.
- Интеракция с пользователем.
Курс рассчитан на 6 часов, но если проходить его, как я, по часу в день, то можно управиться за неделю.
Недавно завершил обучение по курсу "Introduction to LangGraph" от команды разработчиков LangChain. Это отличный ресурс для тех, кто хочет продавать свои флоу под видом модных агентских систем, но пока ещё не знает как их делать.
В курсе подробно рассматриваются следующие темы:
- Построение сложных структур с использованием множества инструментов.
- Реализация операций выбора для передачи данных.
- Работа с короткосрочной и долгосрочной памятью.
- Интеракция с пользователем.
Курс рассчитан на 6 часов, но если проходить его, как я, по часу в день, то можно управиться за неделю.
LangChain Academy
Foundation: Introduction to LangGraph
Learn the basics of LangGraph - our framework for building agentic and multi-agent applications. Separate from the LangChain package, LangGraph helps developers add better precision and control into agentic workflows.
🔥6👍4❤2👎1🍌1
Про репозитории Nvidia CUDA
Не прошло и полгода, как принципиальная компания Nvidia, тихо и без лишнего шума, сняла блокировку с российских IP-адресов, поэтому теперь снова можно спокойно качать CUDA драйверы напрямую из репозиториев Nvidia.
Но я - калач тёртый, так что на всякий случай своё зеркало https://mirror.rpa.icu/ оставлю, просто отключу специальные методы обхода указанных ограничений, за ненадобностью.
Не прошло и полгода, как принципиальная компания Nvidia, тихо и без лишнего шума, сняла блокировку с российских IP-адресов, поэтому теперь снова можно спокойно качать CUDA драйверы напрямую из репозиториев Nvidia.
Но я - калач тёртый, так что на всякий случай своё зеркало https://mirror.rpa.icu/ оставлю, просто отключу специальные методы обхода указанных ограничений, за ненадобностью.
Telegram
Pavel Zloi
Не успел начаться новый год, как компания Nvidia решила порадовать ограничением доступа к репозиториям с CUDA.
Ошб:15 https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64 InRelease
403 Forbidden [IP: 184.51.88.149 443
Не скажу, что…
Ошб:15 https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64 InRelease
403 Forbidden [IP: 184.51.88.149 443
Не скажу, что…
👍19
Мой публичный API-сервер для распознавания речи
Рад представить мой первый публичный OpenAI-совместимый API-сервер, доступный по адресу: https://api.rpa.icu
В настоящее время сервер предоставляет функциональность автоматического распознавания речи (ASR), используя модель Whisper Large V3 Turbo, запущенную через docker-whisper-server и квантованную до
Система распределяет нагрузку по трём видеокартам: двум Intel Arc A770 и одной NVIDIA RTX 3050, обеспечивая высокую производительность и точность распознавания.
🔧 Как использовать API
Вы можете бесплатно использовать данный API с любым клиентом OpenAI, например, через Python-библиотеку openai.
Для работы с сервером необходимо указать адрес сервера и токен:
📄 Пример запроса с использованием `curl`
Замените
У сервера есть ограничение на максимальный размер файла равный 50Мб.
🐍 Пример использования на Python
Пример скрипта на Python для взаимодействия с API доступен по ссылке: openai-asr.py. Скрипт позволяет передавать аудиофайл, указывать формат ответа (text, json, srt, verbose_json), модель и язык.
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
#rpa
Рад представить мой первый публичный OpenAI-совместимый API-сервер, доступный по адресу: https://api.rpa.icu
В настоящее время сервер предоставляет функциональность автоматического распознавания речи (ASR), используя модель Whisper Large V3 Turbo, запущенную через docker-whisper-server и квантованную до
q4_0
. Система распределяет нагрузку по трём видеокартам: двум Intel Arc A770 и одной NVIDIA RTX 3050, обеспечивая высокую производительность и точность распознавания.
🔧 Как использовать API
Вы можете бесплатно использовать данный API с любым клиентом OpenAI, например, через Python-библиотеку openai.
Для работы с сервером необходимо указать адрес сервера и токен:
OPENAI_BASE_URL=https://api.rpa.icu
OPENAI_API_KEY=https://www.group-telegram.com/evilfreelancer.com
📄 Пример запроса с использованием `curl`
curl https://api.rpa.icu/audio/transcriptions \
-H "Authorization: Bearer https://www.group-telegram.com/evilfreelancer.com" \
-F file=@your_audio_file.mp3 \
-F model=large-v3-turbo \
-F language=ru
Замените
your_audio_file.mp3
на путь к вашему аудиофайлу, а в параметре language
можно указать язык аудио (например, ru для русского, en для английского и т.д.), если ничего не указать, то язык будет определён автоматически.У сервера есть ограничение на максимальный размер файла равный 50Мб.
🐍 Пример использования на Python
Пример скрипта на Python для взаимодействия с API доступен по ссылке: openai-asr.py. Скрипт позволяет передавать аудиофайл, указывать формат ответа (text, json, srt, verbose_json), модель и язык.
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
#rpa
10🔥30👍9❤1
Pavel Zloi
Мой публичный API-сервер для распознавания речи Рад представить мой первый публичный OpenAI-совместимый API-сервер, доступный по адресу: https://api.rpa.icu В настоящее время сервер предоставляет функциональность автоматического распознавания речи (ASR)…
Добавил документацию в формате OpenAPI/Swagger и простенький UI.
Смотреть тут: https://api.rpa.icu/docs/
#rpa
Смотреть тут: https://api.rpa.icu/docs/
#rpa
52👍12❤2
Очень интересную фишечку обнаружил в Google Таблицах, оказывается можно редактировать/анализировать таблицу общаясь в формате чатика с Gemini интегрированную прямо в редактор.
Но что-то не могу разобраться как это себе настроить, удалось ли кому попробовать эту штуку и если да, то что надо для этого сделать?
Но что-то не могу разобраться как это себе настроить, удалось ли кому попробовать эту штуку и если да, то что надо для этого сделать?
Google
Работа с Gemini в Google Таблицах (Workspace Labs) - Cправка - Редакторы Google Документов
С помощью Gemini в Google Таблицах вы можете: создавать таблицы; создавать формулы; анализировать данные и получать статистику; создавать диаграммы и графики; получать краткий пересказ сод
Посмотрел посты блогеров которые по инерции всё ещё следят за анонсами новых продуктов от OpenAI.
Вот краткий пересказ:
Новые революционные модели стали на сколько-то там процентов лучше предыдущих и по мнению экспертов ещёвкуснее умнее.
Они доступны только по API, так что вкусить их смогут только самые упрямые.
На всяких редитах основной вопрос это нейминг, релизить модель 4.1 после 4.5 идея странная.
Лично я надеялся на релиз опенсорс моделей, но видимо придется подождать ещё немного.
Вот краткий пересказ:
Новые революционные модели стали на сколько-то там процентов лучше предыдущих и по мнению экспертов ещё
Они доступны только по API, так что вкусить их смогут только самые упрямые.
На всяких редитах основной вопрос это нейминг, релизить модель 4.1 после 4.5 идея странная.
Лично я надеялся на релиз опенсорс моделей, но видимо придется подождать ещё немного.
21👍10❤3
Forwarded from Хабр / ML & AI
Помощник читателя: визуализируем сюжет
Пишем AI-помощника для анализа художественных произведений. С помощью языковой модели для анализа текста и небольшой обвязки для визуализации полученного структурированного ответа генерируем:
- граф связей между героями;
- хронологию событий;
- карту мест действия. Читать далее
#python #machine_learning #artificial_intelligence #natural_language_processing #литература | @habr_ai
Пишем AI-помощника для анализа художественных произведений. С помощью языковой модели для анализа текста и небольшой обвязки для визуализации полученного структурированного ответа генерируем:
- граф связей между героями;
- хронологию событий;
- карту мест действия. Читать далее
#python #machine_learning #artificial_intelligence #natural_language_processing #литература | @habr_ai
Хабр
Помощник читателя: визуализируем сюжет
В текущих кодогенеративных реалиях создать что-то новое с нуля до уровня худо-бедной демонстрации стало предательски просто. Только успевай доходчиво формулировать свои хотелки, да вовремя давать по...
👍12❤4
Fish Speech API
Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.
Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио.
Работает через REST, всё максимально похоже на формат OpenAI
✅ Что умеет:
- Генерация речи на базе модели
- Стилизация речи под голос из аудио
- Кастомные параметры:
- Работает в докере или вручную через Python 3.12
🛠 Быстрый старт:
Пример запроса:
🎧 Хотите "подменить" голос? Просто добавьте
🔗 Исходники тут: https://github.com/EvilFreelancer/docker-fish-speech-server
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.
Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио.
Работает через REST, всё максимально похоже на формат OpenAI
/v1/audio/speech
, так что можно просто подменить endpoint и не менять клиент.✅ Что умеет:
- Генерация речи на базе модели
fish-speech-1.5
- Стилизация речи под голос из аудио
- Кастомные параметры:
top_p
, temperature
, max_new_tokens
и др.- Работает в докере или вручную через Python 3.12
Работает только на Nvidia.
🛠 Быстрый старт:
git clone https://github.com/EvilFreelancer/docker-fish-speech-server
cd fish-speech-api
cp docker-compose.dist.yml docker-compose.yml
docker compose up -d
Пример запроса:
curl http://localhost:8000/audio/speech \
-X POST \
-F model="fish-speech-1.5" \
-F input="Hello, this is a test of Fish Speech API" \
--output "speech.wav"
🎧 Хотите "подменить" голос? Просто добавьте
reference_audio
.🔗 Исходники тут: https://github.com/EvilFreelancer/docker-fish-speech-server
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
5❤9👍6
🚀 Обновление моего публичного API-сервера
Я перенёс своё решение с самописного OpenAI-совместимого API-сервера на прокси LiteLLM, что позволило значительно упростить поддержку и расширить функциональность.
Теперь мой API-сервер поддерживает не только распознавание речи (ASR), но и генерацию речи (TTS) и текстовое общение с большими языковыми моделями (LLM).
🌊 Модель для генерации речи из текста — fish-speech-1.5
Добавлена поддержка модели
Для тестирования этой возможности я подготовил скрипт на Python: openai-tts.py
А это пример cURL запроса:
💬 Думающая большая языковая модель — deepseek-r1:8b
Также теперь через API теперь можно общаться с thinking моделью
Скрипт-пример общения с моделью: openai-chat.py
А это пример cURL запроса:
Обе новые модели работают на одной RTX 4090.
🧠 Всё это благодаря LiteLLM работает в рамках OpenAI-совместимого API, и по-прежнему доступно по тожму же адресу и тому же токену, пока что бесплатно:
Документацию обновил и дополнил: https://api.rpa.icu/docs/
———
Раньше я думал, что давать доступ к моделям только через API — это удел ленивых инженеров. Но спецы из OpenAI намедни показали мне, что это на самом деле общепризнанная мировая практика, и теперь я, как и положено, действую по заветам лидеров рынка. 😎
#rpa
Я перенёс своё решение с самописного OpenAI-совместимого API-сервера на прокси LiteLLM, что позволило значительно упростить поддержку и расширить функциональность.
Теперь мой API-сервер поддерживает не только распознавание речи (ASR), но и генерацию речи (TTS) и текстовое общение с большими языковыми моделями (LLM).
🌊 Модель для генерации речи из текста — fish-speech-1.5
Добавлена поддержка модели
fish-speech-1.5
, которая позволяет выполнять преобразование текста в речь используя формат OpenAI-совместимых клиентов.Для тестирования этой возможности я подготовил скрипт на Python: openai-tts.py
А это пример cURL запроса:
curl https://api.rpa.icu/audio/speech \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://www.group-telegram.com/evilfreelancer.com" \
-d '{
"model": "fish-speech-1.5",
"input": "Hello, this is a test of Fish Speech API",
"voice": "english"
}' \
--output "speech.wav"
💬 Думающая большая языковая модель — deepseek-r1:8b
Также теперь через API теперь можно общаться с thinking моделью
deepseek-r1:8b
, которая благодаря тому, что основана на LLaMA 3.1 8B, поддерживает function calling
.Скрипт-пример общения с моделью: openai-chat.py
А это пример cURL запроса:
curl https://api.rpa.icu/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://www.group-telegram.com/evilfreelancer.com" \
-d '{
"model": "deepseek-r1:8b",
"messages": [
{
"role": "user",
"content": "Write a one-sentence bedtime story about a unicorn."
}
]
}'
Обе новые модели работают на одной RTX 4090.
🧠 Всё это благодаря LiteLLM работает в рамках OpenAI-совместимого API, и по-прежнему доступно по тожму же адресу и тому же токену, пока что бесплатно:
OPENAI_BASE_URL=https://api.rpa.icu
OPENAI_API_KEY=https://www.group-telegram.com/evilfreelancer.com
Документацию обновил и дополнил: https://api.rpa.icu/docs/
———
Раньше я думал, что давать доступ к моделям только через API — это удел ленивых инженеров. Но спецы из OpenAI намедни показали мне, что это на самом деле общепризнанная мировая практика, и теперь я, как и положено, действую по заветам лидеров рынка. 😎
#rpa
1🔥19
Добавил в апишку модель ReZero-v0.1:3b-250404, а если точнее то конвертированную в GGUF версию.
Модель поддерживает
Подробнее о модели ReZero можно почитать тут, а тут исходники.
Пример использования:
#rpa
Модель поддерживает
function calling
и судя по описанию в карточке очень упрямая, она будет рефлексировать и вызывать тул до тех пор пока не получит необходимый ответ.Подробнее о модели ReZero можно почитать тут, а тут исходники.
Пример использования:
curl https://api.rpa.icu/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://www.group-telegram.com/evilfreelancer.com" \
-d '{
"model": "ReZero-v0.1:3b-250404",
"messages": [
{"role": "user",
"content": "Write a one-sentence bedtime story about a unicorn."}
]
}'
#rpa
52❤7👍2🔥2
Pavel Zloi
Fish Speech API Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio. Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио. Работает через REST…
Добавил в Fish Speech API поддержку голосов
Теперь при помощи параметра
Пример использования:
Помимо этого добавил в апишку возможность работать в режиме отправки JSON запросов:
И ещё одно очень важное наблюдение
Модель Fish Speech очень плохо делает короткие сообщения, если хотите получить приемлемое качество то стоит присылать ей сразу абзац текста целиком, и если она начинает повторяться то ещё и
Теперь при помощи параметра
voice
вы можете выбрать голос из заранее подготовленных сэмплов, полный список в папке examples, а взял я их со спейса fishaudio/fish-speech-1 на HuggingFace.Пример использования:
curl http://localhost:8000/audio/speech \
-X POST \
-F model="fish-speech-1.5" \
-F voice="english-nice" \
-F input="Dr. Eleanor Whitaker, a quantum physicist from Edinburgh, surreptitiously analyzed the enigmatic hieroglyphs while humming Für Elise —her quizzical expression mirrored the cryptic symbols perplexing arrangement, yet she remained determined to decipher their archaic secrets." \
--output "speech.wav"
Помимо этого добавил в апишку возможность работать в режиме отправки JSON запросов:
curl http://localhost:8000/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "fish-speech-1.5",
"input": "Dr. Eleanor Whitaker, a quantum physicist from Edinburgh, surreptitiously analyzed the enigmatic hieroglyphs while humming Für Elise —her quizzical expression mirrored the cryptic symbols perplexing arrangement, yet she remained determined to decipher their archaic secrets.",
"reference_audio": "=base64..."
}' \
--output "speech.wav"
И ещё одно очень важное наблюдение
Модель Fish Speech очень плохо делает короткие сообщения, если хотите получить приемлемое качество то стоит присылать ей сразу абзац текста целиком, и если она начинает повторяться то ещё и
repetition_penalty
побольше делать.🔥6❤2
Gist
LiteLLM usage (total, prompt, completion) promepteus exporter by user by llm model
LiteLLM usage (total, prompt, completion) promepteus exporter by user by llm model - Dockerfile
Провозился несколько часов c LiteLLM, моя цель была сделать Prometheus Exporter чтобы считать сколько тот или иной юзер израсходовал токенов у какой модели.
Однако, оказалось, что разработчики LiteLLM лукавят заверяя нас, что их детище это полностью OpenSource проект, тут как говорится есть нюанс, чтобы заработали такие штуки как Prometheus Exporter, SSO и прочие полезности надо занести им немного денег за лицензию.
В общем перебрав с десяток вариантов, начиная с логирования запросов в файл, заканчивая альтернативными прокси, плюнул на это дело и полез в базу данных смотреть, что там по факту логируется и как, оказалось есть несколько таблиц с красивыми реляциями, с которых можно очень удобно снимать данные. Ну а собрать их и упаковать в формат экспортера это уже дело техники.
В результате чего у меня получился вот такой скрипт сервера, пользуйтесь на здоровье.
Однако, оказалось, что разработчики LiteLLM лукавят заверяя нас, что их детище это полностью OpenSource проект, тут как говорится есть нюанс, чтобы заработали такие штуки как Prometheus Exporter, SSO и прочие полезности надо занести им немного денег за лицензию.
В общем перебрав с десяток вариантов, начиная с логирования запросов в файл, заканчивая альтернативными прокси, плюнул на это дело и полез в базу данных смотреть, что там по факту логируется и как, оказалось есть несколько таблиц с красивыми реляциями, с которых можно очень удобно снимать данные. Ну а собрать их и упаковать в формат экспортера это уже дело техники.
В результате чего у меня получился вот такой скрипт сервера, пользуйтесь на здоровье.
# HELP llm_tokens_by_user_total Total tokens used per user_email and model
# TYPE llm_tokens_by_user_total gauge
llm_tokens_by_user_total{model="deepseek-r1:8b",type="prompt",user_email="[email protected]"} 88.0
llm_tokens_by_user_total{model="deepseek-r1:8b",type="completion",user_email="[email protected]"} 3177.0
llm_tokens_by_user_total{model="deepseek-r1:8b",type="total",user_email="[email protected]"} 3265.0
👍9🔥1
Forwarded from Dealer.AI
This media is not supported in your browser
VIEW IN TELEGRAM
Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.
So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)
В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.
Подробнее тут: https://huggingface.co/papers/2504.08791
So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)
В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.
Подробнее тут: https://huggingface.co/papers/2504.08791
🔥13👍7❤3
Добавил в апишку несколько новых моделей
На этот раз все модели семейства GigaChat, использовать так:
Полный список всех новых моделей:
- GigaChat
- GigaChat-Max
- GigaChat-Plus
- GigaChat-Pro
- GigaChat-2
- GigaChat-2-Max
- GigaChat-2-Pro
И на десерт сберовский инстанс полноразмерной дипсик:
- Sber-DeepSeek-R1
#rpa
На этот раз все модели семейства GigaChat, использовать так:
curl https://api.rpa.icu/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://www.group-telegram.com/evilfreelancer.com" \
-d '{
"model": "GigaChat-2-Pro",
"messages": [
{"role": "user",
"content": "Расскажи, снегурочка, где была?"}
]
}'
Полный список всех новых моделей:
- GigaChat
- GigaChat-Max
- GigaChat-Plus
- GigaChat-Pro
- GigaChat-2
- GigaChat-2-Max
- GigaChat-2-Pro
И на десерт сберовский инстанс полноразмерной дипсик:
- Sber-DeepSeek-R1
#rpa
1🔥14👍5
Canary-Serve
Представляю вашему вниманию проект EvilFreelancer/docker-canary-serve - это небольшой FastAPI-сервер позволяющий работать с моделями NVIDIA Canary, выполняет быстрое многоязычное распознавание речи и умеет генерировать субтитры.
Поддерживает все основные модели семейства Canary:
- nvidia/canary-1b
- nvidia/canary-1b-flash
- nvidia/canary-180m-flash
Запустить так:
Юзать так:
Ограничения:
- Работает только на видеокартах Nvidia
- Базовые модели поддерживают только несколько языков:
- Для работы 180m модели нужно 2.5Гб VRAM, для работы 1B модели нужно 14Гб VRAM
Представляю вашему вниманию проект EvilFreelancer/docker-canary-serve - это небольшой FastAPI-сервер позволяющий работать с моделями NVIDIA Canary, выполняет быстрое многоязычное распознавание речи и умеет генерировать субтитры.
Поддерживает все основные модели семейства Canary:
- nvidia/canary-1b
- nvidia/canary-1b-flash
- nvidia/canary-180m-flash
Запустить так:
git clone https://github.com/EvilFreelancer/docker-canary-serve.git
cd docker-canary-serve
cp docker-compose.dist.yml docker-compose.yml
docker-compose up -d
Юзать так:
curl http://localhost:9000/inference \
-F [email protected] \
-F language=en \
-F response_format=srt
Ограничения:
- Работает только на видеокартах Nvidia
- Базовые модели поддерживают только несколько языков:
en
, de
, fr
, es
- Для работы 180m модели нужно 2.5Гб VRAM, для работы 1B модели нужно 14Гб VRAM
👍10🔥3