Qwen-Edit-2509-Upscale-LoRA
Лора #QIE для реставрации фото, в процессе разработки
устраняет низкое разрешение (до 16x), чрезмерную резкость, шум (до 50 %), блюр (радиус до 3 пикселей), артефакты JPEG (при качестве от 5 %), моушен блюр (до 64 пикселей), пикселизацию (до 16x), цветовой бандинг (до 3 бит), проблемы после использования других моделей увеличения масштаба (до 16x)
Воркфлоу в репозитории
#lora #upscale #imagerestoration #deblur #deartifact
Лора #QIE для реставрации фото, в процессе разработки
устраняет низкое разрешение (до 16x), чрезмерную резкость, шум (до 50 %), блюр (радиус до 3 пикселей), артефакты JPEG (при качестве от 5 %), моушен блюр (до 64 пикселей), пикселизацию (до 16x), цветовой бандинг (до 3 бит), проблемы после использования других моделей увеличения масштаба (до 16x)
Воркфлоу в репозитории
#lora #upscale #imagerestoration #deblur #deartifact
🔥12👍7
😱9🔥7👍5
Media is too big
VIEW IN TELEGRAM
SwitchLight 3.0
Обновился инструмент для релайтинга
Есть облачная и десктопная версии
работает с 4К, поддерживает 16-bit EXR
Интеграция с Блендером и UE5
Все платное. Студенты могут поклянчить бесплатный некоммерческий доступ
#video2PBR #video2normal #relighting #exr #ue #blender
Обновился инструмент для релайтинга
Есть облачная и десктопная версии
работает с 4К, поддерживает 16-bit EXR
Интеграция с Блендером и UE5
Все платное. Студенты могут поклянчить бесплатный некоммерческий доступ
#video2PBR #video2normal #relighting #exr #ue #blender
👍3🔥3🤓1
Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages
Аудиораспознавалка 1600+ языков от Meta (запрещено в РФ) включая 500 низкоресурсных языков, которые ранее не транскрибировались с помощью ИИ.
носитель неподдерживаемого языка может предоставить лишь несколько парных образцов аудиотекста и получить приемлемое качество транскрипции - без масштабирования обучающих данных, обременительных знаний или доступа к высокопроизводительным вычислительным системам
Линейка моделей от 0.3B до 7B, требующих от 2 ГБ до 20 ГБ VRAM для работы
Короче, Whisper подвинься. Вернее, прощай
Гитхаб
Демо - тест Идущего к реке в комментах
Глобус языков - к них есть прикольная страница где можно интерактивно потыкать на глобус где какие языки есть и поддерживает ли их Omnilingual ASR. Коми и удмуртский например поддерживает
Спасибо @EvgenyiPerm
#asr #stt #speech2text
Аудиораспознавалка 1600+ языков от Meta (запрещено в РФ) включая 500 низкоресурсных языков, которые ранее не транскрибировались с помощью ИИ.
носитель неподдерживаемого языка может предоставить лишь несколько парных образцов аудиотекста и получить приемлемое качество транскрипции - без масштабирования обучающих данных, обременительных знаний или доступа к высокопроизводительным вычислительным системам
Линейка моделей от 0.3B до 7B, требующих от 2 ГБ до 20 ГБ VRAM для работы
Короче, Whisper подвинься. Вернее, прощай
Гитхаб
Демо - тест Идущего к реке в комментах
Глобус языков - к них есть прикольная страница где можно интерактивно потыкать на глобус где какие языки есть и поддерживает ли их Omnilingual ASR. Коми и удмуртский например поддерживает
Спасибо @EvgenyiPerm
#asr #stt #speech2text
👍12❤1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
DeepEyesV2: Toward Agentic Multimodal Model
Агентная мультимодальная модель на 7B параметров, умеет не только понимать текст и изображения, но и активно использовать внешние инструменты, например, среды выполнения кода и веб-поиск, интегрируя их в процесс рассуждения
Гитхаб
HF
#agent #multimodal #vlm
Агентная мультимодальная модель на 7B параметров, умеет не только понимать текст и изображения, но и активно использовать внешние инструменты, например, среды выполнения кода и веб-поиск, интегрируя их в процесс рассуждения
Гитхаб
HF
#agent #multimodal #vlm
❤6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
ChronoEdit-14B-Diffusers-Upscaler-LoRA
NVIDIA опубликовала лору-апскейлер к редактору ChronoEdit
#upscale #lora #restoration #imagerestoration
NVIDIA опубликовала лору-апскейлер к редактору ChronoEdit
#upscale #lora #restoration #imagerestoration
👍16🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
DEMO: Dense Motion Captioning
Модель для описания действий человека в последовательностях 3D-движений. Генерирует подробные описания действий с привязкой ко времени
Код ждем на этой неделе
#captioning #video2text
Модель для описания действий человека в последовательностях 3D-движений. Генерирует подробные описания действий с привязкой ко времени
Код ждем на этой неделе
#captioning #video2text
👍4
Taku
Операционная система, которая должна заменить вайбкодинг для непрограммистов.
Позволяет создавать и запускать приложения и инструменты в один шаг, работая при этом в привычной рабочей среде без лишних усилий и возни с кодом / деплоем и т д.
Записаться в вейтлист
#coding #agent #assistant #OS
Операционная система, которая должна заменить вайбкодинг для непрограммистов.
Позволяет создавать и запускать приложения и инструменты в один шаг, работая при этом в привычной рабочей среде без лишних усилий и возни с кодом / деплоем и т д.
Записаться в вейтлист
#coding #agent #assistant #OS
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Moondream распознает видео в реальном времени
От понимания картинок к пониманию потокового видео
Может работать с веб-камерами, камерами безопасности, дронами и другими источниками видео.
Может запускать оповещения, логировать события и управлять системами.
Применяется в безопасности, контроле качества, мониторинге безопасности и розничной аналитике.
Работает по API
Гитхаб
Демо по ссылке в шапке. Там можно подключить свою вебку или закинуть видеофал
#vlm #captioning #detection #moe #cv #image2text
От понимания картинок к пониманию потокового видео
Может работать с веб-камерами, камерами безопасности, дронами и другими источниками видео.
Может запускать оповещения, логировать события и управлять системами.
Применяется в безопасности, контроле качества, мониторинге безопасности и розничной аналитике.
Работает по API
Гитхаб
Демо по ссылке в шапке. Там можно подключить свою вебку или закинуть видеофал
#vlm #captioning #detection #moe #cv #image2text
👍5🥴1
Опубликован код генератора-реставратора изображений DDCM
Код
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
Код
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
Telegram
Нейронавт | Нейросети в творчестве
DDCM: Compressed Image Generation with Denoising Diffusion Codebook Models
Метод генерации и реставрации изображений
Код ждем
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
Метод генерации и реставрации изображений
Код ждем
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
👍6🔥2
ComfyUI Step Audio EditX TTS
Кастом ноды аудиомодели Step-Audio-EditX
#comfyui #tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech #voicecloning
Кастом ноды аудиомодели Step-Audio-EditX
#comfyui #tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech #voicecloning
👍7
Пошли слухи про Flux 2 от разработчиков из BlackForest Labs
🙏 Пусть сделают открытые веса, чтоб влезало в 8 ГБ и без цирка с лоу - хай моделями
#news
#news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22😱2🌚1
