Telegram Group Search
Qwen-Edit-2509-Upscale-LoRA

Лора #QIE для реставрации фото, в процессе разработки

устраняет низкое разрешение (до 16x), чрезмерную резкость, шум (до 50 %), блюр (радиус до 3 пикселей), артефакты JPEG (при качестве от 5 %), моушен блюр (до 64 пикселей), пикселизацию (до 16x), цветовой бандинг (до 3 бит), проблемы после использования других моделей увеличения масштаба (до 16x)

Воркфлоу в репозитории

#lora #upscale #imagerestoration #deblur #deartifact
🔥12👍7
Nano Banana 2 Preview

Вчера в Media IO на пару часов появилась модель Nano Banana 2

Судя по качеству очень может быть настоящий

#news
😱9🔥7👍5
Media is too big
VIEW IN TELEGRAM
SwitchLight 3.0

Обновился инструмент для релайтинга

Есть облачная и десктопная версии

работает с 4К, поддерживает 16-bit EXR

Интеграция с Блендером и UE5

Все платное. Студенты могут поклянчить бесплатный некоммерческий доступ

#video2PBR #video2normal #relighting #exr #ue #blender
👍3🔥3🤓1
Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages

Аудиораспознавалка 1600+ языков от Meta (запрещено в РФ) включая 500 низкоресурсных языков, которые ранее не транскрибировались с помощью ИИ.

носитель неподдерживаемого языка может предоставить лишь несколько парных образцов аудиотекста и получить приемлемое качество транскрипции - без масштабирования обучающих данных, обременительных знаний или доступа к высокопроизводительным вычислительным системам

Линейка моделей от 0.3B до 7B, требующих от 2 ГБ до 20 ГБ VRAM для работы

Короче, Whisper подвинься. Вернее, прощай

Гитхаб
Демо - тест Идущего к реке в комментах
Глобус языков - к них есть прикольная страница где можно интерактивно потыкать на глобус где какие языки есть и поддерживает ли их Omnilingual ASR. Коми и удмуртский например поддерживает

Спасибо @EvgenyiPerm

#asr #stt #speech2text
👍121😱1
This media is not supported in your browser
VIEW IN TELEGRAM
DeepEyesV2: Toward Agentic Multimodal Model

Агентная мультимодальная модель на 7B параметров, умеет не только понимать текст и изображения, но и активно использовать внешние инструменты, например, среды выполнения кода и веб-поиск, интегрируя их в процесс рассуждения

Гитхаб
HF

#agent #multimodal #vlm
6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
DEMO: Dense Motion Captioning

Модель для описания действий человека в последовательностях 3D-движений. Генерирует подробные описания действий с привязкой ко времени

Код ждем на этой неделе

#captioning #video2text
👍4
Taku

Операционная система, которая должна заменить вайбкодинг для непрограммистов.

Позволяет создавать и запускать приложения и инструменты в один шаг, работая при этом в привычной рабочей среде без лишних усилий и возни с кодом / деплоем и т д.

Записаться в вейтлист

#coding #agent #assistant #OS
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Moondream распознает видео в реальном времени

От понимания картинок к пониманию потокового видео

Может работать с веб-камерами, камерами безопасности, дронами и другими источниками видео.

Может запускать оповещения, логировать события и управлять системами.

Применяется в безопасности, контроле качества, мониторинге безопасности и розничной аналитике.

Работает по API

Гитхаб
Демо по ссылке в шапке. Там можно подключить свою вебку или закинуть видеофал

#vlm #captioning #detection #moe #cv #image2text
👍5🥴1
Пошли слухи про Flux 2 от разработчиков из BlackForest Labs

🙏 Пусть сделают открытые веса, чтоб влезало в 8 ГБ и без цирка с лоу - хай моделями

#news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22😱2🌚1
2025/11/12 02:07:58
Back to Top
HTML Embed Code: