jax-raft
Порт интерполятора кадров RAFT с pytorch на JAX/Flax, должен работать быстрее.
Чекпойнты тоже портированы
#frameinterpolation #opticalflow #slowmotion
Порт интерполятора кадров RAFT с pytorch на JAX/Flax, должен работать быстрее.
Чекпойнты тоже портированы
#frameinterpolation #opticalflow #slowmotion
GitHub
GitHub - alebeck/jax-raft: JAX/Flax port of the RAFT optical flow estimator
JAX/Flax port of the RAFT optical flow estimator. Contribute to alebeck/jax-raft development by creating an account on GitHub.
👍3😁1
Instant4D: 4D Gaussian Splatting in Minutes
Быстрая (за несколько минут) реконструкция монокулярных видео с использованием 4D-представления.
Авторы придумали как сократить количество гауссиан на 92% ну и прочие ништяки, увеличив скорость реконструкции объемного видео в 30 раз. Под капотом прикручены DepthAnything и RAFT
Код
#image2scene #videoto4d #videoto3d #gaussian #4d #video2scene
Быстрая (за несколько минут) реконструкция монокулярных видео с использованием 4D-представления.
Авторы придумали как сократить количество гауссиан на 92% ну и прочие ништяки, увеличив скорость реконструкции объемного видео в 30 раз. Под капотом прикручены DepthAnything и RAFT
Код
#image2scene #videoto4d #videoto3d #gaussian #4d #video2scene
🔥3❤1
Media is too big
VIEW IN TELEGRAM
StreamingVLM: Real-Time Understanding for Infinite Video Streams
Визуально-языковая модель для понимания бесконечного видеопотока в реальном времени.
Работает со скоростью до 8 кадров в секунду на одном H100
Гитхаб
Демо
#VLM #captioning #assistant #realtime #streaming
Визуально-языковая модель для понимания бесконечного видеопотока в реальном времени.
Работает со скоростью до 8 кадров в секунду на одном H100
Гитхаб
Демо
#VLM #captioning #assistant #realtime #streaming
👍5❤2🔥1
FaceCLIP
ByteDance выпустил новый энкодер для персонализации картинок
Ну и в том же репозитории лежит FaceT5-FLUX, хотя в папире нет о нем никакого упоминания
Вообще карточка модели весьма кривая - ссылка на папиру ведет на InfU, ссылка на Гитхаб ведет на 404. Подождем сайт проекта если он будет и код.
Спасибо @john_eod
#text2image #personalization #sdxl #flux
ByteDance выпустил новый энкодер для персонализации картинок
FaceCLIP с SDXL обеспечивает исключительные результаты в области сохранения идентификационных данных, выравнивания текста и качества изображения
Ну и в том же репозитории лежит FaceT5-FLUX, хотя в папире нет о нем никакого упоминания
Вообще карточка модели весьма кривая - ссылка на папиру ведет на InfU, ссылка на Гитхаб ведет на 404. Подождем сайт проекта если он будет и код.
Спасибо @john_eod
#text2image #personalization #sdxl #flux
❤4🔥3
Я играл с Reve и выиграл уперся в суточный лимит. Его хватило всего на 6 запросов. Думаю не у всех будет 6 потому что там думалка под капотом и она расходует разное количество токенов на разные запросы.
А раньше было прям очень много, ощущение что лимита нет.
Не планируйте бесплатно вершить великие дела на Reve
#news
А раньше было прям очень много, ощущение что лимита нет.
Не планируйте бесплатно вершить великие дела на Reve
#news
Telegram
Нейронавт | Нейросети в творчестве
Reve
Обновился сервис создания и редактирования изображений. Теперь это контекстный редактор, конкурент Банана, QIE и иже с ними. Умеет все то что умеют конкуренты, но у него еще есть GUI
— создаёт и ремиксит изображения
— редактирует изображения через…
Обновился сервис создания и редактирования изображений. Теперь это контекстный редактор, конкурент Банана, QIE и иже с ними. Умеет все то что умеют конкуренты, но у него еще есть GUI
— создаёт и ремиксит изображения
— редактирует изображения через…
😐4🤷♂1
В Kandinsky 5 добавили поддержку SDPA - теперь можно использовать Flash attention.
Добавили поддержку Magcache для чекпойнтов sft и nocfg.
Сократили потребление памяти в VAE
Говорят, теперь весь Кандинский влазит в 24 ГБ
Гитхаб
#text2video
Добавили поддержку Magcache для чекпойнтов sft и nocfg.
Сократили потребление памяти в VAE
Говорят, теперь весь Кандинский влазит в 24 ГБ
Гитхаб
#text2video
Telegram
Нейронавт | Нейросети в творчестве
Kandinsky 5.0 Video Lite
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров…
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров…
🔥8👍3❤2⚡2
TAG: Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling
Метод улучшения работы диффузионных моделей и снижения количества галлюцинаций, направляет генерацию к наиболее вероятным областям.
Представляет собой адаптер, не требует дообучения.
Прикручено к SD1.5, SD2.1, SDXL, SD3
Демо
#optimization #plugin #text2image
Метод улучшения работы диффузионных моделей и снижения количества галлюцинаций, направляет генерацию к наиболее вероятным областям.
Представляет собой адаптер, не требует дообучения.
Прикручено к SD1.5, SD2.1, SDXL, SD3
Демо
#optimization #plugin #text2image
🔥5👍1
Нейронавт | Нейросети в творчестве
Paper2Video: Automatic Video Generation from Scientific Papers Генерация презентационных видео из научных статей Создает слайды, видео презентатора оживлятором портретов по речи, субтитры — и упаковывает все это в видео. В качестве примера автор создал…
AutoPR: Let's Automate Your Academic Promotion!
Эта модель переводит научные статьи в контент, оптимизированный под разные соцсети с учётом достоверности, соответствия и вовлечённости аудитории.
Извлекает контент из научных статей, синтезирует логичные нарративы и адаптирует материал под конкретную платформу
— применяет PRAgent — систему из трёх этапов, которая улучшает время просмотра и количество лайков
— оценивает посты по трём критериям: достоверность (точность и тон), вовлечённость (привлечение целевой аудитории) и соответствие (оптимизация под платформу и время публикации)
— показывает значительные улучшения: увеличение времени просмотра на 604 %, количества лайков на 438 % и общего уровня вовлечённости минимум в 2,9 раза
Гитхаб
Демо - не для лентяев, там надо вбить настройки API
#paper2text #pdf2text
Эта модель переводит научные статьи в контент, оптимизированный под разные соцсети с учётом достоверности, соответствия и вовлечённости аудитории.
Извлекает контент из научных статей, синтезирует логичные нарративы и адаптирует материал под конкретную платформу
— применяет PRAgent — систему из трёх этапов, которая улучшает время просмотра и количество лайков
— оценивает посты по трём критериям: достоверность (точность и тон), вовлечённость (привлечение целевой аудитории) и соответствие (оптимизация под платформу и время публикации)
— показывает значительные улучшения: увеличение времени просмотра на 604 %, количества лайков на 438 % и общего уровня вовлечённости минимум в 2,9 раза
Гитхаб
Демо - не для лентяев, там надо вбить настройки API
#paper2text #pdf2text
👍6❤1
Mamba 3
Я уже упоминал архитектуру Mamba. Первая версия была перспективная, теперь опубликована многообещающая папира по третьей версии. Возможно, вытеснит трансформеры.
Mamba-3 — новая архитектура моделей искусственного интеллекта, которая работает быстрее и эффективнее старых Transformer-моделей. Она использует другой подход: вместо внимания (attention) модель сохраняет и обновляет своё внутреннее состояние. Это позволяет ей лучше запоминать информацию и работать с длинными текстами, например, документами или музыкальными композициями.
Основные преимущества Mamba-3:
1. Скорость и стабильность: модель работает быстрее и лучше справляется с длинными текстами.
2. Параллельная обработка: Mamba-3 может обрабатывать несколько задач одновременно, что идеально для современных видеокарт.
3. Энергоэффективность: модель может работать на устройствах без подключения к облаку.
Mamba-3 подходит для задач, где важна скорость и точность: чат-боты, перевод, обработка речи и других.
#research #ML
Я уже упоминал архитектуру Mamba. Первая версия была перспективная, теперь опубликована многообещающая папира по третьей версии. Возможно, вытеснит трансформеры.
Mamba-3 — новая архитектура моделей искусственного интеллекта, которая работает быстрее и эффективнее старых Transformer-моделей. Она использует другой подход: вместо внимания (attention) модель сохраняет и обновляет своё внутреннее состояние. Это позволяет ей лучше запоминать информацию и работать с длинными текстами, например, документами или музыкальными композициями.
Основные преимущества Mamba-3:
1. Скорость и стабильность: модель работает быстрее и лучше справляется с длинными текстами.
2. Параллельная обработка: Mamba-3 может обрабатывать несколько задач одновременно, что идеально для современных видеокарт.
3. Энергоэффективность: модель может работать на устройствах без подключения к облаку.
Mamba-3 подходит для задач, где важна скорость и точность: чат-боты, перевод, обработка речи и других.
#research #ML
🔥6
Ring-1T: Flow State Leads to Sudden Enlightenment
Языковая модель на 1T (триллион) параметров, из которых 50B активных
Пишет код, творческие тексты, используется в здравоохранении, решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии
HF
Есть FP8 версия
Демо
Чат
#assistant #reasoning #chat
Языковая модель на 1T (триллион) параметров, из которых 50B активных
Пишет код, творческие тексты, используется в здравоохранении, решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии
HF
Есть FP8 версия
Демо
Чат
#assistant #reasoning #chat
👍1
Нейронавт | Нейросети в творчестве
AutoPR: Let's Automate Your Academic Promotion! Эта модель переводит научные статьи в контент, оптимизированный под разные соцсети с учётом достоверности, соответствия и вовлечённости аудитории. Извлекает контент из научных статей, синтезирует логичные нарративы…
Paper2Agent: Reimagining Papers As AI Agents
А вот мультиагентная ИИ-система, которая преобразует научные статьи в интерактивных ИИ-агентов с минимальным участием человека.
На видео пример работы с AlphaGenome и TISSUE
Принцип работы:
1. Анализ текста и кода: Aper2Agent анализирует научную статью и её код (если он имеется), выделяет ключевые методы и разрабатывает инструменты внутри MCP-сервера.
2. Интеграция с чат-ботом: Сервер связывается с чат-агентом, например, Claude Code или ChatGPT.
Результат:
Каждая статья получает собственного ИИ-ассистента, который:
* излагает материал доступным языком;
* запускает код без необходимости искать репозитории, зависимости и API-ключи;
* интегрирует данные и процессы из различных исследований.
Компоненты MCP-сервера:
* Функциональные возможности: инструменты, такие как прогнозирование изменений экспрессии генов.
* Репозиторий: текст, код, наборы данных.
* Шаблоны: подсказки для выполнения пошаговых задач.
Гитхаб
#paper2code #text2code #mcp #agent #assistant
А вот мультиагентная ИИ-система, которая преобразует научные статьи в интерактивных ИИ-агентов с минимальным участием человека.
На видео пример работы с AlphaGenome и TISSUE
Принцип работы:
1. Анализ текста и кода: Aper2Agent анализирует научную статью и её код (если он имеется), выделяет ключевые методы и разрабатывает инструменты внутри MCP-сервера.
2. Интеграция с чат-ботом: Сервер связывается с чат-агентом, например, Claude Code или ChatGPT.
Результат:
Каждая статья получает собственного ИИ-ассистента, который:
* излагает материал доступным языком;
* запускает код без необходимости искать репозитории, зависимости и API-ключи;
* интегрирует данные и процессы из различных исследований.
Компоненты MCP-сервера:
* Функциональные возможности: инструменты, такие как прогнозирование изменений экспрессии генов.
* Репозиторий: текст, код, наборы данных.
* Шаблоны: подсказки для выполнения пошаговых задач.
Гитхаб
#paper2code #text2code #mcp #agent #assistant
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing
Контекстный редактор изображений от Snap Research с плавной (на самом деле не очень) регулировкой степени изменения изображения на базе Flux Kontext
На сайте можно интерактивно покрутить рульки
Код ждем
Демо ждем
Спасибо @m_franz
#imageediting
Контекстный редактор изображений от Snap Research с плавной (на самом деле не очень) регулировкой степени изменения изображения на базе Flux Kontext
На сайте можно интерактивно покрутить рульки
Код ждем
Демо ждем
Спасибо @m_franz
#imageediting
🔥6👍1