Telegram Group Search
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Модель Wan2.1-T2V-14B от команды Wan-AI – новый топовый опенсорс инструмент генерации видео, который объединяет в себе несколько интересных особенностей.

⚡️ Мощная архитектура yf 14 млрд параметров

Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.

Модель поддерживает:

- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.

Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:

- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт

Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.

Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.

Как работает:

Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.

Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.

Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.

🟡 Github: https://github.com/Wan-Video/Wan2.1/
🟡HF: https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
🟡Model Scope: https://modelscope.cn/organization/Wan-AI

@ai_machinelearning_big_data

#TexttoVideo #ai #ml #video #wanai
Please open Telegram to view this post
VIEW IN TELEGRAM
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

🖥 Github: https://github.com/thu-coai/AISafetyLab

📕 Paper: https://arxiv.org/abs/2502.16776v1

🌟 Dataset: https://paperswithcode.com/dataset/gptfuzzer

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

🖥 Github: https://github.com/EnVision-Research/Kiss3DGen

📕 Paper: https://arxiv.org/abs/2503.01370v1

🌟 Dataset: https://paperswithcode.com/dataset/nerf

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

🖥 Github: https://github.com/yunncheng/MMRL

📕 Paper: https://arxiv.org/abs/2503.08497v1

🌟 Dataset: https://paperswithcode.com/dataset/imagenet-s

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ TxAgent: An AI agent for therapeutic reasoning across a universe of tools

🖥 Github: https://github.com/mims-harvard/TxAgent

📕 Paper: https://arxiv.org/abs/2503.10970v1

🌟 Methods: https://paperswithcode.com/method/align

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling

🖥 Github: https://github.com/hustvl/MaTVLM

📕 Paper: https://arxiv.org/abs/2503.13440v1

🌟 Methods: https://paperswithcode.com/method/speed

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Claude получила возможность веб-поиска.

Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов.

Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам
anthropic.com

✔️ Hugging Face запустил приложение HuggingSnap: оффлайн-ИИ для анализа окружения через камеру iPhone.

Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов.

Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом.
techcrunch.com

✔️ Google добавит Gemini AI в Chrome, повторяя опыт Copilot для Windows 11

Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome.

Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты.
windowslatest

✔️ AudioX: универсальная модель генерации звука и музыки через кросс-модальные преобразования.

Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений.

Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио.

Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM.
Веса и код - coming soon.
zeyuet.github

✔️ Microsoft Research разработал Claimify: инструмент фактчекинга ИИ

Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту.
microsoft

✔️ RF-DETR: новая SOTA для обнаружения объектов в реальном времени с открытым исходным кодом.
Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR.
Github

✔️ Same New - нейросеть копирует любой сайт с точностью до пикселя — по одной ссылке воспроизводит весь интерфейс, структуру, анимации, изображения и даже интерактивные элементы.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
PiEEG kit - bioscience Lab in home for your Brain and Body

🖥 Github: https://github.com/pieeg-club/PiEEG_Kit

📕 Paper: https://arxiv.org/abs/2503.13482

🌟 Methods: https://paperswithcode.com/task/eeg-1

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

🖥 Github: https://github.com/nick7nlp/FastCuRL

📕 Paper: https://arxiv.org/abs/2503.17287v1

🌟 Tasks
: https://paperswithcode.com/task/language-modeling

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

🖥 Github: https://github.com/devoallen/awesome-reasoning-economy-papers

📕 Paper: https://arxiv.org/abs/2503.24377v1

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Effect-driven interpretation: Functors for natural language composition

🖥 Github: https://github.com/UCSC-VLAA/MedReason

📕 Paper: https://arxiv.org/abs/2504.00993v1

🔗 Tasks: https://paperswithcode.com/task/knowledge-graphs

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers

🖥 Github: https://github.com/End2End-Diffusion/REPA-E

📕 Paper: https://arxiv.org/abs/2504.10483

🔗 Dataset: https://paperswithcode.com/dataset/imagenet

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams

🖥 Github: https://github.com/cdjkim/respec

📕 Paper: https://arxiv.org/abs/2504.14875v1

🔗 Dataset: https://paperswithcode.com/task/informativeness

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

🖥 Github: https://github.com/opendrivelab/univla

📕 Paper: https://arxiv.org/abs/2505.06111v1

🔗 Dataset: https://paperswithcode.com/dataset/room-to-room

@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/20 04:27:40
Back to Top
HTML Embed Code: