Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Мощная архитектура yf 14 млрд параметров
Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.
Модель поддерживает:
- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.
Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:
- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт
Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.
Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.
Как работает:
▪Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
▪Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
▪Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
▪Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.
Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.
Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.
@ai_machinelearning_big_data
#TexttoVideo #ai #ml #video #wanai
Please open Telegram to view this post
VIEW IN TELEGRAM
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement
🖥 Github: https://github.com/thu-coai/AISafetyLab
📕 Paper: https://arxiv.org/abs/2502.16776v1
🌟 Dataset: https://paperswithcode.com/dataset/gptfuzzer
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/gptfuzzer
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
🖥 Github: https://github.com/EnVision-Research/Kiss3DGen
📕 Paper: https://arxiv.org/abs/2503.01370v1
🌟 Dataset: https://paperswithcode.com/dataset/nerf
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/nerf
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
🖥 Github: https://github.com/dvlab-research/Seg-Zero
📕 Paper: https://arxiv.org/abs/2503.06520v1
🌟 Dataset: https://paperswithcode.com/dataset/refcoco
📌 Model: https://huggingface.co/Ricky06662/Seg-Zero-7B
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/refcoco
📌 Model: https://huggingface.co/Ricky06662/Seg-Zero-7B
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
🖥 Github: https://github.com/yunncheng/MMRL
📕 Paper: https://arxiv.org/abs/2503.08497v1
🌟 Dataset: https://paperswithcode.com/dataset/imagenet-s
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/imagenet-s
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ TxAgent: An AI agent for therapeutic reasoning across a universe of tools
🖥 Github: https://github.com/mims-harvard/TxAgent
📕 Paper: https://arxiv.org/abs/2503.10970v1
🌟 Methods: https://paperswithcode.com/method/align
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/method/align
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
🖥 Github: https://github.com/hustvl/MaTVLM
📕 Paper: https://arxiv.org/abs/2503.13440v1
🌟 Methods: https://paperswithcode.com/method/speed
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/method/speed
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов.
Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам
anthropic.com
Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов.
Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом.
techcrunch.com
Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome.
Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты.
windowslatest
Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений.
Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио.
Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM.
Веса и код - coming soon.
zeyuet.github
Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту.
microsoft
Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR.
Github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
PiEEG kit - bioscience Lab in home for your Brain and Body
🖥 Github: https://github.com/pieeg-club/PiEEG_Kit
📕 Paper: https://arxiv.org/abs/2503.13482
🌟 Methods: https://paperswithcode.com/task/eeg-1
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/task/eeg-1
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
🖥 Github: https://github.com/nick7nlp/FastCuRL
📕 Paper: https://arxiv.org/abs/2503.17287v1
🌟 Tasks: https://paperswithcode.com/task/language-modeling
@ArtificialIntelligencedl
🌟 Tasks: https://paperswithcode.com/task/language-modeling
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Optimal Stepsize for Diffusion Sampling(OSS)
🖥 Github: https://github.com/bebebe666/optimalsteps
📕 Paper: https://arxiv.org/abs/2503.21774v1
🌟 Tasks: https://paperswithcode.com/task/denoising
@ArtificialIntelligencedl
🌟 Tasks: https://paperswithcode.com/task/denoising
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models
🖥 Github: https://github.com/devoallen/awesome-reasoning-economy-papers
📕 Paper: https://arxiv.org/abs/2503.24377v1
@ArtificialIntelligencedl
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Effect-driven interpretation: Functors for natural language composition
🖥 Github: https://github.com/UCSC-VLAA/MedReason
📕 Paper: https://arxiv.org/abs/2504.00993v1
🔗 Tasks: https://paperswithcode.com/task/knowledge-graphs
@ArtificialIntelligencedl
🔗 Tasks: https://paperswithcode.com/task/knowledge-graphs
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Crystal Generation with Space Group Informed Transformer
🖥 Github: https://github.com/deepmodeling/crystalformer
📕 Paper: https://arxiv.org/abs/2504.02367v1
🔗 Dataset: https://paperswithcode.com/dataset/alex-20
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/dataset/alex-20
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
ZClip: Adaptive Spike Mitigation for LLM Pre-Training
🖥 Github: https://github.com/bluorion-com/ZClip
📕 Paper: https://arxiv.org/abs/2504.02507v1
🔗 Dataset: https://paperswithcode.com/dataset/hellaswag
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/dataset/hellaswag
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers
🖥 Github: https://github.com/End2End-Diffusion/REPA-E
📕 Paper: https://arxiv.org/abs/2504.10483
🔗 Dataset: https://paperswithcode.com/dataset/imagenet
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/dataset/imagenet
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams
🖥 Github: https://github.com/cdjkim/respec
📕 Paper: https://arxiv.org/abs/2504.14875v1
🔗 Dataset: https://paperswithcode.com/task/informativeness
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/task/informativeness
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
🖥 Github: https://github.com/opendrivelab/univla
📕 Paper: https://arxiv.org/abs/2505.06111v1
🔗 Dataset: https://paperswithcode.com/dataset/room-to-room
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/dataset/room-to-room
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
QuXAI: Explainers for Hybrid Quantum Machine Learning Models
🖥 Github: https://github.com/GitsSaikat/QuXAI
📕 Paper: https://arxiv.org/abs/2505.10167v1
🔗 Dataset: https://paperswithcode.com/task/quantum-machine-learning
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/task/quantum-machine-learning
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM