Media is too big
VIEW IN TELEGRAM
Вам нужно заменить «arxiv» на «soarxiv» в URL статьи, и вы попадёте на её визуализацию во Вселенной.
Поддерживается примерно 2,8 миллиона научных работ.
soarxiv.org
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Современные роботы для надёжной и устойчивой работы должны помнить, что происходило ранее.
Но как только в диффузионные политики добавляют историю действий — производительность падает, а обучение становится дорогим и нестабильным.
📌 Исследователи представили новый метод — PTP (Past Trajectory Prediction), который помогает роботам эффективно использовать прошлый опыт.
Что делает PTP:
✅ Учит робота находить связь между прошлым и будущим
✅ Позволяет использовать быстрые кэшированные контексты вместо длинной истории
✅ Ускоряет обучение и повышает качество поведения в 3 раза
✅ Уменьшает вычислительные затраты более чем в 10 раз
✅ Добавляет трюк на этапе запуска, который проверяет, следит ли робот за собственной историей
📈 Обучение роботов с учётом долгосрочного контекста стало реально применимым.
Если мы хотим создавать умных, автономных и надёжных машин — это большой шаг вперёд.
🔗 Подробнее:
- Статья
- Проект
- Код
https://www.group-telegram.com/data_analysis_ml.com
Но как только в диффузионные политики добавляют историю действий — производительность падает, а обучение становится дорогим и нестабильным.
📌 Исследователи представили новый метод — PTP (Past Trajectory Prediction), который помогает роботам эффективно использовать прошлый опыт.
Что делает PTP:
✅ Учит робота находить связь между прошлым и будущим
✅ Позволяет использовать быстрые кэшированные контексты вместо длинной истории
✅ Ускоряет обучение и повышает качество поведения в 3 раза
✅ Уменьшает вычислительные затраты более чем в 10 раз
✅ Добавляет трюк на этапе запуска, который проверяет, следит ли робот за собственной историей
📈 Обучение роботов с учётом долгосрочного контекста стало реально применимым.
Если мы хотим создавать умных, автономных и надёжных машин — это большой шаг вперёд.
🔗 Подробнее:
- Статья
- Проект
- Код
https://www.group-telegram.com/data_analysis_ml.com
Владельцы Mac, вам подарок подъехал: MLX LM теперь интегрирован непосредственно в Hugging Face 🤯
⬇️ Вы можете запустить более 4400 LLM локально на Apple Silicon.
Нужно только включить MLX LM в настройках локальных приложений:
https://huggingface.co/settings/local-apps
И выбрать модель: https://huggingface.co/models?library=mlx
#apple #mlx
@data_analysis_ml
⬇️ Вы можете запустить более 4400 LLM локально на Apple Silicon.
Нужно только включить MLX LM в настройках локальных приложений:
https://huggingface.co/settings/local-apps
И выбрать модель: https://huggingface.co/models?library=mlx
#apple #mlx
@data_analysis_ml
🗣️ TEN VAD — ультраточная система обнаружения речи в реальном времени
Это современная модель Voice Activity Detection (VAD), превосходящая по точности популярные решения вроде WebRTC VAD и Silero VAD.
Она стала частью фреймворка TEN Framework — платформы для создания мультимодальных голосовых агентов.
🔹 Что делает TEN VAD особенной:
• 📈 Точность на SOTA-уровне — протестирована на LibriSpeech, GigaSpeech, DNS Challenge
• 🕒 Минимальная задержка — точное определение начала и конца речи в реальном времени
• 🧩 Низкие требования к ресурсам — подходит даже для мобильных устройств
• ⚙️ Гибкая интеграция — поддержка C и Python, работает на Linux, Windows, macOS, Android и iOS
• 🔊 Оптимизирована для 16 кГц аудио, с шагами 10/16 мс
https://huggingface.co/TEN-framework/ten-vad
Это современная модель Voice Activity Detection (VAD), превосходящая по точности популярные решения вроде WebRTC VAD и Silero VAD.
Она стала частью фреймворка TEN Framework — платформы для создания мультимодальных голосовых агентов.
🔹 Что делает TEN VAD особенной:
• 📈 Точность на SOTA-уровне — протестирована на LibriSpeech, GigaSpeech, DNS Challenge
• 🕒 Минимальная задержка — точное определение начала и конца речи в реальном времени
• 🧩 Низкие требования к ресурсам — подходит даже для мобильных устройств
• ⚙️ Гибкая интеграция — поддержка C и Python, работает на Linux, Windows, macOS, Android и iOS
• 🔊 Оптимизирована для 16 кГц аудио, с шагами 10/16 мс
https://huggingface.co/TEN-framework/ten-vad
🧠 BAGEL‑7B‑MoT от ByteDance — открытая мультимодальная модель нового поколения
ByteDance представили BAGEL‑7B‑MoT — мощную мультимодальную модель с 7 млрд активных параметров (14B total), которая уверенно конкурирует с лидерами в генерации, понимании и редактировании изображений.
🔹 Ключевые особенности:
• Архитектура Mixture‑of‑Transformer‑Experts (MoT)
• Два энкодера: один для пикселей (VAE+ViT), второй для семантики
• Обучение на interleaved текст+изображение+видео+web токенах
• Поддержка генерации, редактирования, мультиязычного понимания
🔹 Что умеет BAGEL:
• Понимает изображения на уровне лучших open моделей (Qwen2.5‑VL‑7B)
• Генерирует изображения лучше SD3‑Medium (GenEval score: 0.88)
• Делает интеллектуальное редактирование (CoT score: 55.3)
• Навигация по сценам и предсказание будущих кадров
🔹 Бенчмарки:
🔹 Под капотом:
• SigLIP + FLUX.1 + Flash Attention 2
• Параметры: 7B активных, 14B полных
• Весовые файлы доступны на Hugging Face (~29 GB)
• Лицензия: Apache 2.0
📎 Репозиторий и модель:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
ByteDance представили BAGEL‑7B‑MoT — мощную мультимодальную модель с 7 млрд активных параметров (14B total), которая уверенно конкурирует с лидерами в генерации, понимании и редактировании изображений.
🔹 Ключевые особенности:
• Архитектура Mixture‑of‑Transformer‑Experts (MoT)
• Два энкодера: один для пикселей (VAE+ViT), второй для семантики
• Обучение на interleaved текст+изображение+видео+web токенах
• Поддержка генерации, редактирования, мультиязычного понимания
🔹 Что умеет BAGEL:
• Понимает изображения на уровне лучших open моделей (Qwen2.5‑VL‑7B)
• Генерирует изображения лучше SD3‑Medium (GenEval score: 0.88)
• Делает интеллектуальное редактирование (CoT score: 55.3)
• Навигация по сценам и предсказание будущих кадров
🔹 Бенчмарки:
| Тест | Qwen2.5‑VL‑7B | BAGEL |
|-------------|---------------|--------|
| MME | 2347 | 2388 |
| MMBench | 83.5 | 85.0 |
| MathVista | 68.2 | 73.1 |
| GenEval | 0.80 | 0.88 |
🔹 Под капотом:
• SigLIP + FLUX.1 + Flash Attention 2
• Параметры: 7B активных, 14B полных
• Весовые файлы доступны на Hugging Face (~29 GB)
• Лицензия: Apache 2.0
📎 Репозиторий и модель:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT