Основная идея VLMgineer - путь к роботам, которые сами изобретают нужные приборы под конкретные задачи, экономя время инженеров и расширяя границы автоматизации.
Что это
● Фреймворк, объединяющий Vision-Language-модель и эволюционный поиск.
● Полностью автоматизирует два процесса:
1) проектирует физический инструмент;
2) пишет пошаговый план, как этим инструментом пользоваться.
Как это работает
1️⃣ VLM получает описание задачи («забей гвоздь», «разбей лёд») и создаёт начальный эскиз инструмента + набор движений робота.
2️⃣ Симуляция проверяет, насколько успешно связка «инструмент + действие» решает задачу.
3️⃣ Эволюционный алгоритм вносит правки (меняет форму, размеры, материалы), VLM уточняет план.
4️⃣ Цикл повторяется, пока не найден оптимальный дизайн.
Никаких шаблонов и ручной настройки — всю «физическую креативность» выполняет модель.
Исследователи протестировали возможности VLMgineer по созданию инструментов и планов действий в сравнении с тремя типами участников:
• специалист по LLM
• эксперт по робототехнике
• обычный человек без технического бэкграунда
📊 Результаты:
VLMgineer показал на 64,7% более высокий средний успех выполнения задач, чем решения, предложенные людьми, скоро обещают дропнуть код проекта.
@ai_machinelearning_big_data
#ai #robots #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Gemini Robotics: автономный AI для роботов
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
В этом году конфа для AI и ML- разработчиков пройдет в кластере “Ломоносов” 19 июля. В программе предусмотрено 5 блоков: NLP, CV & Speech, RecSys, Research & RnD, а центральной темой станет разработка LLM-приложений и Copilot-решений.
На Turbo ML Conf 2025 соберутся более 1000 техлидов AI/ML-команд, ML-инженеров, исследователей, Go и Python-разработчиков, и других ИТ-специалистов из ведущих компаний России. Гости услышат десятки докладов и кейсов от более, чем 30 экспертов из Т-Банка, Яндекса, Авито, Сбера, VK, МТС и других ИТ-корпораций и университетов.
Первое из них — LLM Applications & Copilots. Оно посвящено разработке LLM-платформ, архитектуре решений, тулингу, агентным системам, RAG и LLM для разработки программного обеспечения. Второе направление NLP — обработка естественного языка, а также автоматизация поддержки, alignment, рассуждающие и мультимодальные LLM, mechanistic interpretability естественного языка.
Третье — CV & Speech – синтез и распознавание речи, audio-to-audio-модели и LLM для распознавания и генерации аудио, генеративные сети, VLM, OCR и другие темы. Четвертым направлением станет RecSys, то есть рекомендательные системы, инсайты из продовых A/B-тестов, применение нейросетей для разных этапов систем, применение графовых нейронных сетей и другие темы.
Финальное направление Research & RnD посвящено фундаментальным и прикладным исследованиям в России, мультимодальным LLM, alignment, и mechanistic interpretability.
Они расскажут, как строить масштабируемые решения и применять ML в реальных продуктах, поделятся результатами последних научных исследований и объяснят, как технологии влияют на бизнес-задачи. О подготовке LLM в эпоху сильного Open Source расскажет Анатолий Потапов из Т-Банка. Егор Швецов из AIRI даст совет по достижению компромиссов между безопасностью и эффективностью при сжатии моделей, а Сергей Овчаренко из Яндекса поделится результатами 3-летнего обучения диффузионных моделей.
Гости смогут проконсультироваться с HR в IT, создать ML-комиксы и диджитал-сканворд в творческой зоне, пообщаться с другими участниками и отдохнуть на афтепати с DJ-сетами, настольными играми, лото и стильным мерчем.
Онлайн-трансляция в этот раз проводиться не будет, поэтому участие в конференции возможно только очно – бесплатно по предварительной регистрации.
@ai_machinelearning_big_data
#news #ai #ml #ai #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Анализ данных (Data analysis)
⚡ OmniGen2
Что умеет:
• Генерация и редактирование изображений по текстовому описанию
• Поддержка разрешения до 1024×1024
• Полностью open-source: модель, код и веса
• Лицензия Apache 2.0
• Можно вызвать модель через MCP — просто запусти с
📌 Тестим здесь: https://huggingface.co/spaces/OmniGen2/OmniGen2
@data_analysis_ml
Что умеет:
• Генерация и редактирование изображений по текстовому описанию
• Поддержка разрешения до 1024×1024
• Полностью open-source: модель, код и веса
• Лицензия Apache 2.0
• Можно вызвать модель через MCP — просто запусти с
.launch(mcp_server=True)
📌 Тестим здесь: https://huggingface.co/spaces/OmniGen2/OmniGen2
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🤖🚀 iRonCub3: Первый робот, взлетевший на реактивной тяге
Учёные из AMI Lab впервые в истории подняли гуманоидного робота в воздух с помощью реактивных двигателей.
Робот iRonCub3 поднялся на ~50 см, оставаясь устойчивым в воздухе — всё это благодаря:
🔸 интеллектуальной системе управления
🔸 точной аэродинамической модели
🔸 адаптивной стабилизации в реальном времени
Маленький шажок к будущему, где гуманоиды смогут летать и выполнять миссии в экстремальных условиях.
@ai_machinelearning_big_data
#роботы #технологии #реактивныйвзлет #гуманоид #инновации #инженерия
Учёные из AMI Lab впервые в истории подняли гуманоидного робота в воздух с помощью реактивных двигателей.
Робот iRonCub3 поднялся на ~50 см, оставаясь устойчивым в воздухе — всё это благодаря:
🔸 интеллектуальной системе управления
🔸 точной аэродинамической модели
🔸 адаптивной стабилизации в реальном времени
Маленький шажок к будущему, где гуманоиды смогут летать и выполнять миссии в экстремальных условиях.
@ai_machinelearning_big_data
#роботы #технологии #реактивныйвзлет #гуманоид #инновации #инженерия
Media is too big
VIEW IN TELEGRAM
Microsoft представила мини-модель Mu с 330 млн. параметров для локальной работы на NPU в Windows Settings. На чипах Qualcomm модель показывает в 4,7 раза быстрее генерацию токенов, чем аналоги. Mu адаптировали под особенности NPU: настроили размеры слоев, применили квантование весов до 8-16 бит и уменьшили потребление памяти.
Mu уже используется в агенте Settings, который преобразует запросы вроде «увеличь яркость» в системные команды. Модель обучали на 3,6 млн примеров, добавили синтетические данные и шум, чтобы повысить точность. Результат: ответы за 500 мс даже на сложных задачах. При этом Mu в 10 раз меньше Phi-3.5-mini, но сохраняет конкурентную производительность.
blogs.windows.com
Prime Intellect запустила SYNTHETIC-2, децентрализованную систему генерации для обучения ИИ. Проект позволяет любым GPU, от бытовых до промышленных, присоединиться к генерации данных. Управляет процессом TOPLOC v2, технология, которая проверяет корректность вычислений через хэширование активаций и распределяет награды за успешные результаты.
Датасет включает более 20 задач: математика, генерация JSON и неформальные задания для разнообразия данных. Верификация работает через сравнение ответов разных моделей (Qwen3, DeepSeek и др.). Все данные доступны на HuggingFace.
Присоединиться может любой желающий, арендовав ресурсы через Prime Intellect или подключив собственные GPU. Цель проекта - ускорить развитие открытой суперинтеллектуальной системы, где контроль распределен, а технологии общедоступны.
primeintellect.ai
«The Dream Recorder», открытый DIY-гаджет от компании Modem Works, превращающий воспоминания о снах в короткие фильмы с помощью ИИ. Устройство использует Raspberry Pi, микрофон и экран, а его стоимость сборки составляет около $310. После пробуждения пользователь рассказывает сон, который транскрибируется и отправляется в ChatGPT, а затем в Luma AI для генерации видео. Итоговый ролик сохраняется в цифровой дневник.
Проект сочетает DIY-культуру и доступные технологии, демонстрируя, как ИИ может визуализировать субъективный опыт. Все схемы и исходники доступны на GitHub, включая 3D-модели для печати. Примерная стоимость записи одного сна составляет $0.15, что делает эксперименты с памятью и сознанием доступными. И это не прототип, а рабочее решение, которое можно собрать самостоятельно.
dreamrecorder.ai
Исследователь Синькай Ю из DeepSeek разработал nano-vLLM, облегченный движок для работы с LLM. Он написан на Python вручную, объемом всего 1,2 тыс. строк кода, и воспроизводит основные функции оригинального vLLM.
nano-vLLM поддерживает кэширование префиксов, тензорный параллелизм, компиляцию с torch.compile и CUDA Graphs. Это позволяет достичь скорости, близкой к vLLM, но без сложных алгоритмов планирования задач или динамического батчинга. Зато разработчики получают четкую архитектуру в одном месте: токенизатор, управление кэшем и механизм выборки токенов. Проект подойдет для исследований, обучения или небольших систем, где важна простота.
github.com
По данным источников, OpenAI разрабатывает продвинутые функции для ChatGPT, превращая его в платформу для командной работы. Пользователи смогут группировать чаты, загружать файлы, использовать голосовой ввод и сохранять контекст диалогов. Все это позиционируется как альтернатива офисным пакетам. Мобильное приложение получит поддержку загрузок и переключения моделей на лету.
Этот проект, задуманный в 2024 году, активно развивается сейчас и OpenAI видит в ChatGPT «операционную систему для жизни», интегрируемую в рабочие процессы. Microsoft, поддерживающий стартап, теперь рискует стать конкурентом самому себе, а Google получает нового серьезного оппонента.
theinformation.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.
По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.
В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.
Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:
На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.
На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.
Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".
@ai_machinelearning_big_data
#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)
Запуск в cli:
npx https://github.com/google-gemini/gemini-cli
@ai_machinelearning_big_data
#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Cloud․ru представил новые AI-инструменты
Cloud․ru сегодня зарелизили две свежие разработки:
AI-помощника для автоматизации работы пользователей в облаке — Клаудию. Помощник на основе GenAI доступен в режиме Public Preview. Клаудии можно будет передать часть DevOps-рутины, чтобы освободить время для стратегических и архитектурных задач.
Клаудия поможет пользователям управлять облачными ресурсами и инфраструктурой, самостоятельно выполняя конкретные действия. AI-помощник упростит подбор облачных сервисов под задачи пользователя, развернет виртуальные машины, поможет работать с консолью в режиме Co-pilot, а также настроить опции мониторинга и алертинга.
Основные сценарии применения AI-помощника:
- создание базовой инфраструктуры в облаке;
- подбор персонализированных рекомендаций по решениям, которые лучше всего соответствуют бизнес-задачам пользователей;
- подсказки команд для работы в серийной консоли виртуальных машин в режиме Co-pilot и другое.
Cloud․ru Evolution AI Factory. Облачная среда с готовыми AI- и ML-инструментами. С ее помощью бизнес и разработчики смогут ускорить процесс дообучения и развёртывания ML-моделей для различных задач, разрабатывать AI-агентов и запускать мультиагентные системы. Простой интерфейс позволяет реализовать идеи даже без навыков программирования, так что Cloud․ru Evolution AI Factory рассчитана не только на опытных разработчиков, но и на тех, у кого нет специальных знаний в ML.
В составе ИИ-фабрики:
- Evolution Foundation Models. Сервис с популярными AI-моделями доступными по API;
- Evolution ML Inference. Инструмент для развертывания ML-моделей: GigaChat и других open source моделей из библиотеки Hugging Face;
- Evolution Managed RAG. Готовый сервис для Retrieval Augmented Generation;
- Evolution ML Finetuning. Сервис для быстрой адаптации LLM-моделей;
- Evolution Notebooks. Среда визуализации данных и работы с кодом Jupyter Notebooks как сервисами ;
Evolution AI Agents. Визуальный редактор агентов на базе LLM.
В Cloud․ru отмечают, что платформа доступна не только опытным разработчикам, но и тем, кто не обладает специальными знаниями в области ML.
Cloud․ru сегодня зарелизили две свежие разработки:
AI-помощника для автоматизации работы пользователей в облаке — Клаудию. Помощник на основе GenAI доступен в режиме Public Preview. Клаудии можно будет передать часть DevOps-рутины, чтобы освободить время для стратегических и архитектурных задач.
Клаудия поможет пользователям управлять облачными ресурсами и инфраструктурой, самостоятельно выполняя конкретные действия. AI-помощник упростит подбор облачных сервисов под задачи пользователя, развернет виртуальные машины, поможет работать с консолью в режиме Co-pilot, а также настроить опции мониторинга и алертинга.
Основные сценарии применения AI-помощника:
- создание базовой инфраструктуры в облаке;
- подбор персонализированных рекомендаций по решениям, которые лучше всего соответствуют бизнес-задачам пользователей;
- подсказки команд для работы в серийной консоли виртуальных машин в режиме Co-pilot и другое.
Cloud․ru Evolution AI Factory. Облачная среда с готовыми AI- и ML-инструментами. С ее помощью бизнес и разработчики смогут ускорить процесс дообучения и развёртывания ML-моделей для различных задач, разрабатывать AI-агентов и запускать мультиагентные системы. Простой интерфейс позволяет реализовать идеи даже без навыков программирования, так что Cloud․ru Evolution AI Factory рассчитана не только на опытных разработчиков, но и на тех, у кого нет специальных знаний в ML.
В составе ИИ-фабрики:
- Evolution Foundation Models. Сервис с популярными AI-моделями доступными по API;
- Evolution ML Inference. Инструмент для развертывания ML-моделей: GigaChat и других open source моделей из библиотеки Hugging Face;
- Evolution Managed RAG. Готовый сервис для Retrieval Augmented Generation;
- Evolution ML Finetuning. Сервис для быстрой адаптации LLM-моделей;
- Evolution Notebooks. Среда визуализации данных и работы с кодом Jupyter Notebooks как сервисами ;
Evolution AI Agents. Визуальный редактор агентов на базе LLM.
В Cloud․ru отмечают, что платформа доступна не только опытным разработчикам, но и тем, кто не обладает специальными знаниями в области ML.
This media is not supported in your browser
VIEW IN TELEGRAM
alphaXiv упрощает работу с научными статьями (arXiv, bioRxiv, PDF):
● чат с ИИ прямо в документе: выделение текста открывает диалог
● ссылки на другие статье через “@” для быстрого вызова статей
● позволяет генерировать блог одним кликом: иллюстрации к статьям, ключевые идеи, перевод
● закладки и автоматические BibTeX-цитаты для хранения и ссылок
Ранее был поставлен ИИ-агент для работы со статьями
https://chromewebstore.google.com/detail/alphaxiv-understand-resea/liihfcjialakefgidmaadhajjikbjjab
@ai_machinelearning_big_data
#ArXiv #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🛡️ GigaConf 2025: мультиагенты в кибербезопасности
Автономные AI-системы могут стать основой будущей защиты. Об этом рассказал Сергей Лебедь, вице-президент по кибербезопасности Сбера.
По его словам, мультиагентные атакующие системы уже в ближайшем будущем смогут искать уязвимости, писать вредоносный код и запускать фишинг. Противостоять им можно только такими же автономными системами — но на стороне защиты. При минимальном участии человека они смогут быстрее и точнее реагировать на инциденты.
🧩 В модели киберзащиты четыре ключевых блока:
— поиск уязвимостей
— детектирование
— управление средствами защиты
— реагирование
Каждый работает через взаимодействие AI-агентов — от мониторинга до устранения угроз.
💬 Лебедь отметил, что мультиагенты в том числе могут закрыть кадровый дефицит — если не хватает специалистов, задачи берут на себя ИИ. А у людей остаются роли более высокого уровня: разработка подходов, прогнозирование, обучение моделей.
Среди новых профессий:
— тренер моделей
— конструктор AI-агентов
— специалист по знаниям ИИ
@ai_machinelearning_big_data
#AI #Cybersecurity #ML #MultiAgent #Sber #GigaConf2025
Автономные AI-системы могут стать основой будущей защиты. Об этом рассказал Сергей Лебедь, вице-президент по кибербезопасности Сбера.
По его словам, мультиагентные атакующие системы уже в ближайшем будущем смогут искать уязвимости, писать вредоносный код и запускать фишинг. Противостоять им можно только такими же автономными системами — но на стороне защиты. При минимальном участии человека они смогут быстрее и точнее реагировать на инциденты.
🧩 В модели киберзащиты четыре ключевых блока:
— поиск уязвимостей
— детектирование
— управление средствами защиты
— реагирование
Каждый работает через взаимодействие AI-агентов — от мониторинга до устранения угроз.
💬 Лебедь отметил, что мультиагенты в том числе могут закрыть кадровый дефицит — если не хватает специалистов, задачи берут на себя ИИ. А у людей остаются роли более высокого уровня: разработка подходов, прогнозирование, обучение моделей.
Среди новых профессий:
— тренер моделей
— конструктор AI-агентов
— специалист по знаниям ИИ
@ai_machinelearning_big_data
#AI #Cybersecurity #ML #MultiAgent #Sber #GigaConf2025
Добиться от LLM нужного поведения - задача нетривиальная, особенно в тонкой настройке с помощью LoRA.
LoRA позволяет адаптировать модель под конкретные задачи, не переобучая ее целиком, но результат сильно зависит от правильно подобранных гиперпараметров. Небольшой, но очень полезный гайд от Unsloth - ваш гид по основным настройкам LoRA, которые помогут повысить точность, стабильность и качество, попутно снижая риск галлюцинаций и переобучения.
Успешное обучение - это, прежде всего, баланс. Слишком высокая скорость обучения может ускорить начальное обучение, но рискует дестабилизировать модель или привести к пропускам оптимальных решений. Слишком низкая замедлит процесс и, как ни странно, тоже помешает обучению или переобучит вашу LoRa. Оптимальный диапазон обычно лежит между 1e-4 и 5e-5.
Аналогично с эпохами: прогонять данные слишком много раз значит рисковать тем, что модель просто "зазубрит" датасет, потеряв способность к обобщению. Недобор эпох грозит недообучением, это когда модель так и не улавливает нужные паттерны.
Но вот, вы разобрались с эпохами и скоростью обучения и добрались до специфичных параметров LoRA, например - ранг. Это один из ключевых параметров, он определяет размерность "адаптеров", добавляемых к модели.
Больший ранг дает больше "места" для обучения, но требует больше памяти и времени. Следующий после ранга:
lora_alpha
. Это своего рода усилитель для этих адаптеров. Часто его ставят равным рангу или удваивают, чтобы усилить влияние дообученных весов.Unsloth предлагает в своих ноутбуках отличные дефолтные параметры, основанные на большом накопленном опыте файнтюна моделей и предлагает проверенные решения для управления ресурсами и стабильностью.
Подбор гиперпараметров — это всегда итеративный процесс. Экспериментируйте, сверяйтесь с лучшими практиками, и тогда ваши дообученные модели покажут наилучшие результаты.
#AI #ML #LLM #Tutorial #LoRA #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM