Telegram Group Search
Media is too big
VIEW IN TELEGRAM
7–8 июня проводим Weekend Offer Analytics

Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.

Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.

Узнать подробности и зарегистрироваться.

Реклама. ООО "Яндекс". ИНН 7736207543
🌟 BLIP3-o: универсальная модель для анализа и генерации изображений.

Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.

Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).

В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.

CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.

Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.

На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.

В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.

В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.


🟡Модель
🟡Arxiv
🟡Demo
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #BLIP3o #Salesforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI представляет Codex — облачного агента для генерации кода, способного выполнять множество задач параллельно.

В основе — модель codex-1.


🧠 Ключевые особенности:

• Codex работает прямо в браузере
• Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами
• Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI
• Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями

🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика.

📅 Запуск ожидается уже сегодня.

Подождите, то есть Codex как приложение — это не то же самое, что Codex в виде CLI, и всё это ещё отличается от Codex как модели? Серьёзно?

Релиз: https://openai.com/index/introducing-codex/

@ai_machinelearning_big_data

#OpenAI #Codex #AI #CodeAutomation #DevTools
Media is too big
VIEW IN TELEGRAM
✔️ MIT отзывает спорный препринт об ИИ из-за подозрений в фальсификации данных.

MIT попросил arXiv отозвать работу о влиянии ИИ на научные открытия и инновации, опубликованную в ноябре 2024 года. Внутренняя проверка выявила сомнения в достоверности данных и методах исследования. Хотя автор, бывший аспирант экономического факультета MIT, не подал заявку на отзыв, институт настаивает на удалении работы из открытого доступа.

Профессора MIT, упомянутые в работе, заявили, что не доверяют источникам и выводам исследования. Теперь эксперты ждут реакции arXiv, который, согласно своим правилам, может отозвать работу только по инициативе автора или администратора.
economics.mit.edu

✔️ С Дартом Вейдером можно початиться в Fortnite.

Epic Games представила интерактивного персонажа Дарта Вейдера, который отвечает на вопросы о Звездах смерти, тактике боя и Силе голосом Джеймса Ирла Джонса, озвучивавшего персонажа в "Звездных войнах". Эта функция является частью текущего сезона Fortnite, посвященной популярной медиафраншизе.

Разработчики использовали Google Gemini и технологии ElevenLabs, чтобы оживить легенду. Правда, игроки быстро начали тестировать ИИ на прочность, заставляя его повторять мат и оскорбления — студия оперативно выпустила патч для фильтрации контента.
fortnite.com

✔️ Google One достиг отметку в 150 миллионов подписчиков.

Сервис преодолел отметку в 150 млн пользователей — рост на 50% с февраля 2024 года. Ключевым драйвером стало внедрение тарифа за $19,99 в месяц с доступом к ИИ - возможностям, недоступным для бесплатных аккаунтов.

По словам представителя Google, новый ИИ-тариф принес «миллионы» подписок. Рост сервиса важен для Alphabet, стремящегося сократить зависимость от рекламы (75% дохода в 2024 году). Как отметил CEO Google, привлечение платных пользователей - это стратегия, которая будет развиваться «по мере времени».
reuters.com

✔️ Cohere приобретает платформу Ottogrid.

Cohere объявил о покупке Ottogrid - платформы для автоматизации анализа рыночных данных. Основатели Ottogrid присоединятся к Cohere, чтобы усилить возможности своего продукта North, ориентированного на обработку документов и задач корпоративных пользователей.

Ottogrid, ранее называвшийся Cognosys, прекратит самостоятельную работу, а инструменты платформы, включая извлечение данных с сайтов и интеграцию с таблицами, будут встроены в решения Cohere.

Покупка происходит на фоне реструктуризации Cohere: после провала по доходам в 2023 году компания сместила фокус на продажи в секторах здравоохранения и финансов, после чего собрала $2 млн. инвестиций от GV и частных венчурных фондов.
techcrunch.com

✔️ Релиз Llama Behemoth откладывается на неопределенный срок.

Компания-разработчик Llama столкнулась проблемами , отложив релиз флагманской модели Behemoth на неопределенный срок. Инженеры не смогли добиться заметных улучшений по сравнению с предыдущими версиями, что вызвало критику внутри компании. Некоторые сотрудники опасаются, что модель не оправдает ожиданий руководства в конкуренции с продуктами OpenAI, Google и Anthropic.

Топ-менеджмент компании разочарован задержками и планирует перестановки в группе, отвечающей за Llama 4. Ранее выпущенные модели, представленные в апреле, показали хорошие результаты в тестах, но позже выяснилось, что для бенчмарков использовалась доработанная версия, а не публичная. Марк Цукерберг признал оптимизацию под конкретные задачи.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Бесплатный курс от Hugging Face: Model Context Protocol (MCP)

Hugging Face запустили обучающий курс по Model Context Protocol (MCP) — это современный стандарт для взаимодействия между ИИ-моделями, внешними API, пользовательским вводом и контекстом. Курс идеально подойдёт разработчикам, ML-инженерам и всем, кто хочет строить мощные, интерактивные LLM-приложения.

🔍 Что ты узнаешь:
🧩 Как работает архитектура MCP
🧰 Как использовать официальные MCP SDK на Python и TypeScript
🛠 Как собрать своё MCP-приложение с Gradio и Hugging Face Spaces
🎯 Как пройти сертификацию и получить подтверждение своих навыков

📚 Содержание курса:
1. Введение в MCP и структуру курса
2. Архитектура и ключевые компоненты MCP
3. Создание первого MCP-приложения
4. Продвинутые фичи и интеграции
5. Бонусы: дополнительные примеры, кейсы, best practices

💡 Что нужно для старта:
• Опыт с Python или TypeScript
• Понимание API, LLM и разработки
• Аккаунт на Hugging Face
• Желание строить умные и гибкие AI-интерфейсы

👥 Комьюнити:
Присоединяйся к Discord-серверу Hugging Face, чтобы общаться с разработчиками и проходить курс в компании других участников.

➡️ Перейти к курсу

@machinelearning_interview - вопросы с собеседований
🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся.

Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.

Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.

Посты про конвертер (ч.1, ч.2)

Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.

Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.

Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.

Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.

Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqxfVgF6
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Agibot и новый взгляд на форму робота

Проект Agibot предлагает переосмыслить привычный подход к дизайну роботов. Традиционно роботы создаются по образу человека — с двумя руками, двумя ногами, направленным вперёд зрением. Это объясняется тем, что окружающий мир спроектирован под человеческие потребности: лестницы, двери, инструменты.

Однако возникает вопрос: обязательно ли ограничиваться человеческой анатомией, а что если:

• Робот с тремя руками может выполнять больше задач одновременно
Три ноги обеспечивают лучшую устойчивость на неровной поверхности
Круговой обзор с помощью камер по периметру эффективнее человеческого зрения

🔧 Agibot демонстрирует первые шаги к объединению биомеханики и инженерного прагматизма. Вместо слепого копирования человека — попытка создать оптимальную форму для задач, стоящих перед роботами.

🚀 Будущее робототехники, возможно, лежит не в имитации, а в эволюции — с новыми решениями, выходящими за рамки антонимии человеческого тела.

@ai_machinelearning_big_data


#ai #robots #ml
🦙 Ollama запускает поддержку мультимодальных моделей

Платформа Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.

Уже доступны:
LLaMA 4,
Gemma 3,
Qwen 2.5 VL,
Mistral Small 3.1 и другие модели.

🔥 Что нового:
• Каждая модель теперь полностью автономна — это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее

Ранее Ollama уже поддерживала работу с изображениями через интеграцию с llama.cpp. Однако с выпуском версии 0.7 платформа представила новый движок, разработанный на базе библиотеки GGML, который обеспечивает полноценную и стабильную поддержку мультимодальных моделей.

Это означает, что теперь такие модели являются "полноправными гражданами" в экосистеме Ollama, что улучшает надежность, точность и расширяет возможности для будущих модальностей, таких как речь, генерация изображений и видео, а также поддержка более длинных контекстов и улучшенных инструментов для моделей.

✔️ Этот шаг делает Ollama одной из первых платформ, предлагающих локальную поддержку мультимодальных моделей с открытым исходным кодом.

🔜 Подробнее

@ai_machinelearning_big_data

#olama #opensource #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг CEO NVIDIA:

ИИ, способный к рассуждению, открыл путь к совершенно новому классу агентных систем.

🚀 Будущее — за гибридными командами, где один человек работает вместе с тысячей интеллектуальных агентов.

🧬 Один биоинженер становится суперинженером, опираясь на целую армию ИИ-помощников, способных не просто выполнять команды, а анализировать, думать и принимать решения.

Это не просто автоматизация — это новый уровень сотрудничества между человеком и разумными машинами.

@ai_machinelearning_big_data


#NVIDIA #future #ai
🔥 Первый взгляд на Video Overviews — видеоролики, сгенерированные той же моделью, которая в ближайшее время будет использоваться в NotebookLM.

Google готовится представить новую функцию — AI-сгенерированные видеообзоры (Video Overviews), которая станет частью проекта Illuminate. Эта технология позволяет преобразовывать текстовые запросы в короткие видеоролики продолжительностью от 1 до 3 минут, полностью созданные искусственным интеллектом.

Была показана серия видео, называемых "Sparks", каждое из которых демонстрирует различные стили и темы.
Эти видео генерируются единой моделью, способной синхронизировать видео и аудио без необходимости в отдельных процессах для каждого компонента.

Хотя точная модель, лежащая в основе этой технологии, не раскрывается, предполагается, что она связана с Veo 3 или мультимодальной версией Gemini Ultra.

@ai_machinelearning_big_data

#google #ai #ml #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📌nanoVLM: простой и мощный инструмент для экспериментов с VLM.

nanoVLM - проект, вдохновленный подходом nanoGPT от Andrej Karpathy, который предлагает минималистичную реализацию VLM на чистом PyTorch.

Код проекта настолько прост, что даже новичок быстро поймет, как устроены компоненты: Vision Backbone (150 строк), Language Decoder (250 строк), проекция модальностей (50 строк) и сама модель (100 строк). Все вместе с тренировочным циклом умещается в 750 строк — идеально для модификаций.

Созданная с помощью nanoVLM модель не претендует на звание прорывной, но дает отличную базу для экспериментов. Комбинация SigLIP-B/16-224-85M (визуальная часть) и SmolLM2-135M (языковая) создает компактную VLM на 222 млн. параметров. После 6 часов обучения на одном H100 GPU и 1.7 млн. примеров из датасета The Cauldron она показывает 35.3% точности на MMStar.

Начать работу можно 3 способами: клонировать репозиторий, запустить готовый Colab-ноутбук или использовать интерактивный туториал в формате ipynb. Даже если у вас нет доступа к топовому железу, эксперименты на Google Colab на бесплатном тиере вполне реальны. Установка максимально облегчена: зависимости минимальны, а логирование и загрузка параметров уже встроены.

nanoVLM отлично подойдет как образовательный проект или тренажер чтобы изучать VLM. В нем есть все для старта — от понятного кода до рабочих примеров. Если вы хотите создать свою мультимодальную модель, но боитесь сложностей, nanoVLM станет отличной песочницей для экспериментов.


🟡Модель
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ VS Code трансформируется в открытый ИИ-редактор!

Команда Visual Studio Code объявила о планах трансформировать VS Code в редактор с открытым исходным кодом для работы с ИИ.

В ближайшие недели команда Visual Studio Code планирует открыть исходный код расширения GitHub Copilot Chat и перенести ИИ-функции из расширения в основное ядро VS Code.

Конкуренция - двигатели прогресса! Где-то напряглась команда Cursor 🤓

🔗 Подробности: aka.ms/open-source-ai-editor

#VSCode #OpenSource #ИИ #Разработка #Сообщество
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/19 17:43:19
Back to Top
HTML Embed Code: