Skywork AI опубликовала Matrix-Game - модель с 17 млрд. параметров для генерации интерактивных игровых миров, способная создавать динамические сцены в Minecraft по заданным изображениям и пользовательским действиям.
Проект сочетает предобучение на неразмеченных данных с финальным этапом, где модель учится реагировать на клавиатурные команды и движения мыши. В основе паплайна - диффузионный метод, позволяющий контролировать движения персонажа, повороты камеры и физику объектов с высокой точностью.
На этапе предобучения использовался уникальный датасет Matrix-Game-MC, собранный из 2700 часов игровых видео без разметки и 1000 часов с детальными аннотациями действий, почищенный от нерелевантного контента, в него вошли только качественные сцены с четким освещением, стабильной камерой и активными действиями.
На втором этапе модель обучалась на записях движений в Unreal Engine и симуляциями в Minecraft через агентов VPT.
Под капотом Matrix-Game - 3D-VAE для кодирования видео и DiT для генерации. При автозавершении длинных видео (до 65 кадров) применяется архитектура с обратной связью: последние кадры служат контекстом для следующих сегментов.
Чтобы оценить возможности модели в генерации игровых миров, Skywork AI создали собственный комплексный бенчмарк GameWorld Score. Он учитывает визуальное качество, плавность переходов, управляемость и понимание физических законов.
Matrix-Game показала 95% точности в распознавании клавиатурных команд и 98% для движений мышью, превзойдя аналогичные модели Oasis и MineWorld. По другим критериям бенчмарка Matrix-Game корректно обрабатывает повороты камеры на 8 направлений и сохраняет 3D-консистентность объектов, избегая артефактов вроде «летающих» блоков.
Несмотря на высокие показатели в тестах, есть слабые места. В редких биомах (например, грибных ландшафтах) модель иногда теряет точность из-за недостатка данных. Также требует улучшений имитация физических взаимодействий.
В планах у разработчиков расширить датасеты обучения, внедрить долгосрочную память для последовательностей и адаптировать методику под другие игры: Black Myth: Wukong и CS:GO.
@ai_machinelearning_big_data
#AI #ML #GameAI #MatrixGame #SkyworkAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Новые модели, по заявлениям компании, лучше справляются с написанием и отладкой кода, а также работают быстрее предыдущих версий. Подписчики ChatGPT Plus, Pro и Team получат доступ к GPT-4.1 бесплатно или по тарифам, а GPT-4.1 mini станет доступен всем пользователям, даже бесплатным. GPT-4.0 mini исключили из сервиса.
Ранее GPT-4.1 вышла через API, но тогда OpenAI критиковали за отсутствие отчетов о безопасности. В ответ компания подчеркнула, что модель не является «передовой» и не требует тех же проверок, что и более мощные системы. Теперь OpenAI пообещал публиковать результаты тестов на безопасность чаще.
OpenAi в сети Х (ex-Twitter)
Логан Килпатрик из Google сообщил, что из-за чрезвычайно высокого спроса на Gemini 2.5 Pro, Google временно приостановит доступ к бесплатному уровню Gemini 2.5 Pro в API. Тем не менее, пользователи по-прежнему могут получить бесплатный доступ к модели через Google AI Studio.
Разработчики, желающие продолжить использование API, могут запросить более высокий уровень API. Новые клиенты Google, которые зарегистрируют платную учетную запись, получат 300 долларов в виде бесплатных API-кредитов. Уровни лимитов можно посмотреть в документации к API Gemini.
Logan Kilpatrick (Lead product for Google AI Studio) в сети X (ex-Twitter)
Stability AI совместно Arm представили в опенсорс Stable Audio Open Small — уменьшенную версию Stable Audio для создания аудио по текстовым запросам. Она оптимизирована для работы на мобильных устройствах с процессорами Arm и использует библиотеки KleidiAI, которые ускоряют вычисления и снижают энергопотребление. Stable Audio Open Small содержит 341 млн параметров и генерирует стереофонический звук за 8 секунд.
Решение ориентировано на создание коротких звуковых эффектов, драм-ликов или амбиентных текстур. Она подходит для разработчиков игр, контентмейкеров и приложений, где важна скорость и экономия ресурсов. Модель доступна бесплатно на Hugging Face, а ее код на GitHub.
stability.ai
CodeRabbit представили бесплатное ИИ-ревью кода прямо в редакторах VS Code, Cursor и Windsurf. Это решение позволяет находить ошибки до создания pull request. Инструмент анализирует каждый коммит, проверяет изменения в реальном времени и предлагает исправления за один клик.
Поддерживаются популярные языки (Python, JavaScript, Java и др.), а также режим «Fix with AI» для автоматического применения правок. Бесплатная версия в IDE работает быстрее, чем ревью в PR, но с более низкими лимитами. Для расширенного функционала есть подписка lite (12 долл./мес.) и Pro (24 долл./мес). Плагин уже доступен в магазине расширений VS Code.
coderabbit.ai
Baidu готовится впервые протестировать в Европе свой сервис беспилотного заказа такси Apollo Go. Китайский гигант ведет переговоры со швейцарским поставщиком общественного транспорта PostAuto о запуске сервиса роботакси в Швейцарии и планирует вывести Apollo Go на турецкий рынок. В настоящее время Apollo Go от Baidu работает во многих городах Китая, а крупнейший парк из более чем 400 транспортных средств находится в Ухане.
reuters.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы размышляете, как усилить своё резюме, наш совет — освойте SQL. Это язык, который помогает извлекать ценную информацию из массивов данных.
Познакомиться с инструментом можно на бесплатном курсе «Введение в SQL и работу с базой данных». За 5 занятий вы научитесь создавать, редактировать и обновлять базы данных, сделаете свои первые запросы и отчёты.
Курс будет полезен даже тем, кто пока не собирается становиться аналитиком. Научитесь применять SQL в своих задачах — с ним вы сможете больше – https://netolo.gy
Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5xuh4tg
Познакомиться с инструментом можно на бесплатном курсе «Введение в SQL и работу с базой данных». За 5 занятий вы научитесь создавать, редактировать и обновлять базы данных, сделаете свои первые запросы и отчёты.
Курс будет полезен даже тем, кто пока не собирается становиться аналитиком. Научитесь применять SQL в своих задачах — с ним вы сможете больше – https://netolo.gy
Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5xuh4tg
PyTorch представил MetaShuffling — решение для ускорения вывода в Llama 4 MoE, которое решает проблемы динамизма и разреженности моделей, связанных с маршрутизацией токенов. Вместо традиционных методов
padding
или slicing
, MetaShuffling использует переупорядочивание токенов по экспертам, избавляясь от ненужных операций и синхронизации между CPU и GPU. Это снижает использование памяти и устраняет задержки, связанные с обработкой «пустышек» или множественными запусками ядер.В основе решения - идея группировки токенов, назначенных одному эксперту, в непрерывные блоки. Такой подход позволяет использовать dense tensors вместо разреженных структур, сохраняя статичные формы данных.
Благодаря этому MetaShuffling совместим с механизмами графов (
CUDAGraph
, torch.compile
), которые ускоряют исполнение, избегая повторных синхронизаций. Решение особенно эффективно для Llama 4, где каждый MoE-слой активирует лишь часть экспертов, что на практике создает динамические нагрузки.GroupedGEMM
, написанный на Triton, обрабатывает несколько матриц в одном вызове, используя статические и динамические разбиения размеров, позволяя пропускать неактивных экспертов и «лишние» токены без дополнительных затрат.IndexShuffling
, в свою очередь, выполняет сортировку токенов и подсчет их количества на каждом эксперте за один проход, что по тестам оказалось в 5–13 раз быстрее, чем стандартные реализации PyTorch.Результаты экспериментов на H100 80GB выглядят многообещающими.
Prefill Llama 4 Maverick с FP8 GroupedGEMM достигает 1,197 TFlops при 286 мкс, что близко к теоретическому пределу GPU.
В задачах декодирования метрики также демонстрируют высокую эффективность: 44,88 TFlops за 59 мкс. Даже при малом количестве токенов (128) MetaShuffling показывает 80% использования пропускной способности памяти.
Для multi-host сценариев MetaShuffling предлагает гибкость между «динамическими» и «статичными» формами данных. В режиме
eager
(без графов) используется минимальное заполнение без синхронизации CPU-GPU.В
graph mode
— статичные формы с минимальным паддингом, что сокращает сетевой трафик и память. Также реализована дедупликация коммуникаций, которая распределяет нагрузку между узлами, снижая задержки в распределенных вычислениях.MetaShuffling поддерживает интеграцию с FBGEMM Generative AI Kernel Library, позволяя применять оптимизации для vLLM и SGLang.
@ai_machinelearning_big_data
#AI #ML #MetaShuffling #Pytorch
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Technodeus
⚡️ 🔥Розыгрыш iPhone 16 и Apple Watch SE 2🔥⚡️
Technodeus, Machine Learning и StopGame собрались и решили запустить крутой розыгрыш новых гаджетов Apple!
Условия максимально просты:
1. Подписаться на Technodeus, Machine Learning и StopGame
2. Нажать кнопку «Участвую!» под этим постом
Итоги подведем уже 11 июня случайным образом при помощи бота. Приз бесплатно доставим по СНГ, где есть СДЭК.
Лайфхак от редакции:возможность выиграть повышается если дать буст на канал
Участвуем и пересылаем друзьям 😎
Technodeus, Machine Learning и StopGame собрались и решили запустить крутой розыгрыш новых гаджетов Apple!
Условия максимально просты:
1. Подписаться на Technodeus, Machine Learning и StopGame
2. Нажать кнопку «Участвую!» под этим постом
Итоги подведем уже 11 июня случайным образом при помощи бота. Приз бесплатно доставим по СНГ, где есть СДЭК.
Лайфхак от редакции:
Участвуем и пересылаем друзьям 😎
Раньше Википедия была главным инструментом для тех, кто хотел получить знания.
Всего за несколько лет ИИ стал главным средством для обучения.
И пути назад уже нет.
https://www.reddit.com/r/wikipedia/comments/1kn8cms/oc_chatgpt_now_has_more_monthly_users_than/?rdt=59790
#chatgpt #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
YouTube анонсировал новую технологию вставки рекламы с помощью Gemini. Система анализирует видео, выявляя «пиковые моменты» — фрагменты, где зритель максимально вовлечен. Реклама будет показываться сразу после этих отрезков, чтобы не мешать важным сюжетным поворотам, но при этом ловить внимание аудитории.
Пока нет информации о дате запуска, но изменения, скорее всего, внедрят быстро. Для разработчиков это интересный кейс применения AI в медиасфере: алгоритм учится распознавать эмоциональные точки входа и адаптировать рекламу под контент без его разрыва. Технология обещает изменить стратегию монетизации видео, сделав ее менее навязчивой.
9to5google.com
По данным IFI Claims, Google обогнал IBM и стал лидером по заявкам на патенты в области генеративного ИИ, а также доминирует в новом направлении — агентном ИИ. В США число заявок на патенты, связанных с генеративным ИИ, выросло на 56% за год.
В списке крупнейших держателей: Nvidia, Microsoft, IBM и Intel, но за пределами США первые места занимают китайские компании и университеты. OpenAI и компания Марка Цукерберга не вошли в топ-10, так как последняя делает ставку на open-source, а OpenAI использует патенты «только в защитных целях». Эксперты отмечают: рост заявок говорит о стремлении компаний защищать разработки, но в итоге формирует барьер для новых игроков.
axios.com
Microsoft начала тестирование функции голосовой активации помощника «Эй, Copilot» для пользователей Windows Insider. Функция доступна в приложении Copilot через Microsoft Store (версия 1.25051.10.0 и выше) и активируется в настройках — пока только опционально.
Чтобы использовать команду, ПК должен быть разблокирован. После фразы «Эй, Copilot» аудиозапись последующих 10 секунд отправляется для обработки в облако. Функция пока поддерживает только английский язык и работает при подключении к интернету. Microsoft заверяет, что данные не сохраняются до срабатывания триггера, а индикатор в трее уведомляет о прослушивании. Релиз планируется постепенным для всех каналов тестирования.
blogs.windows.com
AlphaEvolve - система, которая использует модели Gemini и автоматические оценки для разработки эффективных алгоритмов. Вместо ручного поиска решений ИИ развивает код, проверяя идеи на лету. AlphaEvolve уже улучшил распределение нагрузки в дата-центрах Borg, экономя 0.7% вычислительных ресурсов компании. Он также оптимизировал чипы TPU, убрав лишние операции в математических схемах, и ускорил обучение моделей Gemini на 1%, переписав ключевые фрагменты кода.
Систему потестили и в математике: алгоритм для умножения матриц 4x4 теперь требует 48 операций вместо 64, а в задаче о «контактного числа» ИИ нашел конфигурацию из 593 сфер в 11-мерном пространстве. Сейчас Google тестирует AlphaEvolve внутри инфраструктуры и обещает скоро откыть доступ исследователям.
deepmind.google
Подразделение FAIR выпустила крупнейший открытый набор данных OMol25 для работы с молекулами и универсальную модель UMA, способную предсказывать свойства веществ. OMol25 включает данные о 100 млн. молекул — от органических соединений до металлических комплексов, с учетом зарядов, конформаций и реакций. Создание потребовало 6 млрд. часов супервычислений, а теперь поможет в поиске лекарств, катализаторов и материалов для батарей.
UMA, обученная на OMol25, работает быстрее традиционных методов, прогнозируя параметры на атомарном уровне. С помощью MOE-архитектуры модель совмещает точность и скорость: расчеты, занимавшие дни, теперь занимают секунды. Вместе с этим предложен метод Adjoint Sampling, позволяющий генерировать новые структуры без примеров из реальности.
Все эти инструменты уже доступны на Hugging Face.
phys.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
7–8 июня проводим Weekend Offer Analytics
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.
Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Реклама. ООО "Яндекс". ИНН 7736207543
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.
Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Реклама. ООО "Яндекс". ИНН 7736207543
Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.
Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).
В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.
CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.
Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.
На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.
В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.
В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.
@ai_machinelearning_big_data
#AI #ML #MMLM #BLIP3o #Salesforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI представляет Codex — облачного агента для генерации кода, способного выполнять множество задач параллельно.
В основе — модель codex-1.
🧠 Ключевые особенности:
• Codex работает прямо в браузере
• Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами
• Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI
• Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями
🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика.
📅 Запуск ожидается уже сегодня.
Подождите, то есть Codex как приложение — это не то же самое, что Codex в виде CLI, и всё это ещё отличается от Codex как модели? Серьёзно?
▪ Релиз: https://openai.com/index/introducing-codex/
@ai_machinelearning_big_data
#OpenAI #Codex #AI #CodeAutomation #DevTools
В основе — модель codex-1.
🧠 Ключевые особенности:
• Codex работает прямо в браузере
• Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами
• Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI
• Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями
🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика.
📅 Запуск ожидается уже сегодня.
▪ Релиз: https://openai.com/index/introducing-codex/
@ai_machinelearning_big_data
#OpenAI #Codex #AI #CodeAutomation #DevTools
Media is too big
VIEW IN TELEGRAM
MIT попросил arXiv отозвать работу о влиянии ИИ на научные открытия и инновации, опубликованную в ноябре 2024 года. Внутренняя проверка выявила сомнения в достоверности данных и методах исследования. Хотя автор, бывший аспирант экономического факультета MIT, не подал заявку на отзыв, институт настаивает на удалении работы из открытого доступа.
Профессора MIT, упомянутые в работе, заявили, что не доверяют источникам и выводам исследования. Теперь эксперты ждут реакции arXiv, который, согласно своим правилам, может отозвать работу только по инициативе автора или администратора.
economics.mit.edu
Epic Games представила интерактивного персонажа Дарта Вейдера, который отвечает на вопросы о Звездах смерти, тактике боя и Силе голосом Джеймса Ирла Джонса, озвучивавшего персонажа в "Звездных войнах". Эта функция является частью текущего сезона Fortnite, посвященной популярной медиафраншизе.
Разработчики использовали Google Gemini и технологии ElevenLabs, чтобы оживить легенду. Правда, игроки быстро начали тестировать ИИ на прочность, заставляя его повторять мат и оскорбления — студия оперативно выпустила патч для фильтрации контента.
fortnite.com
Сервис преодолел отметку в 150 млн пользователей — рост на 50% с февраля 2024 года. Ключевым драйвером стало внедрение тарифа за $19,99 в месяц с доступом к ИИ - возможностям, недоступным для бесплатных аккаунтов.
По словам представителя Google, новый ИИ-тариф принес «миллионы» подписок. Рост сервиса важен для Alphabet, стремящегося сократить зависимость от рекламы (75% дохода в 2024 году). Как отметил CEO Google, привлечение платных пользователей - это стратегия, которая будет развиваться «по мере времени».
reuters.com
Cohere объявил о покупке Ottogrid - платформы для автоматизации анализа рыночных данных. Основатели Ottogrid присоединятся к Cohere, чтобы усилить возможности своего продукта North, ориентированного на обработку документов и задач корпоративных пользователей.
Ottogrid, ранее называвшийся Cognosys, прекратит самостоятельную работу, а инструменты платформы, включая извлечение данных с сайтов и интеграцию с таблицами, будут встроены в решения Cohere.
Покупка происходит на фоне реструктуризации Cohere: после провала по доходам в 2023 году компания сместила фокус на продажи в секторах здравоохранения и финансов, после чего собрала $2 млн. инвестиций от GV и частных венчурных фондов.
techcrunch.com
Компания-разработчик Llama столкнулась проблемами , отложив релиз флагманской модели Behemoth на неопределенный срок. Инженеры не смогли добиться заметных улучшений по сравнению с предыдущими версиями, что вызвало критику внутри компании. Некоторые сотрудники опасаются, что модель не оправдает ожиданий руководства в конкуренции с продуктами OpenAI, Google и Anthropic.
Топ-менеджмент компании разочарован задержками и планирует перестановки в группе, отвечающей за Llama 4. Ранее выпущенные модели, представленные в апреле, показали хорошие результаты в тестах, но позже выяснилось, что для бенчмарков использовалась доработанная версия, а не публичная. Марк Цукерберг признал оптимизацию под конкретные задачи.
wsj.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machine learning Interview
🧠 Бесплатный курс от Hugging Face: Model Context Protocol (MCP)
Hugging Face запустили обучающий курс по Model Context Protocol (MCP) — это современный стандарт для взаимодействия между ИИ-моделями, внешними API, пользовательским вводом и контекстом. Курс идеально подойдёт разработчикам, ML-инженерам и всем, кто хочет строить мощные, интерактивные LLM-приложения.
🔍 Что ты узнаешь:
• 🧩 Как работает архитектура MCP
• 🧰 Как использовать официальные MCP SDK на Python и TypeScript
• 🛠 Как собрать своё MCP-приложение с Gradio и Hugging Face Spaces
• 🎯 Как пройти сертификацию и получить подтверждение своих навыков
📚 Содержание курса:
1. Введение в MCP и структуру курса
2. Архитектура и ключевые компоненты MCP
3. Создание первого MCP-приложения
4. Продвинутые фичи и интеграции
5. Бонусы: дополнительные примеры, кейсы, best practices
💡 Что нужно для старта:
• Опыт с Python или TypeScript
• Понимание API, LLM и разработки
• Аккаунт на Hugging Face
• Желание строить умные и гибкие AI-интерфейсы
👥 Комьюнити:
Присоединяйся к Discord-серверу Hugging Face, чтобы общаться с разработчиками и проходить курс в компании других участников.
➡️ Перейти к курсу
@machinelearning_interview - вопросы с собеседований
Hugging Face запустили обучающий курс по Model Context Protocol (MCP) — это современный стандарт для взаимодействия между ИИ-моделями, внешними API, пользовательским вводом и контекстом. Курс идеально подойдёт разработчикам, ML-инженерам и всем, кто хочет строить мощные, интерактивные LLM-приложения.
🔍 Что ты узнаешь:
• 🧩 Как работает архитектура MCP
• 🧰 Как использовать официальные MCP SDK на Python и TypeScript
• 🛠 Как собрать своё MCP-приложение с Gradio и Hugging Face Spaces
• 🎯 Как пройти сертификацию и получить подтверждение своих навыков
📚 Содержание курса:
1. Введение в MCP и структуру курса
2. Архитектура и ключевые компоненты MCP
3. Создание первого MCP-приложения
4. Продвинутые фичи и интеграции
5. Бонусы: дополнительные примеры, кейсы, best practices
💡 Что нужно для старта:
• Опыт с Python или TypeScript
• Понимание API, LLM и разработки
• Аккаунт на Hugging Face
• Желание строить умные и гибкие AI-интерфейсы
👥 Комьюнити:
Присоединяйся к Discord-серверу Hugging Face, чтобы общаться с разработчиками и проходить курс в компании других участников.
➡️ Перейти к курсу
@machinelearning_interview - вопросы с собеседований
🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся.
Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.
Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.
Посты про конвертер (ч.1, ч.2)
Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.
Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.
Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.
Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.
Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqxfVgF6
Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.
Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.
Посты про конвертер (ч.1, ч.2)
Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.
Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.
Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.
Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.
Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqxfVgF6
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Agibot и новый взгляд на форму робота
Проект Agibot предлагает переосмыслить привычный подход к дизайну роботов. Традиционно роботы создаются по образу человека — с двумя руками, двумя ногами, направленным вперёд зрением. Это объясняется тем, что окружающий мир спроектирован под человеческие потребности: лестницы, двери, инструменты.
Однако возникает вопрос: обязательно ли ограничиваться человеческой анатомией, а что если:
• Робот с тремя руками может выполнять больше задач одновременно
• Три ноги обеспечивают лучшую устойчивость на неровной поверхности
• Круговой обзор с помощью камер по периметру эффективнее человеческого зрения
🔧 Agibot демонстрирует первые шаги к объединению биомеханики и инженерного прагматизма. Вместо слепого копирования человека — попытка создать оптимальную форму для задач, стоящих перед роботами.
🚀 Будущее робототехники, возможно, лежит не в имитации, а в эволюции — с новыми решениями, выходящими за рамки антонимии человеческого тела.
@ai_machinelearning_big_data
#ai #robots #ml
Проект Agibot предлагает переосмыслить привычный подход к дизайну роботов. Традиционно роботы создаются по образу человека — с двумя руками, двумя ногами, направленным вперёд зрением. Это объясняется тем, что окружающий мир спроектирован под человеческие потребности: лестницы, двери, инструменты.
Однако возникает вопрос: обязательно ли ограничиваться человеческой анатомией, а что если:
• Робот с тремя руками может выполнять больше задач одновременно
• Три ноги обеспечивают лучшую устойчивость на неровной поверхности
• Круговой обзор с помощью камер по периметру эффективнее человеческого зрения
🔧 Agibot демонстрирует первые шаги к объединению биомеханики и инженерного прагматизма. Вместо слепого копирования человека — попытка создать оптимальную форму для задач, стоящих перед роботами.
🚀 Будущее робототехники, возможно, лежит не в имитации, а в эволюции — с новыми решениями, выходящими за рамки антонимии человеческого тела.
@ai_machinelearning_big_data
#ai #robots #ml
Платформа Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Уже доступны:
• LLaMA 4,
• Gemma 3,
• Qwen 2.5 VL,
• Mistral Small 3.1 и другие модели.
• Каждая модель теперь полностью автономна — это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Ранее Ollama уже поддерживала работу с изображениями через интеграцию с llama.cpp. Однако с выпуском версии 0.7 платформа представила новый движок, разработанный на базе библиотеки GGML, который обеспечивает полноценную и стабильную поддержку мультимодальных моделей.
Это означает, что теперь такие модели являются "полноправными гражданами" в экосистеме Ollama, что улучшает надежность, точность и расширяет возможности для будущих модальностей, таких как речь, генерация изображений и видео, а также поддержка более длинных контекстов и улучшенных инструментов для моделей.
@ai_machinelearning_big_data
#olama #opensource #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM