📊 Yandex Cloud запустил курс по обработке и анализу больших данных на Apache Spark на Yandex Data Processing
Это не просто «пособие на вечер» — это полноценный курс на 75 часов: теория, практика и сценарии под реальные задачи с многотерабайтными массивами на современном сервисе Yandex Data Processing.
🧠 Что внутри:
🔹 Проектирование архитектуры обработки данных
🔹 Управление кластерами Apache Spark
🔹 Data Lakehouse — от теории до реализации
🔹 Пакетная и потоковая обработка
🔹 Оркестрация и построение витрин
🔹 27 практических заданий прямо в Yandex Cloud
Курс создали архитекторы Yandex Cloud и инженеры Hilbert Team. Все бесплатно, с неограниченным доступом и свидетельством о прохождении курса после финального теста на выходе.
💬 Подойдет дата-инженерам, аналитикам, DevOps и тем, кто хочет познать сферу Big Data с практической стороны.
Присоединяйтесь! Ссылка на регистрацию — уже тут.
@ai_machinelearning_big_data
Это не просто «пособие на вечер» — это полноценный курс на 75 часов: теория, практика и сценарии под реальные задачи с многотерабайтными массивами на современном сервисе Yandex Data Processing.
🧠 Что внутри:
🔹 Проектирование архитектуры обработки данных
🔹 Управление кластерами Apache Spark
🔹 Data Lakehouse — от теории до реализации
🔹 Пакетная и потоковая обработка
🔹 Оркестрация и построение витрин
🔹 27 практических заданий прямо в Yandex Cloud
Курс создали архитекторы Yandex Cloud и инженеры Hilbert Team. Все бесплатно, с неограниченным доступом и свидетельством о прохождении курса после финального теста на выходе.
💬 Подойдет дата-инженерам, аналитикам, DevOps и тем, кто хочет познать сферу Big Data с практической стороны.
Присоединяйтесь! Ссылка на регистрацию — уже тут.
@ai_machinelearning_big_data
🚀 Alphabet (GOOGL) — теперь самая прибыльная компания в мире
• Google сейчас удерживает титул лидера по чистой прибыли —111 млрд $ в год
• Такая финансовая мощь даёт дополнительный импульс к развитиб AI-инфраструктуры компании
• Ит-гигант уже консолидирует больше вычислительных ресурсов, чем кто-либо ещё
• Финансовая стабильность позволяет вкладываться в новые центры обработки данных и R&D
• За последний год Gemini вырос из нишевого решения в один из самых популярных и качественных LLM
• Всё это ставит Google в исключительное положение для доминирования в будущем ИИ
@ai_machinelearning_big_data
#ai #googel #finance
• Google сейчас удерживает титул лидера по чистой прибыли —111 млрд $ в год
• Такая финансовая мощь даёт дополнительный импульс к развитиб AI-инфраструктуры компании
• Ит-гигант уже консолидирует больше вычислительных ресурсов, чем кто-либо ещё
• Финансовая стабильность позволяет вкладываться в новые центры обработки данных и R&D
• За последний год Gemini вырос из нишевого решения в один из самых популярных и качественных LLM
• Всё это ставит Google в исключительное положение для доминирования в будущем ИИ
@ai_machinelearning_big_data
#ai #googel #finance
Media is too big
VIEW IN TELEGRAM
Mistral AI выпустила минорное обновление Small, улучшив точность и стабильность. Инструкции теперь выполняются точнее, а повторяющиеся или бесконечные ответы встречаются вдвое реже, вызовы функций стали надежнее за счет более надежных шаблонов.
Размер модели не изменился, 24B, Сравнение в бенчмарках с Small 3.1: в Wildbench v2 результаты выросли до 65.33% (на 10% выше, чем у версии 3.1), а в сложных сценариях Arena Hard v2 модель прибавила почти 24%. В задачах на логику (MMLU Pro) и программирование (HumanEval Plus) показатели улучшились на 2–4%. Правда, в некоторых визуальных тестах (MMMU) показатели снизились, но незначительно.
Модель доступна на Hugging Face, сообщество уже сделало квантованные версии.
huggingface.co
С 7 июля по 6 августа 2025 года платформа постепенно отключит несколько версий моделей OpenAI: GPT-4.5, o1, o3-mini и GPT-4o, их заменят на более новые аналоги, GPT-4.1, о3 или o4-mini.
Администраторам Copilot Enterprise нужно заранее активировать политики доступа к новым моделям в настройках, чтобы они появились в VS Code и интерфейсе GitHub. Удаление устаревших моделей после даты отключения произойдет автоматически.
github.blog
Google выпустила Magenta RealTime (Magenta RT) - открытую ИИ-модель для живого создания музыки. Она генерирует по текстовым запросам и аудиосэмплам (можно комбинировать), используя Transformer с 800 миллионами параметров, обученный на 190 тысячах часов инструментальной музыки.
Код и веса модели доступны на GitHub и Hugging Face. Попробовать Magenta RT в действии можно через бесплатный Colab-ноутбук с поддержкой TPU. Google обещает добавить возможность локального запуска и кастомизацию, а также опубликовать техотчет.
magenta.withgoogle.com
Инсайдеры сообщают, что Apple ведет внутренние обсуждения о возможной покупке стартапа Perplexity. Глава M&A Адриан Перича и руководитель сервисов Эдди Кью уже обсудили идею с командой по вопросам ИИ. Пока переговоры находятся на ранней стадии, а официального предложения сделано не было.
Согласно источникам, компания планирует внедрить ИИ-поиск в Safari, чтобы снизить зависимость от Google. Это решение может стать частью стратегии диверсификации ИИ-продуктов перед запуском новых функций в будущих версиях iOS или macOS.
reuters.com
Оригинальный WormGPT, созданный на основе GPT-J, стал первым массовым инструментом для киберпреступников, позволяя генерировать вредоносный код и фишинговые письма без цензуры. После его закрытия в 2023 году на форумах появились новые варианты: один работает на Grok от xAI, другой на Mixtral от Mistral AI. Вместо создания собственных моделей злоумышленники адаптируют существующие, используя jailbreak-промты, чтобы обойти защитные механизмы.
Анализ, проведенный Cato CTRL показал, что keanu-WormGPT - это обертка Grok с измененным системным промтом, заставляющим нейросеть игнорировать ограничения. xzin0vich-WormGPT, в свою очередь, основан на Mixtral и обучен на данных с дарквеба. Оба проекта распространяются через Telegram-боты по подписке, коммерциализируя генерацию фишинга и вредоносного кода как услугу.
catonetworks.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Поступи в магистратуру с грантом до 1,2 млн рублей
Современная магистратура – это не пары для галочки, а возможность продвинуть карьеру и стать сильным специалистом.
Центральный университет ведет набор на пять программ магистратуры по популярным ИТ-направлениям. Партнеры – ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе. Средняя зарплата – 195 тысяч рублей.
Обучение можно совмещать с работой, а поступить – уже с третьего курса.
Стань частью новой волны специалистов и получи грант на обучение до 1,2 млн рублей.
И подавай заявку на поступление уже сейчас.
Реклама. АНО ВО "Центральный университет", ИНН 7743418023, erid:2Ranykywg6M
Современная магистратура – это не пары для галочки, а возможность продвинуть карьеру и стать сильным специалистом.
Центральный университет ведет набор на пять программ магистратуры по популярным ИТ-направлениям. Партнеры – ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе. Средняя зарплата – 195 тысяч рублей.
Обучение можно совмещать с работой, а поступить – уже с третьего курса.
Стань частью новой волны специалистов и получи грант на обучение до 1,2 млн рублей.
И подавай заявку на поступление уже сейчас.
Реклама. АНО ВО "Центральный университет", ИНН 7743418023, erid:2Ranykywg6M
Reinforcement Learning Teachers (RLT) от Sakana AI - метод обучения LLM рассуждениям, где компактная модель-"учитель" не решает задачи сама, а учится объяснять уже готовые решения так, чтобы студент-модель лучше их усваивала.
Вместо дорогого обучения "с нуля" через проб и ошибку (как в классическом RL), учитель фокусируется на ясности пошаговых пояснений, используя и вопрос, и правильный ответ как подсказку. Это радикально удешевляет процесс и выравнивает цель учителя быть полезным студенту.
Архитектура строится вокруг петли обратной связи. Учителю (например, крошечной модели на 7B параметров) на вход подаются и задача и ее верное решение. Его работа - сгенерировать максимально понятное пошаговое объяснение, как прийти от условия к ответу.
Эффективность учителя измеряется не тем, решил ли он задачу сам (он даже не обязан это уметь), а тем, насколько хорошо студент-модель понимает его объяснение. Ключевая метрика - "логарифмические вероятности": чем выше вероятность, что студент, прочитав объяснение учителя, правильно предскажет следующий шаг или итоговый ответ, тем лучше работа учителя. Это и есть сигнал подкрепления для обучения RLT.
Вся магия метода состоит в этом смещении фокуса RL. Вместо чтоб награждать модель за самостоятельное нахождение ответа (что требует огромных вычислительных ресурсов и приводит к "узкой" специализации), RLT поощряют за педагогическую эффективность.
Благодаря наличию готового ответа во время обучения, в роли учителя могут выступать даже небольшие, дешевые модели, которые не смогли бы решить сложные задачи в одиночку. Объяснения от RLT затем используются как высококачественные данные для обучения (дистилляции или "холодного старта") студент-моделей любого размера.
Главный нюанс: метод требует наличия готовых правильных решений для задач в обучающем наборе. Он не заменяет полностью сбор данных, а перепрофилирует их для обучения "преподаванию".
Пока метод тестировался в основном на задачах математики и естественных наук. Но его сила в эффективности: 7B RLT-учитель превосходит в обучении студентов-гигантов ( 671B DeepSeek R1). Он обучает даже студентов крупнее себя (32B) быстрее (менее суток против месяцев) и лучше, а его объяснения четче, без лишнего "шума" вроде юмора или подсказок калькулятора, свойственных традиционным RL-моделям.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #RLT #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Основная идея VLMgineer - путь к роботам, которые сами изобретают нужные приборы под конкретные задачи, экономя время инженеров и расширяя границы автоматизации.
Что это
● Фреймворк, объединяющий Vision-Language-модель и эволюционный поиск.
● Полностью автоматизирует два процесса:
1) проектирует физический инструмент;
2) пишет пошаговый план, как этим инструментом пользоваться.
Как это работает
1️⃣ VLM получает описание задачи («забей гвоздь», «разбей лёд») и создаёт начальный эскиз инструмента + набор движений робота.
2️⃣ Симуляция проверяет, насколько успешно связка «инструмент + действие» решает задачу.
3️⃣ Эволюционный алгоритм вносит правки (меняет форму, размеры, материалы), VLM уточняет план.
4️⃣ Цикл повторяется, пока не найден оптимальный дизайн.
Никаких шаблонов и ручной настройки — всю «физическую креативность» выполняет модель.
Исследователи протестировали возможности VLMgineer по созданию инструментов и планов действий в сравнении с тремя типами участников:
• специалист по LLM
• эксперт по робототехнике
• обычный человек без технического бэкграунда
📊 Результаты:
VLMgineer показал на 64,7% более высокий средний успех выполнения задач, чем решения, предложенные людьми, скоро обещают дропнуть код проекта.
@ai_machinelearning_big_data
#ai #robots #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Gemini Robotics: автономный AI для роботов
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
В этом году конфа для AI и ML- разработчиков пройдет в кластере “Ломоносов” 19 июля. В программе предусмотрено 5 блоков: NLP, CV & Speech, RecSys, Research & RnD, а центральной темой станет разработка LLM-приложений и Copilot-решений.
На Turbo ML Conf 2025 соберутся более 1000 техлидов AI/ML-команд, ML-инженеров, исследователей, Go и Python-разработчиков, и других ИТ-специалистов из ведущих компаний России. Гости услышат десятки докладов и кейсов от более, чем 30 экспертов из Т-Банка, Яндекса, Авито, Сбера, VK, МТС и других ИТ-корпораций и университетов.
Первое из них — LLM Applications & Copilots. Оно посвящено разработке LLM-платформ, архитектуре решений, тулингу, агентным системам, RAG и LLM для разработки программного обеспечения. Второе направление NLP — обработка естественного языка, а также автоматизация поддержки, alignment, рассуждающие и мультимодальные LLM, mechanistic interpretability естественного языка.
Третье — CV & Speech – синтез и распознавание речи, audio-to-audio-модели и LLM для распознавания и генерации аудио, генеративные сети, VLM, OCR и другие темы. Четвертым направлением станет RecSys, то есть рекомендательные системы, инсайты из продовых A/B-тестов, применение нейросетей для разных этапов систем, применение графовых нейронных сетей и другие темы.
Финальное направление Research & RnD посвящено фундаментальным и прикладным исследованиям в России, мультимодальным LLM, alignment, и mechanistic interpretability.
Они расскажут, как строить масштабируемые решения и применять ML в реальных продуктах, поделятся результатами последних научных исследований и объяснят, как технологии влияют на бизнес-задачи. О подготовке LLM в эпоху сильного Open Source расскажет Анатолий Потапов из Т-Банка. Егор Швецов из AIRI даст совет по достижению компромиссов между безопасностью и эффективностью при сжатии моделей, а Сергей Овчаренко из Яндекса поделится результатами 3-летнего обучения диффузионных моделей.
Гости смогут проконсультироваться с HR в IT, создать ML-комиксы и диджитал-сканворд в творческой зоне, пообщаться с другими участниками и отдохнуть на афтепати с DJ-сетами, настольными играми, лото и стильным мерчем.
Онлайн-трансляция в этот раз проводиться не будет, поэтому участие в конференции возможно только очно – бесплатно по предварительной регистрации.
@ai_machinelearning_big_data
#news #ai #ml #ai #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Анализ данных (Data analysis)
⚡ OmniGen2
Что умеет:
• Генерация и редактирование изображений по текстовому описанию
• Поддержка разрешения до 1024×1024
• Полностью open-source: модель, код и веса
• Лицензия Apache 2.0
• Можно вызвать модель через MCP — просто запусти с
📌 Тестим здесь: https://huggingface.co/spaces/OmniGen2/OmniGen2
@data_analysis_ml
Что умеет:
• Генерация и редактирование изображений по текстовому описанию
• Поддержка разрешения до 1024×1024
• Полностью open-source: модель, код и веса
• Лицензия Apache 2.0
• Можно вызвать модель через MCP — просто запусти с
.launch(mcp_server=True)
📌 Тестим здесь: https://huggingface.co/spaces/OmniGen2/OmniGen2
@data_analysis_ml