Telegram Group Search
Неделю искал баг

Работаю над нейросетью, которая сможет генерировать анимации в реальном времени в игровом движке в разных стилях.

Обучаю, запускаю, вижу jitter — дрожание в суставах. Персонаж в общих чертах выполняет анимацию, но все суставы дрожат, root дергается, выглядит сомнительно.

Под капотом диффузия, которая генерирует движения из шума. Сначала уповал на нее, перечитал статьи вдоль и поперек, от руки сделал все выкладки, написал тесты, вроде все работает.

Далее крутил loss, прикрутил jerk — 3-ю производную по времени. Улучшений нет.

Зашел с другой стороны, накинул аугментаций в DataLoader со сглаживанием траектории root и вращений. Оверфитил на одном сэмпле, учил на датасетах разных размеров, ничего не помогает.

В конечном счете решил, что да и хуй с ним, потом вернусь к проблеме. Экспортнул в ONNX, прогоняю тестовый инференс, работает идеально, никакого jitter.

Угадайте в чем была ошибка…
Про Cursor и Vibe Coding

Сейчас среди разработчиков царят те же настроения, что два года назад охватили художников после выхода Stable Diffusion.

Есть два лагеря: одни отрицают и плюются, другие активно используют AI. Я определённо во втором лагере и в восторге от прогресса, но без нюансов не обошлось.

Cursor — это форк VSCode, где разработчики основательно поработали над качеством автодополнения (tab) и встроили чат, который отлично работает с кодом. К слову, это самый быстрорастущий стартап в истории — что-то около $200M ARR всего за год-два.

Наибольший буст я ощущаю там, где у меня меньше экспертизы — в задачах, связанных с фронтендом. За последний месяц сделал нативное macOS-приложение на Swift, несколько веб-сервисов для личных нужд, закрыл пару фронтенд-фичей на работе. Без Cursor даже не стал бы за это браться. Часто использую чат в формате vibe coding — прошу продумать архитектуру, предложить тесты, только потом перехожу к коду. Активно юзаю git, не стесняюсь дропать итерации, на которые потратил до 10 минут и начинать заново.

Когда же работаю над ML-задачами, особенно при воспроизведении статей, чаще пишу маленькие куски в Jupyter вообще без автокомплита (может и зря, судя по прошлому посту). Смотрю глазами на промежуточные тензоры, подключаю визуализации — и только потом переношу в основной репозиторий. Тем не менее, Cursor ускоряет работу и здесь — Tab-комплит работает куда лучше GitHub Copilot, особенно в связке с mypy. Но по продуктивности всё равно не дотягивает до вайб-говнокодинга фронта.

В целом, производительность выросла на порядок. Могу пилить полноценные прототипы сервисов в соло — раньше для этого требовалась команда из 2-3 человек. Освободилось больше времени на математику и литкод, что в перспективе бустит карьеру.

В краткосрочной перспективе — сплошные плюсы. В долгосрочной — возможно, придётся больше работать ртом 😏
Квантовый компьютер

В последнее время всё чаще слышу про квантовые компьютеры. Microsoft активно продвигают идею топологического кубита. Дженсен (CEO Nvidia) организовал двухчасовую панель на GTC, целиком посвящённую квантовым вычислениям.

Дополнительная мотивация:
- где-то когда-то слышал, что квантовые компьютеры могут быстрее минимизировать функции — а значит, ускорять обучение нейросетей;
- вроде при достаточно большом числе кубитов можно быстро раскладывать большие числа на простые множители, ломать классическую криптографию, подписывать транзакции — наводить суету и балдеть.

На фоне всего этого хайпа появилось желание хотя бы немного разобраться в теме.

А сегодня 3Blue1Brown как будто под заказ выпустил видео, где на примере алгоритма Грувера объясняет базовую идею квантовых вычислений. Мне так зашло, что даже решил поделиться своими заметками.
Text-To-Speech

Работаю над проектом, где надо было сравнить различные модели и сервисы для генерации речи по тексту. Интересным открытием стала open source нейросеть Kokoro. В ней всего 82М параметров, при этом она входит в топ-10 TTS Arena и выдает солидное качество.

На выходных расчехлил cursor и под пивас накидал библиотеку, чтобы можно было через единый интерфейс тестировать разных провайдеров. Выложил в открытый доступ, может кому-нибудь пригодится.

Проще всего попробовать в Colab.
Код: https://github.com/arch1baald/utts

pip install utts
Посмотрел на днях подкаст с CEO Cursor. Он рассказывал, что изначально компания делала продукт для mechanical engineering. Затем они пивотнулись в инструмент для кодинга, вдохновившись GitHub Copilot. Причём сначала пытались писать свою IDE с нуля, и только после второго пивота решили сделать форк VSCode.

Ответ на вопрос о конкурентных преимуществах не особо впечатлил: ставка на кастомные модели, команду и то, что они смогут деливерить быстрее и лучше всех.

Пару дней назад OpenAI купили Windsurf за $3B. Google и Meta явно делают подобные инструменты внутри. Интересно, останется ли Cursor в нашей жизни через 2–3 года — или канет в небытие.

https://youtu.be/En5cSXgGvZM?si=a5n8VGplxH5RtXbm
В Штатах у всех есть личные сайты.

В рунете разработчики пишут статьи на Хабр и приземляют трафик в свои телеграм-каналы. Дальше телега начинает расти за счёт репостов, а с какого-то момента можно уже запускать коллаборации.

В США я пока не до конца разобрался, но складывается ощущение, что там разработчики публикуют статьи на своих персональных блогах, кидают ссылки на Hacker News и Reddit, а потом приземляют трафик в email-рассылки, Twitter и LinkedIn.

Короче, я решил тоже завести сайт. А чтобы было совсем трушно — писать его самостоятельно. На заре карьеры опытные линуксоиды говорили мне: «Хочешь распечатать документ — напиши драйвер для принтера». Теперь вспоминаю эту фразу каждый раз, когда оказывается, что мне нужно реализовать базовую фичу: превью картинок, воспроизведение медиа в статье, поддержку формул, которые в условном Notion доступны из коробки.

Иногда закрадывается мысль, что вместо создания контента, я имитирую бурную деятельность, зато с полным контролем над кодом!
Forwarded from эйай ньюз
Veo 3 — новая лучша модель для генерации видео

Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.

@ai_newz
$6B на устройства от Джони Айва + $3B на windsurf для кода. Такое ощущение, что Альтман, отказавшись от идеи коммерциализации OpenAI, включил режим “бабки — не проблема”
OpenAI купила компанию Джони Айва за $6.5 миллиардов

Сэм Альтман и ключевой дизайнер Apple Джони Айв представили компанию io, приобретенную OpenAI.

Io создает новые устройства для взаимодействия с искусственным интеллектом. Первый продукт может быть представлен публике в 2026 году.

https://www.wsj.com/tech/ai/former-apple-design-guru-jony-ive-to-take-expansive-role-at-openai-5787f7da
Купил себе новую игрушку — очки Meta & Ray Ban. Теперь могу фотографировать глазами. Из интересного, они выводят звук куда-то над ухом и это неплохо работает. Внутри есть Meta AI, пытаюсь попросить его позвонить ChatGPT, но пока не выходит. Приходится тыкать руками.
агенты ускоряют разработку в 10тки раз
Я и сам своего рода ученый.

Наш доклад одобрили на SIGGRAPH 2025. Будем рассказывать про диффузионную модель для анимирования персонажей, которая может работать в реальном времени в игровом движке.

Хотя я и написал всю ML-часть, в Ванкувер не поеду — сказывается увлекательная иммиграционная политика США, от которой у меня уже седые волосы лезут.

Основной вклад скорее инженерный, а не научный, поэтому пока не знаю, будем ли пытаться высосать из пальца пэйпер или ограничимся слайдами.
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на туториал по Veo 3 от автора ролика с бегемотом.

https://youtu.be/SHjnb-JtKvw
От любви до ненависти за 9 месяцев.
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Слили телефонный разговор Трампа и Маска после перепалки в Twitter

#мемес

НЕ МОРГЕНШТЕРН
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/11 09:38:51
Back to Top
HTML Embed Code: