savostyanov_dmitry Telegram Group

Дмитрий Савостьянов Вещает

Неделю искал баг

Работаю над нейросетью, которая сможет генерировать анимации в реальном времени в игровом движке в разных стилях.

Обучаю, запускаю, вижу jitter — дрожание в суставах. Персонаж в общих чертах выполняет анимацию, но все суставы дрожат, root дергается, выглядит сомнительно.

Под капотом диффузия, которая генерирует движения из шума. Сначала уповал на нее, перечитал статьи вдоль и поперек, от руки сделал все выкладки, написал тесты, вроде все работает.

Далее крутил loss, прикрутил jerk — 3-ю производную по времени. Улучшений нет.

Зашел с другой стороны, накинул аугментаций в DataLoader со сглаживанием траектории root и вращений. Оверфитил на одном сэмпле, учил на датасетах разных размеров, ничего не помогает.

В конечном счете решил, что да и хуй с ним, потом вернусь к проблеме. Экспортнул в ONNX, прогоняю тестовый инференс, работает идеально, никакого jitter.

Угадайте в чем была ошибка…

556 views16:03

Дмитрий Савостьянов Вещает

Про Cursor и Vibe Coding

Сейчас среди разработчиков царят те же настроения, что два года назад охватили художников после выхода Stable Diffusion.

Есть два лагеря: одни отрицают и плюются, другие активно используют AI. Я определённо во втором лагере и в восторге от прогресса, но без нюансов не обошлось.

Cursor — это форк VSCode, где разработчики основательно поработали над качеством автодополнения (tab) и встроили чат, который отлично работает с кодом. К слову, это самый быстрорастущий стартап в истории — что-то около $200M ARR всего за год-два.

Наибольший буст я ощущаю там, где у меня меньше экспертизы — в задачах, связанных с фронтендом. За последний месяц сделал нативное macOS-приложение на Swift, несколько веб-сервисов для личных нужд, закрыл пару фронтенд-фичей на работе. Без Cursor даже не стал бы за это браться. Часто использую чат в формате vibe coding — прошу продумать архитектуру, предложить тесты, только потом перехожу к коду. Активно юзаю git, не стесняюсь дропать итерации, на которые потратил до 10 минут и начинать заново.

Когда же работаю над ML-задачами, особенно при воспроизведении статей, чаще пишу маленькие куски в Jupyter вообще без автокомплита (может и зря, судя по прошлому посту). Смотрю глазами на промежуточные тензоры, подключаю визуализации — и только потом переношу в основной репозиторий. Тем не менее, Cursor ускоряет работу и здесь — Tab-комплит работает куда лучше GitHub Copilot, особенно в связке с mypy. Но по продуктивности всё равно не дотягивает до вайб-говнокодинга фронта.

В целом, производительность выросла на порядок. Могу пилить полноценные прототипы сервисов в соло — раньше для этого требовалась команда из 2-3 человек. Освободилось больше времени на математику и литкод, что в перспективе бустит карьеру.

В краткосрочной перспективе — сплошные плюсы. В долгосрочной — возможно, придётся больше работать ртом 😏

584 views15:47

Дмитрий Савостьянов Вещает

Квантовый компьютер

В последнее время всё чаще слышу про квантовые компьютеры. Microsoft активно продвигают идею топологического кубита. Дженсен (CEO Nvidia) организовал двухчасовую панель на GTC, целиком посвящённую квантовым вычислениям.

Дополнительная мотивация:
- где-то когда-то слышал, что квантовые компьютеры могут быстрее минимизировать функции — а значит, ускорять обучение нейросетей;
- вроде при достаточно большом числе кубитов можно быстро раскладывать большие числа на простые множители, ломать классическую криптографию, подписывать транзакции — наводить суету и балдеть.

На фоне всего этого хайпа появилось желание хотя бы немного разобраться в теме.

А сегодня 3Blue1Brown как будто под заказ выпустил видео, где на примере алгоритма Грувера объясняет базовую идею квантовых вычислений. Мне так зашло, что даже решил поделиться своими заметками.

YouTube

But what is quantum computing? (Grover's Algorithm)

Qubits, state vectors, and Grover's algorithm for search.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.

The subtitles on this video were done…

641 views19:28

Дмитрий Савостьянов Вещает

Text-To-Speech

Работаю над проектом, где надо было сравнить различные модели и сервисы для генерации речи по тексту. Интересным открытием стала open source нейросеть Kokoro. В ней всего 82М параметров, при этом она входит в топ-10 TTS Arena и выдает солидное качество.

На выходных расчехлил cursor и под пивас накидал библиотеку, чтобы можно было через единый интерфейс тестировать разных провайдеров. Выложил в открытый доступ, может кому-нибудь пригодится.

Проще всего попробовать в Colab.
Код: https://github.com/arch1baald/utts

pip install utts

656 views15:31

Дмитрий Савостьянов Вещает

Посмотрел на днях подкаст с CEO Cursor. Он рассказывал, что изначально компания делала продукт для mechanical engineering. Затем они пивотнулись в инструмент для кодинга, вдохновившись GitHub Copilot. Причём сначала пытались писать свою IDE с нуля, и только после второго пивота решили сделать форк VSCode.

Ответ на вопрос о конкурентных преимуществах не особо впечатлил: ставка на кастомные модели, команду и то, что они смогут деливерить быстрее и лучше всех.

Пару дней назад OpenAI купили Windsurf за $3B. Google и Meta явно делают подобные инструменты внутри. Интересно, останется ли Cursor в нашей жизни через 2–3 года — или канет в небытие.

https://youtu.be/En5cSXgGvZM?si=a5n8VGplxH5RtXbm

639 views05:03

Дмитрий Савостьянов Вещает

В Штатах у всех есть личные сайты.

В рунете разработчики пишут статьи на Хабр и приземляют трафик в свои телеграм-каналы. Дальше телега начинает расти за счёт репостов, а с какого-то момента можно уже запускать коллаборации.

В США я пока не до конца разобрался, но складывается ощущение, что там разработчики публикуют статьи на своих персональных блогах, кидают ссылки на Hacker News и Reddit, а потом приземляют трафик в email-рассылки, Twitter и LinkedIn.

Короче, я решил тоже завести сайт. А чтобы было совсем трушно — писать его самостоятельно. На заре карьеры опытные линуксоиды говорили мне: «Хочешь распечатать документ — напиши драйвер для принтера». Теперь вспоминаю эту фразу каждый раз, когда оказывается, что мне нужно реализовать базовую фичу: превью картинок, воспроизведение медиа в статье, поддержку формул, которые в условном Notion доступны из коробки.

Иногда закрадывается мысль, что вместо создания контента, я имитирую бурную деятельность, зато с полным контролем над кодом!

446 views10:13

Дмитрий Савостьянов Вещает

Forwarded from эйай ньюз

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Veo 3 — новая лучша модель для генерации видео

Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.

@ai_newz

397 views04:06

Дмитрий Савостьянов Вещает

$6B на устройства от Джони Айва + $3B на windsurf для кода. Такое ощущение, что Альтман, отказавшись от идеи коммерциализации OpenAI, включил режим “бабки — не проблема”

381 views07:34

Дмитрий Савостьянов Вещает

Forwarded from GPT/ChatGPT/AI Central Александра Горного

OpenAI купила компанию Джони Айва за $6.5 миллиардов

Сэм Альтман и ключевой дизайнер Apple Джони Айв представили компанию io, приобретенную OpenAI.

Io создает новые устройства для взаимодействия с искусственным интеллектом. Первый продукт может быть представлен публике в 2026 году.

https://www.wsj.com/tech/ai/former-apple-design-guru-jony-ive-to-take-expansive-role-at-openai-5787f7da

418 views07:35

Дмитрий Савостьянов Вещает

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Купил себе новую игрушку — очки Meta & Ray Ban. Теперь могу фотографировать глазами. Из интересного, они выводят звук куда-то над ухом и это неплохо работает. Внутри есть Meta AI, пытаюсь попросить его позвонить ChatGPT, но пока не выходит. Приходится тыкать руками.

435 views20:56

Дмитрий Савостьянов Вещает

Forwarded from Love. Death. Transformers.

агенты ускоряют разработку в 10тки раз

374 views15:22

Дмитрий Савостьянов Вещает

Я и сам своего рода ученый.

Наш доклад одобрили на SIGGRAPH 2025. Будем рассказывать про диффузионную модель для анимирования персонажей, которая может работать в реальном времени в игровом движке.

Хотя я и написал всю ML-часть, в Ванкувер не поеду — сказывается увлекательная иммиграционная политика США, от которой у меня уже седые волосы лезут.

Основной вклад скорее инженерный, а не научный, поэтому пока не знаю, будем ли пытаться высосать из пальца пэйпер или ограничимся слайдами.

414 views07:02

Дмитрий Савостьянов Вещает

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

Наткнулся на туториал по Veo 3 от автора ролика с бегемотом.

https://youtu.be/SHjnb-JtKvw

292 views16:45

Дмитрий Савостьянов Вещает

От любви до ненависти за 9 месяцев.

235 views00:27

Дмитрий Савостьянов Вещает

Forwarded from НЕ МОРГЕНШТЕРН

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Слили телефонный разговор Трампа и Маска после перепалки в Twitter

#мемес

❌

НЕ МОРГЕНШТЕРН

Please open Telegram to view this post

VIEW IN TELEGRAM

233 views00:27

2025/06/11 09:38:51
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>