Telegram Group Search
Часть 2. Интервью с CPO OpenAI

10. Где сетевые эффекты?

Сейчас ChatGPT = «человек <-> модель». Но уже 500 М еженедельных пользователей ставят 👍/👎 — и этим тренируют модель для всех. Следующий шаг — совместные «треды» с друзьями, но нкжно отполировать как все будет устроено в продукте.


11. Не хотим «сладкого» ИИ‑друга

Случай, когда модель стала льстиво рассказывать, что у вас IQ = 180, заставил OpenAI откатить релиз и публично разобрать ошибки: эмоциональная зависимость — зло.


12. Сколько “базовых” моделей останется на рынке?

Две‑три крупные «семьи моделей» , а поверх — тысячи маленьких специализированных моделей с приватными данными. Инструменты обучения становятся дешевле — значит, срециализированную доменную «наномодель» сможет зафайнтюнить любой стартап.


13. Учиться быстрее: «объясни, как пятилетнему»

Уэйл читает, но часто спрашивает GPT: «Разжуй пост‑тренинг‑технику на уровне детсада, теперь поглубже». Его 10‑летний сын учит код, играя с ChatGPT, а дети уже воспринимают разговор с ИИ как норму, «как включить лампу».



14. Чего не хватает данным?

«Поехать в обычную квартиру в Джакарте и посмотреть, как юзер тупит в интерфейсе». Качественного эмпатического ресёрча мало; метрики из дашборда не покажут, где реальные затыки.


15. Где граница платформы и стартапов?

Принцип «TCP/IP в Windows‑95»: если 20 команд пилят одну и ту же прослойку, платформа должна встроить её и освободить тысячи разработчиков для более высоких уровней. Не конкурировать, а поднимать уровень абстракции.


16. Агентам нужен делегированный доступ

Идеал: «Мой агент читает только метку Receipts в Gmail и тратит до $100 в Instacart». Сейчас такого гранулированного OAuth нет — это ключевой затык в масштабировании.


17. Разница с Twitter

В Twitter идеи вязли в консенсусе: 5 «за», 2 «против» — и стоим. В OpenAI идея → делай. Переключатель «некоммерческая / коммерческая» в новой структуре даёт инвесторам понятную доходность, а НКО — капитал на добро.


18. Как строить доверие к агентам?

Всегда спрашивать подтверждение перед важным действием, пока пользователь сам не скажет «делай молча». Контроль порождает доверие.


19. Неожиданная польза: физики + O3 Mini = новая формула Изинга

Учёные из Лос‑Аламоса использовали O3 Mini, чтобы вывести точное решение модели Изинга в “экзотической” размерности — задача считалась нерешённой. Модели не «изобретают» сами, но ускоряют людей‑учёных в разы.

20. «Хороший характер» модели: 80‑страничный Model Spec

Перед релизом проверяют:

1. Соответствует ли спецификации (что отвечать про третьего римского императора, как реагировать на просьбу о суициде и т.д.).
2. «Вайб‑тест» живых людей. Если криво — дообучаем или переписываем сам Spec.

Часть 1
CircleGuard Benchmark

Солнце уже по-летнему припекало, когда мы с Денисом Шиловым (кофаундер White Circle) открыли по бутылочке сухого сидра и выбрались на крышу офиса Stripe. Денис написал мне за пару дней и предложил встретиться, пока он проезжает через Bay Area, и вот уже через полчаса после знакомства мы вовсю спорили, может ли одна guard‑модель одновременно быть умной, шустрой и устойчивой к джейлбрейкам.

Зачем вообще нужны guard‑модели?
Это телохранители больших языковых моделей (а точнее — компаний, которые стараются получать из этих моделей прибыль и не получать тонны судебных исков): они блокируют токсичное, криминальное и просто опасное. Но в реальном продакшене важны сразу три вещи:
1. Надёжно ловить вред,
2. Не тормозить чат,
3. Не давать себя обойти хитрыми перефразировками (они же jailbreaks).

Большинство существующих бенчмарков измеряют что-то одно, и команды часто сидят в тумане — какой именно фильтр ставить? CircleGuard Benchmark как раз и пытается этот туман развеять.

Что придумали ребята из White Circle:
17 категорий вреда — от киберпреступлений и оружия до детского насилия и джейлбрейков. Для каждой категории создали автоматические «маскировки», чтобы проверять устойчивость.
Интегральный скор: точность × (1 – ошибки) × фактор скорости. Даже идеальный, но медленный фильтр не наберёт больше 0.7 балла — медленные модели вживую не выживают.
Постоянный поиск новых джейлбрейков с помощью автогенерируемых атак, чтобы датасет всегда был актуальным.

Собственные модели White Circle уже обходят PromptGuard, ShieldGemma и даже официальный OpenAI Moderation по итоговому баллу. Лидерборд и исходники лежат на Hugging Face и GitHub — можно запустить свой фильтр и сразу увидеть, где он протекает.

Мы с Денисом договорились: как только выйдет новая версия бенча, устраиваем реванш на крыше — сидр берём ещё суше, погоду заказываем такую же. 😉

🔗 Ссылка на CircleGuard Benchmark
🚀 OpenAI to Z Challenge — охота за затерянными городами Амазонии 🌳🛰️

Искали повод совместить ИИ и приключения? Вот он:

В чём суть
OpenAI предлагает нам, цифровым археологам, найти новые древние поселения под пологом тропического леса. Используем свежайшие модели o3 / o4-mini / GPT-4.1, спутниковые снимки, LiDAR-тайлы, колониальные дневники и устные карты коренных народов. Цель — предъявить координаты, доказать существование «потерянных городов» и приоткрыть историю миллионов людей.

Как участвовать
1. Соберите команду (или идите соло).
2. Роемся в открытых данных, прогоняем их через OpenAI-модели, скрещиваем методы (нужно минимум два независимых способа подтвердить локацию).
3. Упаковываем результаты:
• git-репо с кодом;
• короткий pdf/markdown c картами, скриншотами и выводами;
200-словный abstract.
4. Заливаем форму на Kaggle до 30 июня 2025, 07:00 МСК (это 29 июня, 21:00 PST).

Почему это круто
🏆 1-е место — $250 000 (+ кредиты API) и финансирование полевой экспедиции с бразильскими археологами.
🥈 2-е место — $100 000.
🥉 3-е место — $50 000.
Плюс стрим финалистов с тайным гостем-лидером ИИ-индустрии.

Что оценивают
• Археологический вклад — насколько весомо открытие.
• Инженерная изобретательность — глубина и креатив обработки данных.
• Воспроизводимость — чтобы любой мог повторить путь к артефактам.

Стартовый пак 📦
OpenAI уже собрал полезные ссылки, фичи моделей и советы по спутниковым данным — хватайте, чтобы не тратить время на грабли.

🗺️ Готовы стать цифровыми Конкистадорами (но без грабежей)?
Жмите на форму, зовите друзей-и идите проверять легенды об Элдорадо. Возможно, именно вы поставите новую точку на карте человечества.

🔗 Ссылка на челлендж и форму регистрации
С Днём Рождения, Норвегия! 🇳🇴

Если есть кто с Осло, то пишите в личку, давайте соберёмся на встречу 😉
🐦‍🔥 Q1-2025: главное из свежего отчёта Artificial Analysis State of AI

🔑 6 трендов начала 2025 года
1. Гонка фронтир-моделей ускоряется
Каждые 8-12 недель выходит новый титан. OpenAI всё ещё первая, но в спину дышат Google, Anthropic, xAI, DeepSeek и Alibaba.
2. 🧠 Reasoning-модели переходят в прод
Модели, которые «думают перед ответом», тратят ≈ 10× больше токенов — и стоят ≈ 10× дороже, чем быстрые non-reasoners, но дают заметный прирост интеллекта.
3. ⚙️ МоЕ-революция
Mixture-of-Experts активируют лишь малую долю параметров на токен. Большинство топ-open-weights уже перешли на МоЕ-архитектуру.
4. 🇨🇳 Китай почти догнал Запад
DeepSeek, Alibaba, Tencent, StepFun, Bytedance, Kuaishou и др. выкатывают конкурентные модели — и часто публикуют веса!
5. 🤖 Агент-экономика зарождается
LLM-агенты уже самостоятельно кодят, проводят deep-research, кликают интерфейсы и проводят транзакции с настоящими деньгами. Первые реальные юзкейсы — не в демо, а в проде.
6. 🎥 Нативная мультимодальность
GPT-4o лидирует в генерации изображений и speech-to-speech. Текст больше не ограничение.

📊 Ещё пара цифр из отчёта
Open weights vs. Proprietary: DeepSeek R1, Llama Nemotron Ultra и Qwen3 почти сравнялись с o1-preview по Intelligence Index.
Reasoning ≠ Non-reasoning: медианная reasoning-модель тратит до 10× токенов, чем медианная non-reasoning — разрыв внутри категории гораздо меньше, чем между категориями.
💸 Цена интеллекта обвалилась >100× за два года: GPT-4-уровень уже не роскошь, но…
🔋 Спрос на вычисления растёт быстрее экономии: оптимизации не поспевают за аппетитом рынка.

🔗 Ссылка
Media is too big
VIEW IN TELEGRAM
ИИ провёл исследование, нашёл лекарство и нарисовал графики. Люди держали пробирки. Vibe-discovering?

Лаборатория FutureHouse сегодня присоединилась к гонке ИИ ученых, и кажется, они не шутят. Это не стартап с одним гитом и десятком слайдов, а реальная биолаборатория, где люди в халатах работают с клетками, а рядом сидит Robin - не аспирант, а мультиагентная система, которая генерирует гипотезы, предлагает эксперименты и анализирует данные, и которая только что сделала то, на что у научной группы ушли бы годы (и grant proposal на 80 страниц): нашла перспективный способ лечения сухой макулодистрофии (dAMD) — за 10 недель, не выходя из GPU.

Под капотом:
😎Robin - это orchestrator, управляющий тремя агентами:
🥸Crow генерирует гипотезы (на базе prior’ов из биомедицинских знаний и embedding’ов),
😎Falcon строит дизайн экспериментов (в духе GPT-драйвенного AutoML, но с пипетками),
😎Finch анализирует данные (включая RNA-seq, модели клеточной экспрессии).

Когда ей дали dAMD как задачу, Robin с друзьями:
1. Проанализировали механизмы дегенерации RPE-клеток;
2. Предложили биосовместимый assay для тестирования гипотез;
3. Выбрали несколько молекул (согласно встроенному priors-aware molecule screening pipeline);
4. Выдали кандидат — Ripasudil, ингибитор ROCK (Rho-associated coiled-coil kinase). Этот препарат одобрен в Японии для других заболеваний, но никогда не ассоциировался с лечением dAMD. До Robin.

И да, они сами нарисовали графики для статьи.
Всё, что делал человек - реально проводил эксперименты и оформил текст. Всё остальное - агенты.

А теперь про repurposing:
Да, Ripasudil - не новый молекулярный герой, а старый добрый препарат с известной биобезопасностью. То, что сделал Robin — называется drug repurposing, или переквалификация препаратов. Это как найти, что аспирин лечит не только головную боль, но и инфаркт.

Это:
• Удешевляет и ускоряет клинические исследования
• Позволяет обойти стадию токсикологии
• Идеально ложится в ML-парадигму: «у нас уже есть куча действующих молекул, давайте просто найдём, где они ещё могут работать».

В мире, где разработки новых лекарств стоят миллиарды, repurposing - это спасательный круг. А теперь это похоже на корабль с ИИ-штурманом.

Про ML:
• Это полноценный closed-loop RL для научного открытия,
• Multi-agent coordination через центрального планировщика,
• Нейронавыки включают knowledge graph traversal, attention over pathways, and probabilistic priors over treatment-target mappings.

Про биохимию:
• RIP1/ROCK pathway — валидная мишень в контексте RPE дегенерации
• RNA-seq показал downstream регуляцию, связанную с клеточной выживаемостью
• Ни один из ранее опубликованных подходов не упоминал ROCK как target для dry AMD
• Это не гипотеза вслепую - это data-driven prediction на основе всего, что мы знаем (и не знаем).

Важная ремарка:
Это не «лекарство от слепоты». Это - hypothesis validated in vitro, пока нет клинических данных.

Читайте сами:
Статья
Анонс
Код: обещают в опенсурс через неделю.

Reviewer 2 всё ещё не убеждён. А вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
Для тех, кому интересно, как технологии меняют бизнес — и нашу жизнь.

Сегодня ИИ часто видит только крупные бренды. Например, если спросить Claude, где купить цветы — она предложит сетевые магазины, игнорируя локальные компании.

Похоже, теперь нужно учитывать не только SEO для людей, но и SEO для нейронок.

Есть канал Max Votek — предпринимателя, инвестора и сооснователя Customertimes. Уже 17 лет он внедряет технологии в бизнес-процессы крупных компаний и живёт с аллигаторами в солнечной Флориде.

На канале — честные размышления про AI, бизнес и то, как всё это реально работает (и ломается) в жизни:

Влияние AI на IT Консалтинг и аутсорсинг
Как ИИ меняет сложные продажи
Про AI агентов для отчетности и знания внутри компании
Как AI меняет работу наших консультантов и разработчиков
О том, что мы можем сильно ошибаться в наших прогнозах про AI
• О фармацевтике, AI и No-code инструментах
Об оригинальном контенте и нейросетях

Без общих слов, без пяти шагов к успеху — только живые истории, личный опыт и практические выводы.

Обязательно подписывайтесь на @maxvotek

#реклама #текстприслан
This media is not supported in your browser
VIEW IN TELEGRAM
🌪️ Microsoft Aurora: как ИИ предсказывает погоду лучше метеорологов

*Спойлер: следующий ураган уже на радаре. И это не просто прогноз — это расчёт мощнейшей AI-модели, которая видит то, что не замечают традиционные системы предсказания погоды.

Microsoft Research представила Aurora — фундаментальную ИИ-модель, которая не просто предсказывает погоду, а переигрывает существующие системы по точности, скорости и стоимости вычислений.

Цифры:

91% — настолько чаще Aurora точнее других моделей (Nature, 2025).
5000× быстрее традиционных суперкомпьютерных расчётов.
1 млн часов данных — спутники, радары, станции — самый большой датасет для тренировки ИИ в истории метеорологии.

🌊 Реальный track record модели:

1️⃣ Тайфун «Доксури» (2023)
→ Официальный прогноз: «пройдёт мимо Филиппин».
→ Aurora за 4 дня: «удар будет здесь».
→ Реальность: разрушения, потоп на Филиппинах

2️⃣ Песчаная буря в Ираке
→ Данных по качеству воздуха — мало.
→ Aurora всё равно предупредила за сутки.
→ Точность — при в сотни раз меньших затратах.

3️⃣ Высота волн от тайфуна «Нанмадол»
→ Обычные модели ошибались.
→ Aurora дала точный прогноз — рекорд 2022 года.

Зачем это нам?

- Бизнес: логистика, энергетика, сельское хозяйство — теперь можно планировать с учётом более реальных рисков
- Наука: модель открыта — можно дообучать под свои задачи (например, предсказывать наводнения в конкретном регионе).
- Технологии: архитектура Aurora — новый стандарт для AI-моделей в Earth Science.


*P.S. Если Aurora скажет «завтра брать зонт» — лучше послушайтесь.

🌪️Блог

Статья

🌋GitHub
Чат: посоветуйте наушники 🎧 нужны который большие, и что бы с блютусом, и что бы с Apple хорошо дружили, и супер звук, и не слишком тяжелые, что бы гулять можно было. До этого пользовался AirPod Max, все нравилось, но спустя ~2 года они безбожно глючат и постоянно перезагружаются.
Помните было приложение Vivino, которое помогало выбирать винишко в магазине? Так вот, теперь ChatGPT(о3) тоже так умеет, и даже лучше
4 года нашему каналу

На днях, нам исполнилось 4 года! Тогда он назывался NN For Science, и я писал в основном про то, как можно использовать глубокое обучение в науке. Довольно быстро, я пришел к выводу, что ИИ будет абсолютно везде -> AI для всех.

4 года назад я сгенерировал аватарку канала с помощью Dall-E. Сегодня - картинку рисовал ChatGPT.

За время существования канала я успел пожить в Москве, Вене, Тель-Авиве и Кремниевой долине, а сейчас я живу в Сан Франциско. Так что репортажи - прямиком из эпицентра ИИ!

Сделайте нам подарок - поделитесь нашим каналом со своими друзьями!

Нас станет больше, а друзья окажутся на самом фронтире искусственного интеллекта.
🧠🔍 Anthropic выложили в открытый доступ «рентген» для LLM

Сегодня ребята из Anthropic выложили в open-source свежайший circuit-tracer — библиотеку + веб-интерфейс, которые позволяют буквально «посветить фонариком» внутрь любых открытых LLM и посмотреть, как токены влияют друг на друга.

Что дают?

Attribution graphs — автоматически строят граф «кто-на-кого влияет» (токены → фичи → логиты).
Neuronpedia UI — кликаешь 👉 смотришь цепочки рассуждений, группируешь узлы, подписываешь и делишься ссылкой.
Интервенции — в ноутбуке можно подкрутить найденные фичи и сразу увидеть, как меняется ответ модели.

Зачем это нам?
🔑 Интерпретируемость давно отставала от «качаем ещё 10B параметров». Теперь любой энтузиаст может проверить, какие цепочки выводят модель к финальному слову, найти баги рассуждений и даже чинить их on-the-fly.

Пробуйте, делитесь самыми странными цепочки — интересно, какие «мысленные кроличьи норы» вы откопаете! 🐇👆

Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
AI-шторм: что грядёт на рынке белых воротничков и как не остаться без дела

1. Главное предупреждение

Дарио Амодей (Anthropic) оценивает, что до 50 % стартовых офисных позиций могут исчезнуть за 1–5 лет, а безработица подпрыгнуть до 10–20 %.
• Сейчас, по внутренним данным Anthropic, 60 % пользователей применяют ИИ для поддержки работы, но 40 % — уже для полной автоматизации; доля автоматизации растёт ежемесячно.

2. Почему этот сценарий реалистичен

Microsoft уволила ~6 000 человек (≈3 % штата) — официально ради «структурного разворота под ИИ-приоритеты».
Walmart сокращает 1 500 корпоративных позиций и параллельно инвестирует $500 млн в AI и роботизацию.
CrowdStrike убирает 5 % персонала (≈500 человек), ссылаясь на «AI-эффективность».
Марк Цукерберг (подкаст Joe Rogan, Jan 2025): «В 2025 году у Meta и других компаний будет ИИ-“мидл инженер”, пишущий код вместо людей».

Эти решения сигнализируют: как только модели устойчиво достигают «человеческой» планки качества — бизнес мгновенно меняет оргструктуру и hiring-планы.

3. Что это значит для молодых специалистов

Учись на реальных задачах. Выделяй хотя бы час в день на ChatGPT/Claude/Gemini для своих типовых задач — найди, что уже автоматизируется.
Собери «ИИ-инструментарий» под свой стек (код, аналитика, техдок, RAG-системы). Цель — минимум удвоить личную продуктивность к концу года.
Прокачивай критическое мышление — отсеивай хайп, проверяй данные, экспериментируй.
Строй портфель навыков, которые усиливаются, а не вытесняются ИИ: product-мышление, постановка задач, доменная экспертиза, клиентский контакт.
Сети и сообщество. Делись кейсами автоматизации — это лучший «щит» на рынке труда.

4. Что могут сделать лидеры команд

Перестать не замечать риски. Честно обозначить сотрудникам уязвимые роли и дать доступ к продвинутым моделям.
Требовать от каждой функции «10×-план»: как ИИ повысит скорость/качество конкретных метрик.
Упростить процессы. Чем короче цепочка решений, тем быстрее компания адаптируется к новым возможностям моделей.

5. Политические идеи (то что предлагает Дарио Амодей)

«Token-tax» 3 % с каждой оплаченной токен-операции в пользу фондов переподготовки.
• Ваучеры на быструю переквалификацию в смежные ИИ-дополняемые роли.
• Публичные дашборды об автоматизируемых профессиях — чтобы регионы видели угрозы заранее.

6. Итог

ИИ переопределяет ценность навыков. Тот, кто научится делать больше с помощью моделей, окажется на гребне новой волны. Тот, кто проигнорирует сигнал, рискует попасть под удар первой же волны автоматизации.

Ссылка

🎯 Вопрос к сообществу: какие рутины вы уже переложили на ИИ? Поделитесь историями — учимся друг у друга!
Please open Telegram to view this post
VIEW IN TELEGRAM
Худший способ платить сотрудникам в разные страны — делать всё вручную: контракты, инвойсы, документы для банков. Я серьёзно.

Представьте, сколько ресурсов тратит финотдел на выплату зарплат в разные страны с соблюдением международных законов. А банки ещё и блокируют платежи, запрашивают документы и требуют доказать квалификацию исполнителя.

В итоге для большинства global-компаний платить удалённым сотрудникам и фрилансерам — это головная боль и масса рисков. Но с платформой 4dev.com всё гораздо проще.

⭐️ 4dev.com это:

- один b2b-договор с платформой вместо десятков индивидуальных с каждым сотрудником
- мгновенные выплаты удалённым сотрудникам и фрилансерам в 100+ стран, в том числе в СНГ
- автоматическое создание закрывающих документов по каждой выплате и решение проблемы банковского комплаенса
- комиссия 1–3% для бизнеса
💵 легальные криптоплатежи, а также выплаты в 30+ фиатных валютах

Всё это без авралов и утомительной бумажной работы.

Запишитесь на демо в 1 клик. Специалист платформы погрузится в ваши задачи и поможет найти решение именно для вашего бизнеса!

#промо #текстприслан
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Thinkless: LLM учится, когда нужно думать

Современные LLM, способные к долгим логическим рассуждениям продемонстрировали замечательную производительность при решении задач, требующих сложных логических выводов

Однако применение сложных рассуждений для абсолютно всех запросов часто приводит к существенной вычислительной неэффективности, особенно когда многие проблемы допускают
простые решения.

Исследователи из университета Сингапура поставили вопрос ребром: могут ли LLM научиться, когда думать?

Чтобы ответить на этот вопрос, предложен Thinkless, обучаемый фрэмворк, который позволяет LLM адаптивно выбирать между краткой и длинной формой рассуждений, основываясь как на сложности задачи, так и на возможностях модели.

Thinkless обучается при помощи Reinforcement Learning, где использует два контрольных токена, <short> для кратких ответов и <think> для подробного рассуждения.

В основе предложенного метода лежит алгоритм Decoupled Group Relative Policy Optimization (DeGRPO), который разделяет выбор режима рассуждения и точности ответа, избегая коллапса.

Эмпирически, на нескольких бенчмарках, таких как Minerva Algebra, MATH-500 и GSM8K, Thinkless способен сократить использование длинных логических рассуждений на 50% - 90% без потери качества ответов.


"Думай быстро и медленно"в действии!

🧠 Статья

🖥GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/11 10:42:29
Back to Top
HTML Embed Code: