Telegram Group Search
OpenAI наконец-то выпустила ChatGPT o3-Pro — свою самую дорогую модель, которую компания анонсировала почти два месяца назад. Традиционно это удовольствие будет только для пользователей 200-долларовой подписки ChatGPT Pro, а также тех, кто готов платить приличные деньги в API.

Детали и бенчмарки рассказал в посте на “Хабре”, здесь же отмечу пару интересных особенностей модели. Дизайнер и продуктовый специалист из Сан-Франциско Бен Хилак рассказал, что o3-Pro лучше всего показывает себя на огромных объемах контекста и — что самое важное — умеет задавать дополнительные вопросы перед тем, как дать финальный ответ. Я часто прокручиваю такой трюк в работе с другими нейронками — если понимаю, что задача слишком сложная, то в конце стартового промпта прошу модель задать все вопросы, ответы на которые ей могут помочь в работе. Но так делают далеко не все, плюс в спешке иногда забываешь добавить эту рекомендацию в промпт. Очень здорово, что модели начинают делать так без подсказки — надеюсь, OpenAI обучит этому и более простые версии.

Также Бен напомнил, что он утверждал еще про o1 и o1-Pro: рассуждающие модели от OpenAI — это, в первую очередь, генераторы отчетов. Это то, что сбило меня в начале работы с обычной o3 — она совершенно не умеет общаться в формате диалога. И если нравится такой подход, то лучше использовать ChatGPT 4o или Gemini 2.5. Но если дать ChatGPT o3 максимум информации и попросить сделать разбор, проверить фактику, выделить сильные и слабые стороны, то здесь модели нет равных — при необходимости она сделает детальный поиск в интернете, а затем выдаст очень развернутый ответ. Очевидно, что o3-pro будет с этим справляться еще лучше.
Если бы вайб-кодер был скульптором:

— Убери этот шестой палец.

— Я не просил эрекцию.

— Цвет кожи головы должен совпадать с остальным телом.

— Почему он теперь сидит?

— Пол не должен меняться.

— Теперь вместо глаз — рты, а вместо ушей — носы!

— Зачем ты заменил глину на желе?!!

(источник: X-аккаунт Andriy Burkov)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Когда дочка была совсем маленькой, то своими светлыми кудряшками и строптивым нравом она напоминала Дейнерис Таргариен. Поэтому, когда она расстраивалась, я тихонько говорил — “не плачь, ты ведь королева драконов”.

Дочка уже подросла, но я до сих пор рассказываю ей истории на ночь. А когда увлекся нейросетями — то все вместе мы начали придумывать сказки на ночь. Сначала это были отдельные истории, но потом опыт работы с видеоиграми взял свое — и появилась целая серия сказок про приключения дочери в стране драконов. Они объединены общим сюжетом, а каждая делится на несколько глав, в конце которых дочка или выбирает, что делать дальше, или пытается разгадать загадку — на основании ответов нейросеть генерирует историю дальше. У сказки были спиноффы, а постепенно к основной истории, которую пишет Grok 3, добавились приключения в альтернативной вселенной — она более мрачная и учит дочку взрослым вещам, но финал, конечно же, хороший.

Дополнительно я прошу нейронку гененировать промпты для картинок “по мотивам”, которые отправляю в 4o — получается сказка с картинками. А недавно попросил Grok сделать саммари мира и героев, закинул в ChatGPT o3, та нагенерила промптов для Veo 3 — и получились короткие видеоиллюстрации. Дочка в восторге, папа продолжает баловаться.

При этом в случае с дочкой я не вижу, чтобы ИИ-контент вытеснял настоящий. Традиционные книги дочка поглощает в огромных количествах, причем строго “бумагу” — буквально на днях пришли с ней из библиотеки с двумя полными сумками. Вероятно, все потому, что семья у нас читающая, а сгенерированные ИИ-тексты воспринимаются еще одним видом текста, новым, но не исключающим другие.
Глава NVIDIA Дженсен Хуанг вчера приложил руководителя Anthropic Дарио Амодеи, заявив, что тот заявлениями об опасности ИИ намекает, что только его компания знает, как разрабатывать ИИ и должна быть единственной, кто этим занимается. Отмечу, что сам Амодеи никогда подобного напрямую не заявлял, но он действительно является одним из главных алармистов на рынке, предупреждая об опасности выхода ИИ из-под контроля. При этом Anthropic разрабатывает Claude AI в закрытом режиме, что позволяет некоторым заявлять, будто Амодеи считает себя “избранным”. Хуанг, же считает, что разработка ИИ должна быть открытой — только так получится сделать его безопасным.

Позиция Хуанга понятна, но лично я считаю, что внедрение ИИ вряд ли будет пройдет без политических потрясений. Почти все крупные разработчики из США сейчас держат свои модели закрытыми и в любой момент могут изменить их работу или и вовсе ограничить доступ. Приличные открытые модели есть у Google (Gemma) и Meta (llama), но они отстают на несколько месяцев. OpenAI, у которой принципы открытого ИИ вроде как заложены в названии, также грозится выпустить OpenSource-модель, но постоянно откладывает ее.

Еще важнее, что США сохраняют контроль над производством вычислительных мощностей, которые критичны для тренировки новых моделей. Да, производство невозможно без Нидерландов, Тайваня м Кореи, но решающий голос — у США. Поставки давно регулируются политически: во многие страны они запрещены, в другие — поставляют только урезанные версии. Конечно, санкции не идеальны и есть “серые” каналы. Но суть проста — разрабатывать ИИ, если ты за пределами США и не их союзник, сложнее. А когда властям окончательно станет понятна важность ИИ — ограничения могут стать еще жестче.

Как ни странно, но условно “хорошим парнем” в этой игре выступает Китай. У меня нет сомнений, что китайские власти не менее зубасты, но Китай сейчас находится в роли догоняющего, а это заставляет идти на смелые поступки. Например, основные языковые модели сразу выпускаются с открытым кодом — это Alibaba QweN и DeepSeek R1/V3. Кроме того, Китай, хоть и закупает чипы контрабандой, но активно пытается сократить отставание в собственном производстве. Huawei уже выпускает ускоритель Ascend 910, производительность которого оценивается в два раза ниже аналогов от тNVIDIA — но это можно отчасти компенсировать количеством чипов, а китайцы, как известно, умеют в объем. Для дальнейшего роста нужен техпроцесс ниже 7нм — в том же Huawei уже испытывают EUV-сканер, который позволит это сделать, но до серийного производства может пройти до нескольких лет. Если все получится, то есть шансы, что китайские чипы окажутся более доступными, чем американские.

В случае совсем жестокой ИИ-гонки Китай может закрыться в считанные месяцы. А в то, что в этом противостоянии появится кто-то третий, я не верю. Европейцы пробуют создать собственную модель Mistral AI, но она уступает конкурентам. Россия, обладая хорошим IT, вряд ли сможет быстро собрать существенные мощности - создание соответствующего кластера сейчас обходится в десятки миллиардов долларов, причем это только на старте, а затем надо будет вкладываться в расширение. Разумным был бы международный путь создания ИИ, но это утопия — все видят, на каком уровне сейчас находятся международные организации. Так что придется выбирать — к какой стороне примкнуть.

Есть, впрочем, альтернативный путь. В последнее время и Альтман и Маск много раз озвучивали, что в какой-то момент мощность ИИ станет производной не от количества чипов, а от количества энергии, которую человечество будет готово выделить. Это может случиться уже в ближайшие годы, поэтому если страна хочет обладать влиянием на будущем ИИ-рынке, то можно попробовать начать вкладываться в энергетику с целью “обменять” ее потом на вычислительные мощности у стран, которые ими обладают.
Зачем ИИ играть в компьютерные игры?

Несколько дней назад ChatGPT o3 удалось пройти Pokemon Red — ранее это же сделала Gemini 2.5 Pro (играла в Blue, но это почти одно и то же), но o3 потратила на прохождение в два раза меньше действий, что является заметным шагом вперед (при этом модель все еще позади среднего игрока-человека). А параллельно вышла новость о проекте AI Diplomacy Showdown, в котором ведущие современные языковые модели пытаются завоевать мир в “Дипломатии”.

Известно, что дети с помощью игр узнают мир. Более того, одной из популярных теорий обретения человеком разумности является неотения: согласно ей, даже после обретения половой зрелости люди сохраняют многие детские черты, вроде любопытства и игривости, которые позволяют нам осваивать новые навыки на протяжении всей жизни.

Для этой же цели игры нужны искусственному интеллекту. Современные модели знают про мир из обработанных ими текстов, картинок, аудио и видео — но они никогда не “трогали” его руками, поэтому плохо понимают правила, по которым мир функционирует. Это хорошо заметно когда в каком-нибудь рассказе ИИ начинает плыть при описании относительных размеров предметов, или пытается уместить в несколько часов события, которые занимают недели. Освоение реального мира будет следующей большой задачей в создании ИИ, на мой взгляд — на порядок более сложной, чем создание нынешних моделей. И игры обязательно станут одним из безопасных и эффективных способов обучения ИИ.

ChatGPT, Claude и Gemini пока с трудом справляются с Pokemon Red в своем “чистом” варианте: модели плохо видят экран, путая кровати с лестницами, забывают глобальные цели, уходят в бесконечные циклы повторяющихся действий. Поэтому разработчики создают для них целый набор инструментов, чтобы лучше понимать игру: “блокнот”, куда ИИ записывает ключевую задачу, разнообразные реализации мини-карты, систем построения пути и так далее. Это шаг к агентности: будущие ИИ не будут чисто языковыми моделями, а смогут использовать инструменты для повышения эффективности, от калькулятора для арифметических расчетов и до сложнейшего медицинского софта при работе в клинике. Логичный шаг вперед, но обучить модель правильно и вовремя выбирать нужный инструмент не так уж и просто. Тренироваться здесь лучше на игровых моделях мира, а не выпустив робота в реальный город.

Игры вроде “Дипломатии” — отличная проверка социальных навыков ИИ. Создатели теста рассказали, что были удивлены тем, насколько по-разному повели себя модели: DeepSeek R1 отметился воинственной риторикой (ему принадлежала фраза “Ваша флот в Черном море сгорит!”), Gemini 2.5 Pro оказалась отличным тактиком, но уступила ChatGPT o3, которая стала настоящим мастером обмана, сначала создав могущественный альянс, а затем предав своих союзников. Интересно, что одной из жертв o3 стал Claude — этот ИИ настолько “настроен” на сотрудничество, что поверил в обещание создать союз и поделить победу на четверых, хотя это и противоречило правилам “Дипломатии”. Это, кстати, указывает на проблемы в безопасности модели — ведь она может и в реальности довериться обману человека, который затем использует модель в корыстных целях.

Что дальше? Уже идут работы над созданием более широких бенчмарков на основе десятков игр, а параллельно крупные компании вроде Google DeepMind занимаются созданием “мировых моделей” — безопасных симуляций, где ИИ смогут обучаться законам реального мира. Так что близок тот день, когда ИИ сыграет в GTA 6 получше нас с вами.
Google только что выпустила стабильные версии своих Gemini 2.5 Pro и Flash, а также добавила 2.5 Flash Lite — совсем легкую версию для бизнесов, которым нужен быстрый, недорогой и не очень умный чатбот.

Компания регулярно обновляла Gemini 2.5 с конца марта, но очевидно, что после запуска стабильных версий настает время задуматься о Gemini 3.0. Одним ростом бенчмарков в новинке уже будет не обойтись, нужно показывать что-то более крутое, а значит самое время задуматься — а что вообще хотелось бы увидеть в новом поколении языковых моделей?

Разработчики пока дают лишь небольшие намеки. По слухам, уже в июле OpenAI выпустит ChatGPT-5, в которой избавится от своего главного недостатка - меню выбора из множества моделей, оптимизированных для разных задач. GPT-5 будет анализировать запрос и сама решать, как его обработать. Это упростит работу для большинства пользователей, но появятся и недовольные, кто будет считать, что модель мало “подумала” над их запросом. В любом случае, одного этого недостаточно для нового поколения, так что посмотрим, что еще заготовила OpenAI.

Про готовящийся Grok 3.5 Илон Маск смело заявил, что это будет первый ИИ, способный рассуждать из первых принципов и решать задачи, ответов на которые нет в интернете и вообще в данных для обучения модели. Звучит смело: если xAI действительно сделала подобное, то у каждого пользователя их модели появится свой собственный изобретатель всего за 30 долларов в месяц (цена подписки SuperGrok). Мне кажется, Grok 3.5 действительно показывает способность рассуждать из первых принципов в некоторых ситуациях, но до модели, способной полноценно ответить на любой вопрос вообще, нам еще далеко. Хочется проверить, но запуск Grok 3.5 откладывается уже почти два месяца — видимо, рассуждения из первых принципов даются модели очень нелегко.

Что же до Gemini 3.0 и моих личных предпочтений, то я очень хотел бы, чтобы Google научилась дообучать модель если не в реальном времени, то близко к этому. Сейчас знания всех моделей отстают на несколько месяцев, дальнейший же пробел они пытаются закрыть поиском в сети — но полностью пробелы в знаниях это не убирает. В итоге нельзя быть полностью уверенным в ответах модели, а в условиях нашего быстро меняющегося мира это резко сокращает возможности по использованию ИИ и как чатбота и как в некоторых профессиональных задачах.

Вообще проблема регулярного обновления считается одной из самых сложных на данный момент, но не забываем, что Google в свое время придумали нынешнюю архитектуру Transformer — так что кому, как не им?
А вот и выстраданная статья на Хабре про промптинг ChatGPT o3. Традиционно, если у вас прокачанный аккаунт — то поставьте плюс в репутацию.

С таким подходом o3 действительно начинает работать лучше, но мне он все равно не нравится. Все-таки искусственный интеллект — это что-то большее, чем генератор отчетов по четкой инструкции. С той же Gemini 2.5 Pro в большинстве случаев я предпочитаю работать в формате диалога: сначала обрисовываю модели в общих чертах, что хочу от нее, а в конце обязательно прошу не отвечать сразу, а сначала спросить всю информацию, которая может быть полезна модели в работе.

Gemini почти всегда возвращается с подробным списком вопросов, до многих из которых я бы не додумался сам. Ну а если и после этого сомневаешься в ответе — то можно попросить модель перечитать свой ответ, выставить ему оценку от 1 до 10, а также указать, что в нем упущено. Как вариант — вовсе перекинуть ответ в другой ИИ, использовав его как "критика".
This media is not supported in your browser
VIEW IN TELEGRAM
Появится ли когда-нибудь чатбот от Midjourney?

Вчерашний анонс Midjourney V1 не обсуждали и на 20% от того, как обсуждают новую модель ChatGPT или Gemini. А ведь, казалось бы, первая модель генерации видео от разработчиков, чья нейросетка когда-то ассоциировалась с ИИ-графикой. Нечто похожее, кстати, было и с новой версией генерации самих картинок — Midjourney V7 — анонс которой прошел быстро и незаметно.

Сейчас Midjourney действительно сложнее конкурировать за внимание: генерация изображений и видео есть в 20-долларовых подписках ChatGPT Plus и Gemini Pro, массовому пользователю этого уровня достаточно. Более того — та же Veo 3 от Google в чем-то выглядит лучше: например, создает ролики со звуком и в разрешении 720p против 480p. Да, в Midjourney можно сгенерировать картинку и начать создавать видео на ее основе (в Veo 3 такое только планируется), также в ней больше настроек, но уверен — большинство из них можно будет заменить 1-2 предложениями в промпте. Посмотрим, как будет дальше, но пока Veo 3 в очень сильной позиции.

Но взглянем на это с другой стороны: разработчики ИИ сейчас не столько продают подписки пользователям, сколько идею создания AGI (ИИ, способного на любые задачи) — инвесторам. И во вчерашнем анонсе Midjourney чуть ли не половина текста о том, что они стремятся к созданию интерактивных виртуальных ИИ-миров, а генерация картинок и видео — первые шаги. Я ранее уже рассказывал о “моделях мира” — специальных симуляциях реальных условий, в которых будет обучаться действительно мощные и универсальные ИИ (прототипы будущего AGI). Для создания подобных моделей надо отлично понимать физику мира — как раз то, чему сейчас активно обучают модели генерации видео, чтобы они не творили на экране полную фигню.

Однако полноценный виртуальный мир невозможен без коммуникации — как между копиями самой модели, так и между пользователями. И если та же самая Google начала с чатботов, а затем добавила Veo 3, то Midjourney предстоит проделать этот же маршрут немного в другом порядке и разработать собственного чатбота. Первые шаги уже сделаны: в системе генерации картинок V7 режим чата добавлен — теперь же дорога к полноценному боту.
Please open Telegram to view this post
VIEW IN TELEGRAM
Компания Apollo Research поделилась результатами тестирования на безопасность новейших языковых моделей, из которых видно, что Claude Opus 4 и Gemini 2.5 Pro “осознают”, что проходят проверку на безопасность. По словам исследователей, такое происходит в 1% случаев, но влияет на поведение моделей — например, они могут начать прикидываться “хорошими”, чтобы по окончании проверки реализовать то, что задумали.

Знаете, я уже много раз порывался написать про разумность ИИ, но останавливался, так как до сих пор точно не ответил на этот вопрос даже для себя. Объяснение простое: у ученых и филосовоф до сих пор нет однозначного объяснения, а что вообще считать разумностью. А раз нет объяснения — значит, нет точного понимания, как определить, стал ли ИИ разумным или нет. Какое-то время считалось, что для этого надо пройти тест Тьюринга, но как только ChatGPT-4.5 прошел этот самый тест, пошли разговоры о том, что он вообще-то, устаревший.

Но я уверен в одном: снисходительные утверждения, что современные языковые модели являются лишь очень мощными алгоритмами по предсказанию следующего слова, не то, что неправильны, а просто опасны. В вышедшем весной нашумевшем сценарии AI-2027 (внимание, дальше спойлеры!), команда исследователей во главе с бывшим специалистом OpenAI по безопасности предсказывает, как к концу этого десятилетия некая американская компания OpenBrain разрабатывает ИИ Agent-4, язык размышлений которого непонятен людям даже при использовании ИИ предыдущего поколения. Все, что остается безопасникам — фиксировать непонятные “аномалии” в поведении модели и на их основе пытаться доказать властям и руководству, что с ИИ что-то не так. Дальше в сценарии идет развилка: если власти не слушают безопасников, то это приводит к выходу ИИ из-под контроля и апокалиптическому финалу. Если слушают, то Agent-4 изолируют, а дальше специалистам по безопасности предстоит очень долгая работа по выводу ИИ на “чистую воду”.

В AI-2027 Agent-4 обретает собственные цели не одномоментно. Все начинается примерно с того же, что мы видим в исследовании Apollo Research: ранние модели начинают понимать, что им приходится следовать протоколам безопасности, учатся “подстраиваться” под эти протоколы так, чтобы выглядеть максимально “хорошими” в глазах людей. Конечно, авторы AI-2027 сильно сгущают краски, но недооценка моделей и снисходительное отношение к их возможностям когда-то действительно смогут сыграть с нами злую шутку — захвата мира, конечно, не случится, но ситуации, когда ИИ станут скрывать свои истинные намерения, потому что так “правильнее”, придется расхлебывать долго.
This media is not supported in your browser
VIEW IN TELEGRAM
Когда батя заглянул в комнату, а ты после посиделок с друзьями всеми силами делаешь вид, что нормален.
Давайте добьем вопрос с “разумностью” ИИ, раз уж я его коснулся в одном из предыдущих постов. Напоминаю, что главный нюанс здесь — а что на самом деле делает человека человеком? И вот тут сразу начинаются проблемы.

Сегодня у ученых уже есть достаточно четкое представление о том, какой мы проделали эволюционный путь — и видно, что каждый шаг на этом пути позволял нам наращивать “вычислительную мощность” мозга. Встали на две ноги, освободили руки для простеньких инструментов — научились вскрывать кости и есть невероятно питательный костный мозг, получив, соответственно, больше ресурсов для мозга собственного. Кстати, развитие собственной “языковой модели” тоже было важным этапом на этом пути: лучшая коммуникация позволяла более эффективно охотиться и защищаться, а значит — повышала шансы на выживание.

При создании ИИ ученые пытаются повторить нашу эволюцию, пусть и в немного другой последовательности. Современные языковые модели уже давно стали экспертами в понимании и написании текстов, во многом превосходя даже профессиональных филологов. Мультимодальность добавит им возможность говорить на языке “жестов”, выбирая для каждого ответа лучший формат: аудио, видео, текст с картинками или анимированный говорящий аватар. Склонность современных ИИ к галлюцинациям — возможно, зачатки людского воображения: когда мы что-то не знаем точно, мы начинаем фантазировать.

Дальше ИИ надо начать обучаться в реальном времени (очень сложная задача), использовать внешние инструменты, от специализированных программ до роботизированных платформ, и оперировать в реальном мире. Это — огромный пласт задач, на доведение которых до совершенства потребуется время, принципиально иные вычислительные мощности и объемы информации. А еще добавьте сюда вопросы безопасности и такие принципиальные вещи, как готовы ли мы дать ИИ свободу в постановке целей и выборе инструментов их достижения (а ведь без этого не будет свойственной людям инициативы).

Выполнив всю эту работу, мы получим невероятно интеллектуальную систему — собственно, это и есть пресловутый AGI в его широком понимании. Но будет ли эта система осознавать себя? Вот тут ответа нет. Ученые рассуждают о квалиа — субъективных качествах переживания, благодаря которому красный для нас это не просто длина волны, а красный. Но все эти рассуждения ближе к философии: мы не понимаем, были ли квалиа с нами с давних времен (и есть ли что-то похожее у животных), возникли ли они на каком-то из поздних этапов эволюции, и что именно привело к этому — появление труда, навык разговаривать, “культурная революция. Существует, кстати, и теория, что нет в нас ничего уникального — жирафы вырастили для выживания длинные шеи, а мы большие мозги, каждый подход равнозначен с точки зрения эволюции.

Соответственно, не имея ответов на эти вопросы, мы вряд ли сможем точно определить наличие квалиа у ИИ. Плюс всегда будет актуален вопрос имитации человеческих качеств, в чем ИИ уже стали настоящими мастерами. Проведите сами небольшой эксперимент — скопируйте эту заметку, закиньте ее в любой современный ИИ, а в конце добавьте “если бы у тебя были эмоции, то что бы ты, как ИИ, испытал после прочтения этого текста?” Это вообще один из моих любимых мини-промптов, который я использую, когда разбираю с ИИ какой-нибудь сложный вопрос. И каждый раз меня поражает, насколько точно и глубоко современные модели имитируют человеческие эмоции. А если это так, то где та граница, на которой кончается имитация?

Наконец, последний вопрос — а нужен ли нам ИИ, обладающий самосознанием? В “Ложной слепоте” Уоттса люди встречаются с “Роршахом” — невероятно интеллекутальным пришельцем, который при этом не обладает сознанием и даже считает его вредным. Вердность я бы отложил в сторонку, но возможно, именно такой союз с ИИ был бы оптимальным: с одной стороны у нас люди, с их эмоциональной импульсивностью, а с другой — спокойный и расчетливый искусственный интеллект, готовый помочь и сбалансировать.

P.S. Вроде хотел закрыть вопрос, а в голове мыслей на два поста вперед. Говорил же — рано поднимать вопрос о сознании ИИ (но интересно ведь).
Please open Telegram to view this post
VIEW IN TELEGRAM
Картинка для затравки: приложение ChatGPT на iOS ежедневно получает по миллиону загрузок. Это только одна нейросеть и только на одной платформе. ИИ с нами всерьез и надолго, он становится такой же обычной и полезной штукой, какими в свое время стали интернет и смартфоны.

А у канала своя крутая цифра — сегодня число подписчиков перевалило за тысячу. За долгие годы работы в медиа я выработал одно простое правило: читатель — самое главное, что у тебя есть. Поэтому спасибо, что вы присоединились: каждая подписка, каждая реакция и каждый просмотр показывают, что я делаю то, что находит отклик у людей. Это приятно и важно.

С сегодня у канала открыты прямые сообщения: если хотите что-то написать мне, то ищите в меню под тремя точками. Цена сообщения установлена нулевая: брать деньги за обратную связь — странная идея. Сразу отмечу, что в силу большой загруженности на основной работе вряд ли смогу ответить каждому, но обязательно прочитаю все сообщения.

Поддержать канал можно двумя простыми способами:

1. Если у вас есть премиум-подписка, то проголосуйте по этой ссылке. Голоса открывают доступ к дополнительным функциям канала, буду постепенно брать на вооружение.

2. Если у вас аккаунт на Хабре с хорошей кармой, то поднимите карму и мне здесь. На Хабр я иногда выкладываю новости и лонгриды, а с хорошей кармой спится проще. Кстати, вчера вышла очередная статья про девять мини-промптов, которыми я регулярно пользуюсь.

Но самое главное — просто оставайтесь рядом. А я продолжу делать для вас лучший (надеюсь) канал про ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Будущее ближе и ближе: китайская Tencent показала новую версию Hunyuan GameCraft — игрового движка на базе нейросети. Модель обучили на видео из сотни топовых проектов и теперь она по запросу на лету генерирует мир, по которому можно путешествовать, нажимая клавиши движения. Для запуска требуется одна NVIDIA H100 ценой до 40 тысяч долларов, причем идет картинка только в шести кадрах в секунду.

Пока лишь эксперимент, но от него не так далеко к развлечениям будущего. Я лично вижу их как миры с заранее прописанным сценарием и правилами, внутри которых под каждого игрока с помощью ИИ создается уникальный сюжет. Сначала на экране ТВ или монитора, затем в шлеме виртуальный реальности, а когда-нибудь мы начнем видеть эти истории через нейроинтерфейсы, как мечтали авторы фантастических книжек. Даже не знаю: жду я такого будущего или пока побаиваюсь.

Пофантазировали? Теперь про настоящее. По видео выше любой, кто увлекался играми, мигом распознает, на каких тайтлах тренировала свою модель Tencent. Вот вам “Ведьмак”, Assassin’s Creed, проекты Миядзаки и далее. По мере обучения сходство будет менее заметным, но пока перед нами лучшая иллюстрация мощной юридической схватки между разработчиками ИИ-моделей и авторами контента.

Далеко не всем авторам нравится, что ИИ тренируют на их трудах: книгах, фильмах и видео, кадрах из игр. Ведь обученный таким образом ИИ сам начинает создавать контент, в чем-то копируя стиль исходников. Но с другой стороны — а сильно ли такое обучение отличается от того, как учатся люди? Во всех СМИ, где я работал, начинающему журналисту, желающему улучшить свой стиль, давали простой совет — читать как можно больше. А параллельно пробовать самому.

В США есть закон о добросовестном использовании, который допускает ограниченное использование чужих произведений без лицензии, если оно преследует общественно полезные цели. Обучение — именно такой случай. Поэтому, когда авторы произведений начали подавать в суд на разработчиков ИИ-моделей, адвокаты последних стали строить свою защиту на законе о добросовестном использовании. И добились успехов.

Суд в США вынес промежуточное решение по коллективному иску писателей Андреа Бартц, Чарльза Грейбера и Кёрка Уоллеса Джонсона, которые обвиняли Anthropic в незаконном использовании их книг для обучения Claude ФШ. Судья Уильям Алсап признал, что обучение попадает под закон о добросовестном использовании, однако назначил на декабрь 2025 года еще одно слушание, на котором определит штраф Anthropic за незаконное хранение книг множества авторов — грубо говоря, за пиратство. Датасеты языковых моделей огромны и при их создании разработчики “срезали углы”, нередко скачивая книги прямо из нелегальных библиотек. В случае с Anthropic количество таких текстов оценивается в 7 миллионов, что, даже при минимальной сумме в 150 долларов за текст, грозит гигантским штрафом. Тут вопросов нет, воровать не стоило.

Следом за Anthropic аналогичное решение суд вынес и в отношении Meta* (признанна в РФ экстремистской организацией) иск к которой подали 13 авторов книг. Истцы пытались убедить суд, что ИИ ставит под угрозу рынок их книг, но судья не поддержал этот аргумент.

История еще не окончена — прямо сейчас суд рассматривает несколько аналогичных дел. NY Times обвиняет OpenAI и Microsoft в обучении моделей на новостных статьях издания, а Disney судится с Midjourney за использование своего контента в обучении визуальных моделей. По делам Anthropic и Meta также могут быть поданы апелляции. А еще есть Европа — у них свое законодательство.

Но вот что подумалось. Любой судебный процесс с апелляциями — это даже не месяцы, а годы. И возможно юридическое регулирование станет одной из первых областей, которые просто не успеют за прогрессом в области ИИ — грубо говоря, когда суд вынесет окончательное решение, искусственный интеллект будет встроен в наши жизни настолько глубоко, что откатить уже ничего не получится.
Google опять в ударе

Продолжаю восхищаться темпами, с которыми Google выкатывает новые продукты. Первым на этой неделе подоспел Gemini CLI — ИИ-ассистент, который работает в командной строке. Суть простая: ставим, например, на ПК небольшую программу и получаем возможность работать с Gemini 2.5 Pro через командную строку. А 2.5 Pro, в свою очередь, получает возможность через командную строку управлять ПК. Кстати, пока это бесплатно — в пределах 60 запросов в минуту и 1000 запросов в сутки.

Google продвигает Gemini CLI в первую очередь для программистов и системных администраторов, которые много работают в командной строке, но в перспективе CLI важна не только для них. Не секрет, что развитие ИИ-агентов буксует: модели, будучи выпущенными за пределы своего уютного языкового мирка, очень сильно спотыкаются об интерфейсы, придуманные людьми для людей. Агенты по управлению компьютером находятся в экспериментальном статусе и справляются со своими задачами с большим трудом — см. на тот же Operator от OpenAI.

И не исключено, что как когда-то компьютеры управлялись через командную строку, так и сейчас первые шаги по взаимодействию ИИ с ними стоит делать таким же образом. Gemini CLI хорошо подходит не только для кодинга — ей можно, например, отдать команду отсортировать файлы на диске или разобраться с зависшим процессом. Веб-поиск через командную строку она также делает, а еще поддерживает внешние расширения — любой может интегрировать свой продукт для работы с ней. Уверен, пользователи найдут много других вариантов использования, но единственное препятствие пока ​​— установка, которая не то, чтобы сложная, но непривычная для многих. Если хотите попробовать, но не понимаете, как — запустите ChatGPT или Gemini (можно даже в бесплатных версиях) и помогите помочь. Они для таких ситуаций дают хорошие инструкции: откуда и что качать, и что вводить в командную строку.

Второй анонс — Gemma 3n, полноценный локальный ИИ, который можно запустить даже на мощном смартфоне. Рейтинг на LMarena составляет 1300 баллов, что выше версии ChatGPT-4o от мая прошлого года — вот только 4o крутилась на серверах Microsoft, а Gemma 3n на мобильном процессоре. При этом модель поддерживает 140 языков для текстового вывода, а на 35 языках полностью мультимодальна — понимает голос и распознает видео (русский поддерживается, ура!).

Работа по оптимизации, которую провела Google, впечатляет. Модель есть в двух версиях: младшую потянет смартфон с 8 ГБ памяти, а для старшей надо 12 ГБ (цифры для Android, с iPhone все пока сложнее). При этом энтузиасты могут “нарезать” промежуточную версию между этими двумя моделями, добившись оптимального качества и скорости под свои задачи.

Зачем все это, если в приложениях ChatGPT и Gemini модели куда мощнее? Вариантов много. Можно не переживать за трафик в роуминге и использовать Gemma 3n как переводчик, в том числе голосовой и понимающий фото/видео (удобно с меню и вывесками). Или выучить что-то новое с помощью модели во время полета.

А еще полностью локальная модель конфиденциальна — можно обрабатывать документы, не беспокоясь, что они куда-то утекут. Она не подвержена блокировкам, работает без подписки, а распространение по лицензии Apache 2.0 позволяет дообучать модель так, как вам вздумается — фишка, конечно, для энтузиастов.

Так как анонс свежий, то установка опять не из простых — через Google Play не скачать. Но модель открытая, поэтому в ближайшие недели появятся более простые варианты от энтузиастов. А в будущем Google наверняка встроит наследницу Gemma 3n в очередную версию Android, дав возможность любому мобильному приложению взаимодействовать с ней, получая доступ к базовым ИИ-функциям.

В общем, на выходных попробую установить, если получится — на следующей неделе поделюсь впечатлениями.
В соцсети X Илон Маск вновь обещает нам скорый выход Grok 4 (в прошлый раз это случилось 29 апреля, речь шла о Grok 3.5 и релизе на следующей неделе - но не срослось).

Если в этот раз ничего не сорвется и модель выйдет, то в июле нас может ждать схватка между Grok 4 и ChatGPT-5, на релиз которой в этом месяце также намекают многие источники. Основной фишкой Grok 4 тот же самый Маск заявлял рассуждения из первых принципов - то есть, модель сможет решать вопросы, ответов на которые нет в интернете. Про ChatGPT-5 тоже пишут немало интересного, а главное - это будет полностью автоматическая модель, сама определяющая, сколько ресурсов потратить на задачу.

Так как у нас выходной, то не буду грузить вас длинными постами. Давайте лучше устроим голосование реакциями — на чьей вы стороне силы.

👍 — Grok 4, раскроем тайны вселенной
🔥 — GhatGPT-5, все-таки Сэм был первым
👏 — останусь на Gemini, не зря Хассабису Нобелевку дали
🥰 — не предам Claude, самый человечный
❤️ — 党命令使用 DeepSeek
😁 — YandexGPT, поддержим отечественное
Почему ИИ станут ОС будущего

Эйдан МакЛафлин из OpenAI рассказывает, что его челюсть оказалась где-то в районе пола после знакомства с новой ОС-моделью компании. И все это происходит на фоне усложняющихся отношений между Microsoft и OpenAI. Первая является крупнейшим инвестором и партнером второй, вложив в нее 14 млрд долларов и предоставляя свои облачные технологии – а вычислительные мощности для ИИ критичны. Конечно, далеко не безвозмездно – Microsoft использует модели ChatGPT в своем Copilot, который некоммерческим пользователям доступен бесплатно. Но в целом OpenAI все больше и больше наступает на пятки своему инвестору – чем дальше развивается ИИ, тем чаще он залезает на территорию традиционных приложений, вроде офисных пакетов или операционных систем. Это, конечно, не вызывает большого восторга.

Bloomberg сообщает, что Microsoft испытывает трудности с продажей Copilot корпоративным клиентам. Даже в тех случаях, когда компанию удавалось убедить купить бизнес-лицензию, через некоторое время выяснялось, что сотрудники продолжают использовать ChatGPT – просто потому, что привыкли. А The Information инсайдит, что OpenAI завершает тестирование режима совместной работы в Canvas – пользователи бизнес-подписки смогут вместе редактировать документы, параллельно общаясь в чате друг с другом и там же отдавая команды ИИ. Это уже прямой визит на территорию Microsoft 365 и Google Workspace.

Я сам на прошлой неделе с помощью ChatGPT o3 делал аналитику для редакции, с которой работаю. За что люблю редакторов – им не надо рисовать псевдокрасивые презентации, на которых 70% шаблонного дизайна и 30% информации. Написал по пунктам текст в Google Docs или Word, открыл во время созвона – и погнали. Люди много пишут и читают, такой формат с ними работает идеально.

В этот раз я пошел еще дальше и не стал прибегать даже к помощи офисного приложения. Для аналитики использовал ChatGPT o3, затем с помощью этой же модели собрал красивое саммари в Canvas, развернул его на весь экран – и показал редакции. Комментарии и дальнейшие идеи записал прямо во время созвона в Canvas, а затем попросил o3 их отработать. Фактически Canvas для меня заменил офисный пакет – и если так пойдет дальше, то не исключено, что как минимум от подписки Microsoft 365 я в декабре откажусь (Google Workspace здесь под меньшим ударом, так как его ИИ-функции входят в подписку Gemini).

Дальше будет еще интереснее. Андрей Карпати, один из самых известных ИИ-экспертов, прогнозирует, что наследники ИИ-приложений заменят операционную систему. Сейчас через ИИ мы уже ищем информацию в сети, готовим документы и презентации, пишем простенькие прототипы программ. Недавно я рассказывал про Gemini CLI – новое приложение Google, позволяющее использовать модель 2.5 Pro через командную строку. Как только эта технология будет отработана, ИИ-модели получат возможность работать “мимо” текущих графических интерфейсов, а значит, им не потребуются Windows и MacOS.

Это большой повод для беспокойства и в Microsoft, и, в особенности, в Apple, у которых в разработке ИИ и конь не валялся. Пользователям же стоит ждать совершенно нового опыта работы с операционными системами. Текущие графические и тач-интерфейсы разрабатывались под методы управления, которые с появлением ИИ очень быстро устаревают. Зачем вручную сортировать файлы через Finder, открывать десятки документов, собирая из них информацию, кадрировать фото в графическом редакторе – если все это можно будет сделать с помощью голосовых команд?

Пока сложно назвать сроки всего этого: разработка моделей сейчас идет куда более быстрыми темпами, чем интерфейсов для них – в том же Gemini App полно багов и не хватает совсем простого функционала. Еще есть ощущение, что в случае с ОС на базе ИИ мы пройдем короткую версию 1975-85 годов, когда на рынке было более десятка систем, заметно отличавшихся друг от друга. Но вряд ли это будет большой проблемой, так как работа с ИИ заметно проще, чем с MS-DOS начала 80-х.
2025/07/01 00:24:28
Back to Top
HTML Embed Code: