Telegram Group Search
🔺 API gpt-image-1, цена и качество

🔸 Осваиваем новое API от OpenAI. Чтобы начать пользоваться надо подтвердить личность в аккаунте (надо именно для API, в веб-версии можно без этого).

🔸 Теперь можно задавать качество (low, medium и high)

🔸 Если надо что-то попроще, то лучше medium, потому что high будет сразу в 4 раза дороже. Low вообще не очень.

🔸 По времени low генерится примерно за 15 секунд, medium и high примерно за 30 и 60 секунд.

🔸 По цене. Low стоит около $0.03 за картинку, medium около $0.10, high ~$0.40

🔸 Есть параметр moderation, можно выставить его в "low" и по идее должно быть меньше отказов в генерации. Это надо потестить на каких-то более интересных темах.

🔸 В клиенте есть методы client.images.generate и client.images.edit. Параметры немного отличаются (например, moderation в edit нет), картинку в промпте можно передавать только в edit.

🔸 Собственно, если надо хорошее качество, детали и надписи, то нужно генерить с high, так будет похоже на то, что выдает web-версия. Low бесполезен, но дешев. Medium — как повезет.
Если хотели написать статью про код на Хабре, то поторопитесь пока заголовки не закончились.
🔺 В NotebookLM добавили 70+ языков для озвучки

🔸 В официальной новости говорится про 50+ языков, в документации указано гораздо больше. Любой из них можно выбрать в настройках (Output language), на нём и будет всё происходить.

〰️ Что это такое?

🔸 NotebookLM — сервис от Google, в который можно загрузить документы, тексты, презентации, ссылки на сайты и видео с YouTube. Все это будет собрано в один контекст и обработано Gemini.

〰️ Что можно делать?

🔸 По данным затем можно создавать конспекты, планы обучения и таймлайны. Можно делать mind maps, тоже прикольная вещь. Можно задавать вопросы по вашим документам, но этим как будто никого не удивишь уже.

🔸 Самая прикольная фишка, как по мне, так это создание подкаста на два рассказчика по сгенерированному по вашим данным сценарию. Фишка на самом деле не самая сложная — вот тут делал на коленке подкаст по инструкции по холодильнику Бирюса (Claude + ElevenLabs).

🔸 Так вот, до недавнего времени озвучка была на английском языке, а теперь их стало сразу много (на картинке, документация тут). Есть русский. Есть даже латынь (!).

🔸 Что еще круче, так это интерактивный режим, когда можно прервать подкаст, задать вопрос, а ведущий на него ответит 🤯. Такое работает только для английского (пока это в beta режиме), зато можете прокачать свои навыки общения на этом языке. Кажется, что добавить остальные языки не будет проблемой раз они уже поддерживаются в озвучке, так что ждём.

👉 В общем штука крутая, попробовал на русском, английском, латыни и китайском. На английском, конечно, естественней всего звучит, но и на остальных весьма качественно. Скину примеры в комментариях.
🔺 Тут коллеги недавно обновили аудиомодальность в Гигачате

🔸 Интересно это потому, что теперь работа с аудио идёт не через ASR (распознавание речи в текст) с передачей текста в обычную языковую модель, а через аудио-эмбеддинги, которые подаются в контекст LLM.

🔸 То есть все звуки, шумы, смех и пение птичек не теряются на этапе транскрибации, а обрабатываются наравне с текстовым промптом, позволяя модели "слышать" звуки.

🔸 Так как аудио-эмбеддинги предварительно сжимаются, то в контекст сейчас можно передать запись длиной более 2-х часов. Можно даже просто передать ссылку на YouTube и попросить пересказать или сделать конспект.

🔸 Попробовал сгенерить timestamp'ы по видео, но так пока не умеет. Надо, видимо, дополнительно добавлять временные метки вместе с аудио или обогащать SFT сет такими задачами.

🔸 Зато работает с любыми записями, пересказывает даже матерные стендапы.

С удовольствием почитал как ребята это сделали на уровне архитектуры и обучения, предлагаю и вам. У кого есть аккаунт, ставьте лайк.

👉 Хабр
Перед прочтением сжечь

Были тут в Питере (там, кстати, весна полным ходом)...

Зашли в небольшой уютный книжный, который так и называется — Перед прочтением сжечь, на улице Радищева в центре. Ребята проводят экскурсии по району и даже вот такие книжки сами делают с обзором местных строений с забавными иллюстрациями. Ну и кафе там тоже есть, рекомендую.
Стою среди титанов

Привет всем, кто добавился! По поводу корпусов пишите — @averkij
Forwarded from NLP Core Team (Dmitry Zmitrovich)
🚀🚀🚀 Koda 🚀🚀🚀

Мы запустили Koda! AI сервис для разработчиков с хорошим пониманием русского языка.

Под капотом — лучшие открытые LLM, дообученные на актуальном коде и адаптированные для русского языка, c применением нашего опыта по созданию моделей.

Koda и наши модели бесплатны. Даем 250 запросов на внешние модели после аутентификации через GitHub. В списке моделей есть DeepSeek V3.1, Qwen3 235B и другие. Можете вбить свой токен внешней модели для CodeChat если есть.

Сейчас в beta-тестировании. Выкатили базовые сервисы. Куча фичей ждут своих релизов. Вместе с вами тестируем и улучшаем.

Делитесь вашим опытом использования Koda в нашем сообществе. Ждем ваши вопросы, ошибки, которые встретили, или идеи, как улучшить.

Koda сейчас — это команда энтузиастов, бывших разработчиков и соавторов GigaCode от Сбера, которые хотят сделать программирование более доступным c помощью AI.

Наш лендинг
Плагин для VSCode
Koda сообщество
🔺 Вышел Claude Opus 4 и Sonnet 4

На кодовых замерах опережает и o3 и Gemini 2.5 Pro. Но это ладно.

🔸 Пишут, что сильно улучшили память. Если при разработке дать доступ к файловой системе, то модель сможет создавать "memory files" с ключевыми данными. Не понял до конца, почему так нельзя делать с предыдущими версиями. Может быть, появился какой-то встроенный механизм.

🔸 Увеличили кеширование контекста до 60 минут (работа с одним и тем же контекстом при таком подходе дешевле, особенно если он длинный).

🔸 Появился Code execution tool — тула, которая вызывается, если Claude решит, что для решения задачи надо написать код, запустить его и выдать результат.

🔸 Эта же тула умеет вызываться на переданных файлах с данными. То есть по API можно передать какие-то документы и попросить их проанализировать, сделать табличку и т.д. Все это обработается кодом, то есть все числа будут точные (если сгенерится правильный код).

Это все интересно при разработке ваших приложений, через интерфейс можно было и так.

🔸 Веб-поиск в API тоже доехал. Стоит $10 за 1000 вызовов, добавляется к общей цене. Цена на Opus высокая, надо подумать, стоит ли оно того. Цена на Sonnet 4 такая же как у 3.7 и 3.5 ($3/$15 за 1M токенов на вход/выход).

В общем, смотрю. В плане качества генерации вроде +- то же, нужно потыкать мультиязычность и новые фичи в API.

👉 https://www.anthropic.com/news/claude-4
Forwarded from RnD CV Team (Alexander Kapitanov)
Data Fest в Сбере 🏦 🦜

30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте.

🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга"
🎨 Следом выступит Александр Капитанов @rndcv_team с релизом state-of-the-art модели инструктивного редактирования изображений MALVINA, над которой активно трудилась команда @layercv
😎 Также будет представлен доклад Федора Минькина @gigadev_channel о разработке больших языковых моделей в Сбере
🛠 Андрей Кузнецов @complete_ai выступит с интересной темой про генеративное проектирование в строительстве и промышленности
🧑‍💻 Дмитрий Бабаев @dl_l_lb представит подробный доклад о том, как команда обучает GigaCode

🤖 Сергей Марков @oulenspiegel_channel открывает сцену с визионерским докладом про ИИ в эпоху больших языковых моделей
🧠 Александр Абрамов @dealerAI расскажет про глобальную память в LLM на примере GigaChat
📝 Никита Мартынов и Даниил Астафуров, инженеры MERA покажут, как оценивать генеративные способности LLM для русского языка
🖥 Виктория Вольф @rndcv_team поделится лайфхаками обработки и фильтрации больших объемов мультимодальных данных.

И это еще не все, в программе представлено более 20 крутых докладов!
🖥 Зарегистрироваться и узнать подробности можно на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
🔺 Мальвина и Гигачат

Друзья, мои коллеги зарелизили крутой инструмент для попиксельного редактирования картинок моделями.

🔸 Суть в том, что при редактировании хочется поменять только какие-то конкретные объекты, а остальное не трогать. Или наоборот. Наш любимый gpt-4o и другие сетки все равно перегенерят картинку полностью и, хотя работают очень круто, поменяют и другие детали + добавят сдвиги. Особенно заметно на лицах.

В Мальвине же исходная структура сохраняется и получается очень полезный инструмент по редактированию картинок.

🔸 Потестил на каких-то простых кейсах, типа удаления и замены фона и предметов, но вообще изменение задается любым промптом. Так что пробуйте, это самый первый релиз и ребята очень ждут фидбек.

🔸 Работает прямо в телеграме@gigachat_bot. Не забудьте нажать на кнопку "Редактирование картинок".

👉 Почитать про модель
Интересно, Дуров пишет, что в телеграм скоро добавят Grok

Будет встроен прямо в интерфейс, среди фичей — суммаризация pdf и ссылок, факт-чекинг, генерация аватарок, модерация и суммаризация групповых чатов.
2025/05/30 21:39:40
Back to Top
HTML Embed Code: