Telegram Group Search
«Слово о полку Игореве» как улика, берестяные грамоты и морфология. Памяти А. А. Зализняка

Он доказал подлинность Слова о полку Игореве, разобрался в сложнейшей системе ударения в русском языке и ежегодно рассказывал широкой аудитории о том, что написано в очередных найденных под землей берестяных грамотах... Сегодня исполнилось бы 90 лет выдающемуся лингвисту Андрею Зализняку. Вспоминаем наши материалы о его вкладе в науку.

Берестяные грамоты от раскопа до компьютера

А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.

Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.

«Слово о полку Игореве» как улика

Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.

Акцентуаторы

Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.

Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.

В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.

Морфология

Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.

Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Ухемоль, зигия и желтяника: зачем нужна этноботаническая база данных

Что такое таинственная «ухемоль», два горшка которой были взяты для сохранения? Как в XVIII веке называли айву и ананас? А какая ягода скрывается за романтичным названием «любовное яблоко»? Узнать это и многое другое возможно с помощью этноботанической базы PhytoLex, которая собрала более 50 тыс. записей с названиями самых разных растений. Рассказываем, как она создавалась, что возможно узнать с ее помощью и почему словари не всегда могут помочь точно определить вид встретившегося в тексте цветка или кустарника.

Кратко: о чем статья?

В первоначальном варианте база данных PhytoLex (@phytolex) была сугубо лингвистической и включала материалы из источников XI–XVII веков: от богословских сочинений до рецептов Аптекарского приказа. В нее были включены как существительные, так и прилагательные, образованные от названий растений.

Постепенно проект рос: увеличились команда и финансирование, появились новые источники и растения, расширились пользовательские возможности. Например, добавились разные визуализации, которые помогают проследить, как менялись названия растений на протяжении веков, изучить этимологию и словообразовательные связи. А ещё — выяснить, что желтяника – это дикий шафран, а зигия – дерево, название которого пришло из греческого.

Скоро узнать это можно будет не только с помощью поиска по сайту, но и благодаря чат-боту. Школа вычислительных социальных наук Европейского университета в Санкт-Петербурге использовала PhytoLex для разработки «умного помощника», который позволит общаться с базой данных на естественном языке. Ему можно будет задавать вопросы по содержанию базы. Например, какие растения импортировались в Российскую империю из Южной Америки во второй половине XVIII века.

Подробнее о развитии и перспективах проекта узнаете из полного текста статьи.

P. S. А вот о значении слова ухемоль не узнаете, ведь на сегодняшний день это единственная фиксация слова, и какое растение оно обозначает, науке неизвестно 🤷

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Алгоритмы и дискриминация на рынке труда. Чему мы научили искусственный интеллект?

Сегодня за свои права приходится бороться не только с работодателями, но и с искусственным интеллектом. ИИ все чаще используется для управления персоналом и набора сотрудников — и он закономерно научился дискриминировать людей по полу, физическим возможностям и т. п. «Системный Блокъ» предлагает перечитать классический материал об ИИ на рынке труда в честь 1 мая — Дня солидарности трудящихся.

Кратко: о чем статья?

Использование ИИ в подборе персонала — один из основных трендов сферы труда. Так, более половины всех HR в США используют алгоритмы искусственного интеллекта при приеме на работу, проведении собеседований и оценке кандидатов. Алгоритмы найма с ИИ очень разнообразны. Например, платформа HireVue оценивает кандидатов по мимике и высказываниям во время видеособеседования, а в некоторых российских компаниях работает ИИ робот-рекрутер Вера. Она приглашает кандидатов на собеседования и проводит опросы увольняющихся сотрудников. 

Главная цель ИИ-рекрутинга — помочь человеку справиться с рутинными процессами в найме, одна из главных проблем — предвзятость. Алгоритмы часто оценивают кандидатов несправедливо, так как обучаются на данных, часто копирующих искажения и ошибки людей. Например, HR-робот мог классифицировать тексты с упоминанием ограниченных возможностей как более «токсичные» и оценивать их негативно, а ИИ-рекрутер Amazon снизил оценку резюме женщин, так как был обучен в основном на резюме мужчин.

Конечно, дискриминация не связана напрямую с ИИ: он копирует установки общества. Законодательство разных стран старается регулировать неравенство в том числе и в рекрутинге. Например, в ЕС существует проект закона, контролирующего использование искусственного интеллекта: подобные технологии должны, например, обучаться на качественных недискриминационных данных, а также иметь общедоступную документацию, объясняющую алгоритм и цель проекта. Не все сотрудники довольны участившимся использованием ИИ в компаниях, однако первые шаги к регулированию уже сделаны.

Подробнее о том, как искусственный интеллект используется в найме, в чем подвержен людским предрассудкам и как с этим бороться читайте в полной версии статьи. 

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ-поиск от Google, третья Qwen и модель-подхалим GPT-4o

Рассказываем, что произошло в мире ИИ за последнее время.

AI Mode от Google

Корпорация Google открыла доступ к поиску на основе больших языковых моделей для пользователей из Америки.

В отличие от традиционного поиска, при котором пользователь получает список ссылок на релевантные веб-сайты в ответ на запрос, ИИ-поиск суммаризирует поисковую выдачу и выдает текстовую выжимку. Благодаря внедрению языковых моделей в процесс поиска пользователь может задавать длинные и сложные запросы, а также уточняющие вопросы к ответу. Вместо замены текущего режима поиска Google добавила ИИ-поиск в отдельную вкладку под названием AI Mode — на уровне с вкладками «Изображения», «Новости», «Видео» и т. д.

AI Mode тестируется с начала марта этого года в закрытом режиме. Ранее Google уже пыталась интегрировать LLM в поиск, однако в ответ получила негативные реакции пользователей из-за большого количества галлюцинаций в поисковой выдаче. AI Mode является прямым конкурентом продуктов многих ИИ-компаний: PerplexityGPT Search и DeepResearch от OpenAI,  Research от Anthropic.

Qwen3 — новое поколение открытых языковых моделей

Холдинг Alibaba Group (владеет AliExpress, TaoBao и другими маркетплейсами) обновил свое семейство языковых моделей Qwen. Qwen3 доступен в следующих размерах (в млрд параметров): 0,6, 1,7, 4, 8, 14, 32.

Помимо них, также были представлены две модели с архитектурой Mixture of Experts: во время генерации ответа модель использует лишь часть всех параметров (их называют активными), при этом, какие именно параметры задействованы во время ответа — зависит от конкретного запроса пользователя. Mixture of Experts версии доступны в двух размерах: 30 млрд с 3 млрд активными и флагманская модель с 235 млрд параметров из которых 22 млрд активные.

Флагманская модель в основных тестах опережает DeepSeek-R1 и сопоставима с последними лучшими моделями (Google Gemini 2.5 Pro и OpenAI o3-mini). Более компактные версии опережают конкурентов сопоставимых размеров.

Все модели поддерживают режим рассуждений, когда перед финальным ответом модель генерирует цепочку логических рассуждений. Модели были обучены на текстах на 119 языках. Полный список языков доступен на сайте модели. Qwen3 можно использовать для коммерческих целей.

Модели семейства Qwen — в числе лидеров открытых LLM: их используют энтузиасты, коммерческие компании и научные исследователи.

OpenAI откатила обновление GPT-4o после жалоб о чрезмерной лести

Компания OpenAI вернула старую версию GPT-4o после того, как многочисленные пользователи пожаловались на избыточное количество лести и подхалимства в ответах обновленной версии.

Во время подготовки обновления GPT, сделанного в конце апреля 2025, компания, помимо новых обучающих данных и улучшенных методов, использовала оценки ответов от пользователей (их можно дать через кнопки «лайк» и «дизлайк» в интерфейсе чата). По словам компании, по отдельности новые данные и методы показывали улучшения, благодаря чему обновленная модель показала прирост в качестве в заранее подготовленных тестах. Но в совокупности улучшения привели к измененному поведению. 

Используемые тесты, а также группа тестировщиков фокусировались только на определенных показателях, в числе которых не было метрики, отвечающей за угодничащее поведение модели. И хотя некоторые тестировщики отметили, что модель стала «вести себя» немного иначе, обновление все равно решили сделать доступным.

Для предотвращения подобных ситуаций OpenAI приняли несколько новых мер: начали работу над улучшением существующих тестов и A/B-тестирования, приоритизировали качественные оценки поведения модели от тестировщиков.

Более детальный отчет о случившемся и выводах, сделанных компанией, доступен в официальном блоге.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Разделить цену войны: кого, откуда и когда призывали в годы ВОВ?

Сегодня 80 лет Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Они позволяют посмотреть на историю ВОВ через историю призыва, а огромный объем данных превращает такую работу в настоящее дата-исследование.

Предлагаем вспомнить исследование «Системного Блока», посвященное анализу 26,5 млн. карточек с военно-пересыльных пунктов. Эти данные позволяют увидеть, как отличалась картина призыва в разные годы в отдельных республиках СССР.

Кратко: о чем статья?

У каждой республики была своя история участия в войне и свой портрет призыва. Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.

Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.

Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Туркменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.

Время чтения: 25 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Только не списывай точь-в-точь: автоматический поиск аллюзий и цитат в древнеримской литературе

Выявление цитат и аллюзий — важная задача филологов, справляться с которой до недавнего времени приходилось традиционными методами. Особенно сложной она оказывается тогда, когда имеешь дело с произведениями, авторы и аудитория которых жили в совершенно другом контексте: литературном и историческом. К счастью, сегодня у исследователей есть цифровые инструменты, которые могут помочь разобраться с интертекстуальностью. Рассказываем о проекте Tesserae, который помогает находить аллюзии и цитаты в древнеримской литературе.

Кратко: что за проект?

Tesserae — проект университета Баффало, бесплатное веб-приложение, которое работает с корпусом текстов из баз Perseus Digital Library и The Latin Library. Работая с Tesserae, пользователь выбирает два произведения из корпуса, после чего программа сравнивает их и возвращает список всех предложений, которые содержат хотя бы два совпадающих слова. 

Предложения, в которых нашлись такие совпадения, получают оценку от 2 до 10. Программа учитывает два параметра: частотность употребления слов и расстояние между ними во фразе. Сравнительно редкие слова, стоящие рядом, с большей вероятностью будут составлять осознанную отсылку или цитату и, соответственно, получат более высокий балл.

Искать совпадения можно не только по точной форме, но и по лемме (начальной форме), похожему звучанию и даже по семантической близости. Например, при сравнении стихотворений Катулла с «Георгиками» Вергилия в качестве совпадений были найдены tacet nox (Catullus 7.7) и silet nox (Georgics 1.247). И то, и другое можно перевести как «ночь молчит», хотя авторы использовали два разных глагола.

Самый простой результат работы с Tesserae — выявление новых текстовых параллелей, которые до этого не были отмечены комментаторами. В ходе тестирований команда проекта обнаружила потенциальную аллюзию к «Энеиде» в первой книге «Фарсалии» Лукана.

Правда, работа филолога все еще важна даже при наличии Tesserae,  поскольку каждый полученный результат нужно рассматривать отдельно и пытаться объяснить в зависимости от контекста. Программа этого пока не умеет — только выполняет умный поиск по корпусу на предмет лексических совпадений.

Подробнее о проекте и задачах, в решении которых он может помочь, а также о том, зачем филологи вообще ищут цитаты и отсылки, узнаете из полной версии статьи.

Время чтения: 12 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Бум и крах искусственного интеллекта: забытая история первых цифровых помощников

Сегодня ИИ решает все более сложные задачи и угрожает заменить профессионалов в самых разных областях: от медицины и юриспруденции до геологоразведки. То же можно сказать и про 1980-е — время взлета искусственного интеллекта, когда в центре внимания оказались экспертные системы. Рассказываем о том, как они появились, почему не смогли завоевать мир и чему их взлет и падение могут нас научить.

Кратко: как появились и исчезли экспертные системы?

В 1965 году ученые из Стэнфордского университета создали первый образец программы, получившей название DENDRAL (от DENdritic ALgorithm, «ветвящийся алгоритм»). Именно она считается первой экспертной системой, то есть системой искусственного интеллекта, которая на основании знаний и опыта эксперта-человека может решить задачу в определенной области. В случае DENDRAL это была органическая химия.

И хотя попытки сделать программу коммерчески успешным продуктом провалились, этот пример вдохновил ученых на создание экспертных систем в самых разных областях. Появились SACON (для анализа физических объектов), CRYSALIS (для определения структуры белков), PROSPECTOR (для поиска полезных ископаемых)…

К 1980 году появилась и первая коммерческая экспертная система R1, более известная как XCON (от eXpert CONfigurer, «экспертный конфигуратор»). XCON должна была подбирать элементы для компьютерной системы VAX в соответствии с требованиями заказчика. К 1986 году она за 2,5 минуты определяла необходимую конфигурацию системы, а компания Digital Equipment Corporation утверждала, что внедрение XCON позволило им экономить более 25 млн долларов в год. Это привело к ажиотажу вокруг экспертных систем не только в Америке, но и за ее пределами – от Великобритании до Японии.

И все же к началу 1990-х годов экспертные системы канули в Лету. Что же произошло? Во-перввых, они плохо поддавались изменениям. Во-вторых, с легкостью начинали галлюцинировать, когда запрос выходил за рамки их базы знаний. Наконец, их поддержание в рабочем состоянии требовало большого количества квалифицированных сотрудников, услуги которых стоили дорого. Это сводило на нет всю экономию.

Правда, исчезли экспертные системы всё-таки не бесследно. Подробнее о том, во что они превратились, а также о других страницах их истории, узнаете из полного текста материала.

Время чтения: 21 минута

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
«Системный Блокъ» продолжает набор в мастерскую дата-журналистики на «Летней Школе»! UPD: Мы принимаем заявки от всех желающих до 1 июня❗️

Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике, и мы приглашаем участников.

Что такое дата-журналистика?


Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных.  Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую. 

🎓 Кто может участвовать в мастерской?

Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.

✍🏼 Что будет на мастерской?

На мастерской будет два блока: образовательный и проектный.

Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.

Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров. 

🧑🏻‍💻 Кто делает мастерскую? 

Партнеры мастерской: 
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm;
• научно-популярный журнал «Кот Шредингера» @kot_sh.

📍Когда и где пройдет мастерская?

Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.

❗️Как к нам попасть?

Подать заявку на участие можно на странице мастерской до 1 июня. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что читают, осмысляют и о чём говорят на программах по DH?

Собрали три текста из блога DH-центра ИТМО @dhcenter, которые помогут понять контекст обучения цифровым методам в гуманитарных исследованиях и узнать больше о подходах и вопросах из мира DH.

От Стоунхенджа до Лас-Вегаса и Теории теории смартфона. Что читают на программе по Digital Humanities?

Подборка текстов, которые читают на магистерской программе по Digital Humanities. Узнаете, например, об исследовании языка и риторики мирового банка с 1946 по 2012 год. А ещё о том, почему три ключевых метафоры интернета — место, инструмент и способ быть (way of being), и как отловить их в собственной речи.

От Аристотеля до 3D-моделей тела. Три взгляда на визуализации

Сложный и насыщенный разговор культуролога Ольги Давыдовой, медиафилософа Алины Латыповой и дизайнера Трофима Попова об эстетических критериях, социальных аспектах и роли визуализации. Если готовы разобраться с понятиями «графезис», «колорема» и «коллективный эмпиризм», то точно узнаете больше о визуализациях в науке и в поэзии, а заодно и о том, кто считает их отличным инструментом, а кто — «проклятием гуманитарной мысли».

От UX до DH. Интервью про UX-исследования, Human-Computer Interaction и связь юикса с цифровой гуманитаристикой

Чем отличается UX от UX-исследований? Как они соотносятся с цифровой гуманитаристикой и DH-проектами? Юиксеры изучают пользователей или объекты в цифре? Ответы найдете в разговоре Алексея Евстифеева, UX-исследователя и координатора проектной группы по UX в Пушкине <цифровом>, и Полины Колозариди, академической руководительницы магистерской программы по DH в ИТМО.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Пахучка пахучая и другие. Тест: угадайте растение по старинному названию

Что в семнадцатом веке называли мастикой? Какое растение скрывается за именем «поповская шапка»? А «попова скуфья»? Разбираемся в новом тесте «Системного Блока», который мы сделали на основе данных из базы PhytoLex (недавно мы уже рассказывали об этом проекте).

Чтобы в кулинарной книге XVIII века отличить оксиду от растения под названием апиюм селевестре (спойлер: это одно из названий сельдерея!), скорее проходите тест.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
День биоразнообразия: агрегаторы и базы данных

Где искать данные о биологическом разнообразии планеты? Агрегаторы биологических данных появились не так давно, но сегодня с их помощью каждый ученый может получить миллионы записей из биологических баз на свой компьютер. Рассказываем об этом подробнее в международный день биоразнообразия.

🌱 Варианты баз данных

В случае биологии можно выделить таксономические базы и базы «коллекционные». Первые включают информацию о положении таксона в системе живого мира, валидных названиях, синонимах и родственных связях между таксонами (скажем, TROPICOS). 

Коллекционные базы данных работают на уровне отдельных организмов и предоставляют информацию об их распространении, внешних признаках. Сюда же включены фотографии, записи голосов птиц, видео, последовательности ДНК и пр. Их, кстати, можно разделить «оцифрованные коллекции» и на «агрегаторы». Примером оцифрованных коллекций может служить портал Цифрового гербария МГУ имени М.В. Ломоносова, о котором мы рассказывали раньше.

🪴 Агрегаторы

Агрегаторы пополняются разными людьми и организациями. У каждого проекта свои требования к типам данных, их региональной приуроченности и т.д. Например, «GBIF» — база по распространению всех видов живых организмов. Она насчитывает более 3 миллионов записей из 113 856 датасетов. Скачать их может любой — достаточно пройти регистрацию на портале. А вот добавлять можно лишь от лица научных организаций и в определенном формате.

🌳 Другие примеры

Ещё несколько порталов, которые могут быть интересны не только ученым, но и всем любителям живой природы, собрали ниже.

iNaturalist – крупный международный портал, о котором мы рассказывали подробнее в отдельном посте. Их сообщество насчитывает 5 миллионов пользователей со всего мира, наблюдающих за природой. Сайт полностью русифицирован.

Avibase посвящена исключительно птицам и насчитывает 53 962 805 записей. Здесь можно выбрать свой регион и скачать для него список встречающихся птиц с фотографиями и базовой информацией. Портал частично переведен на русский язык.

На портале Млекопитающие России можно найти 277 844 записей и 111 689 фотографий млекопитающих страны. Пользователи могут добавлять свои данные в свободном режиме.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Google выпускает новые продукты, Claude 4 шантажирует пользователей, OpenAI покупает компанию Джони Айва

Рассказываем, что произошло в мире ИИ за последнее время.

Новинки от Google

Компания Google действует на всех фронтах и обновила целый ряд ИИ-инструментов.

• Модель Gemini 2.5 Pro получила режим Deep Think, который одновременно генерирует несколько цепочек рассуждений, что повышает качество ответов. Улучшения заметны в мультимодальных и математических тестах, а также при генерации кода. Обновлена также мини-модель Gemini 2.5 Flash.

• Анонсирован Project Mariner — агентная система для автоматизации задач на компьютере. Это прямой конкурент Operator от OpenAI и Computer Use от Anthropic.

• Вышли обновления Imagen и VeoVeo 3 теперь создает реалистичные видео со звуком. Представлено приложение Flow для режиссеров: на основе Veo, Imagen и Gemini в нем можно выстраивать клипы и сцены для рассказа истории.

• Поиск Google теперь делает ИИ-выжимки результатов. С помощью новых функций в AI Mode можно получить сводку релевантных товаров без перехода по множеству сайтов — ИИ подберет и покажет предложения, а также оформит покупку. Компания также запустила виртуальную примерочную, с помощью которой пользователь перед покупкой может оценить, как на нем будет смотреться одежда.

Анонсирован синхронный перевод речи для Google Meet. На старте поддерживается испанский язык, со временем список расширится.

• Запущена подписка Google AI Ultra, включающая доступ ко всем последним моделям и приложениям, 30 ТБ на Google Drive и YouTube Premium. Стоимость составит 250 долларов в месяц.

Обновления LLM от Anthropic


Компания Anthropic, один из главных конкурентов OpenAI, представила четвертую версию своей языковой модели. Поскольку продукты компании преимущественно применяются для автоматизации разработки в IT, ключевые улучшения коснулись способности генерировать код и автономно выполнять пользовательские задачи с помощью различных инструментов — браузера, командной строки и других.

Claude Opus 4 показал лучший результат среди агентов для разработки в тесте SWE-bench. Claude Sonnet 4 также продемонстрировал улучшенные возможности генерации кода, однако в остальных тестах его показатели остаются на уровне предыдущей версии Sonnet 3.7.

Anthropic заявила, что при запуске новинок применила повышенные меры безопасности. Также компания выпустила технический отчет, в котором описала результаты тестирования «поведения» новых моделей. В частности, выяснилось, что модель способна к шантажу, саботажу, обману и проявлению инициативы в некоторых случаях.

OpenAI купила компанию Джони Айва

Бывший дизайнер Apple Джони Айв — в его портфолио входят Mac, iPhone, iPad, Apple Watch, дизайн операционных систем — и гендиректор OpenAI Сэм Альтман объявили о слиянии своих компаний для разработки принципиально новых продуктов с искусственным интеллектом.

Сотрудничество между Айвом и командой OpenAI началось два года назад как неформальная работа креативного коллектива LoveFrom с создателями ChatGPT. Первоначальные идеи и эксперименты постепенно переросли в конкретные дизайнерские решения.

Год назад Айв совместно с бывшими топ-менеджерами Apple основал новую компанию io. OpenAI приобрела io (сумма сделки оценивается в 6,5 млрд долларов), чтобы более тесно взаимодействовать с исследовательскими и инженерными командами в Сан-Франциско. Айв и LoveFrom возьмут на себя ключевые дизайнерские и творческие функции в объединенной компании.

По словам основателей, цель проекта — создать новое семейство устройств, которые помогут людям учиться, исследовать мир и творить, используя возможности современного ИИ. Релиз первого продукта планируется в следующем году.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
CLIP: нейросеть, которая понимает текст и картинки

Мультимодальные модели могут обрабатывать несколько видов данных одновременно. Например, они «понимают» не только текст, но и изображения и аудио. Сегодня рассказываем о нейросети CLIP, которая представляет изображения и тексты как единый тип данных, и рассмотрим, как это может быть полезно. Это — первый из серии наших материалов о мультимодальных нейросетях.

Кратко: как работают эти нейросети?

CLIP (Contrastive Language–Image Pre-training) была разработана в 2021 году компанией OpenAI, создавшей GPT. Contrastive в названии обозначает метод обучения нейросетей Contrastive learning, при котором нейросеть учится сравнивать/противопоставлять объекты на основе их семантического соответствия.

CLIP представляет изображения и текст как единую модальность (один тип данных). Другими словами, эта нейросеть строит универсальные численные представления для текстов и изображений, которые затем можно использовать для сравнения семантической схожести картинки и описания. Поэтому она отлично подходит для поисковиков, онлайн-магазинов и рынках стоковых изображений.

А еще CLIP можно использовать в паре с языковыми и генеративными моделями, тем самым наделяя их мультимодальными способностями. Такие модели могут генерировать изображения по текстовым описаниям, создавать описания изображений, анализировать визуальное содержание и выполнять другие задачи.

Подробно о работе мультимодальных нейросетей – с примерами, терминами и картинками с собаками, мы рассказали в полной версии материала. Из нее же узнаете о третьем применении CLIP и о том, способна ли она распознать на картинке банан, если он будет пиксельным, черно-белым или разрезанным на кусочки.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Набор на Летнюю школу в мастерскую дата-журналистики закрывается через 3…2…1…

Вы ещё успеваете подать заявки в мастерскую «Системного Блока» @datajourschool на «Летней школе» на Волге до 1 июня.

С 19 июля по 3 августа вы сможете бесплатно* научиться искать, собирать и обрабатывать данные, а затем — превращать их в красивые и понятные визуализации.

Узнать подробнее о наборе в мастерскую можно здесь, познакомиться с примерами наших визуализаций — в посте ниже.

Регистрация: https://nabor.letnyayashkola.org/

*Есть добровольный взнос на питание и проживание

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
От алкоголизма до книжного рынка: подборка инфографик «Системного Блока»

Наш дата-отдел регулярно исследует открытые данные и рассказывает о процессах в обществе и культуре России и мира с помощью инфографики. В этом посте собрали материалы прошлых лет о кино, песнях и метро России.

🚇 Метро в России

По количеству открытых станций метро в России тоже лидирует Москва: за 12 лет в стране построили меньше станций метро, чем в одной Москве в 2021 году. Например, в Санкт-Петербурге станцию Театральную не могут открыть с 2008 года. О текущей ситуации и перспективах метро в других городах можно узнать здесь.

🍾 Кому на Руси пить хорошо

Ещё одна важная и неочевидная статистика о России — потребление алкоголя в стране. Рост потребления алкоголя с 2018 по 2022 год мы отобразили на карточке, а о производстве рассказали здесь.

🎬 Кино по заказу Минкульта

С 2014 года Министерство культуры публикует приоритетные для кинопроизводства темы. Среди них — популяризация героизма и неоколониальная политика стран англосаксонского мира. Правда, большинство приоритетных фильмов не окупается в прокате. Узнать больше об этой статистике можно тут.

🎤 О чем поет Родина

В 2016 году появился официальный «каталог патриотической музыки». Оказалось, что каждое третье произведение из 8 тысяч позиций каталога посвящено войне. Прежде всего — Великой отечественной. О других войнах и темах в песнях каталога, можно узнать из инфографики и этого поста.

📸 Камеры в Москве

Москва входит в топ-30 городов по покрытию камерами: в городе как минимум 193 000 камер. Самая большая плотность покрытия — в Центральном округе, там на квадратный километр приходится 198 камер. Больше информации — в нашем посте.

📚 Книжный рынок

Политика России в 2022 году сильно сказалась на книжном рынке. Среди последствий: отсутствие полиграфического оборудования, интерес к «запрещенным» произведениям и изменения в топе самых издаваемых авторов. Подробнее — в тексте поста.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/30 09:33:14

❌Photos not found?❌Click here to update cache.


Back to Top
HTML Embed Code: