Telegram Group Search
Сравнение скетчей, недавно появившееся в Корпусе, можно использовать для изучения паронимов – слов, сходных по звучанию и морфемному составу, но различающихся по значению. Новый функционал помогает выявить ключевые различия и сходства в значении и употреблении таких слов.

Предлагаем вам изучить инструкцию в карточках, а затем самостоятельно разобраться в значениях и особенностях употребления таких пар слов, как хозяйский и хозяйственный, органический и органичный, архаичный и архаический.
Объем корпуса «‎Русская классика»‎ увеличился на 7,5 млн слов. В него добавлены академические полные собрания сочинений Ф. М. Достоевского и Н. А. Некрасова, большая часть написанных по-русски писем И. С. Тургенева, а также некоторые ранее не включенные тексты других авторов.

Сервис «‎Похожие слова»‎ теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.

Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого – резко отрицательно (как похоть и злоба); лошадка у Лескова – примета быта, а у Чехова – одно из многочисленных прозвищ жены писателя, Ольги Книппер.

Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация – язык перевода и данные о переводчике.
27 марта отмечается Международный день театра. В связи с этим мы хотим вам напомнить (а кому-то – рассказать впервые) о возможностях русского Мультимедийного параллельного корпуса

В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» в 4 постановках, «Дядя Ваня» в 5 постановках и «Три сестры» в 4 постановках.

Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. Это позволяет выявить, как могут варьироваться различные аспекты звучащей речи и её жестового сопровождения в зависимости от личности актёра, времени и стиля постановки, замысла режиссёра и других факторов.

Например, можно посмотреть и послушать, с какой разной интонацией сестры у Чехова выражают желание поехать «‎в Москву»,‎ или как разные актеры произносили фразу «‎К нам едет ревизор»‎.
3 апреля в 11.00 магистерская программа «‎Обработка естественного языка»‎ МИСиС организует вебинар с Анной Глазковой, к. т. н., специалистом группы нейросетевой разметки НКРЯ, преподавателем Тюменского государственного университета.

Анна расскажет об опыте генерации ключевых слов для русскоязычных текстов Корпуса:
- сравнит подходы к выделению ключевых слов: генерация vs извлечение;
- поделится результатами экспериментов на текстах корпуса региональных СМИ Национального корпуса русского языка;
- оценит надежность (робастность) генерации ключевых слов с помощью LLM.

Зарегистрироваться на вебинар можно по ссылке.
В шапке запроса появилась информация об относительной частоте запроса – IPM. В настоящее время эта функция доступна во всех корпусах, кроме Параллельных, англо-русского МультиПАРКа, а также корпусов «‎Берестяные грамоты»‎ и «‎Эпиграфика»‎. Если пользователь ограничил запрос конкретным подкорпусом, то показатель рассчитывается как отношение количества примеров в запросе к количеству слов в этом подкорпусе, умноженное на миллион. Если же подкорпус не выбран, то количество примеров в запросе делится на общее количество слов в корпусе и умножается на миллион. IPM рассчитывается для любого количества слов в запросе.

Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
23-25 апреля проводится международная конференция по компьютерной лингвистике и интеллектуальным технологиям «‎Диалог-2025»‎.

Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.

В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «‎Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.

В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.

Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
Проведено масштабное пополнение Регионального корпуса, в результате которого объем корпуса почти удвоился и достиг 69 млн слов!

В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.

Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.

Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работа над метатекстовой разметкой Регионального корпуса в 2025 г. поддержана Благотворительным фондом содействия образованию «ДАР».
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного и четырех исторических корпусов НКРЯ появился новый виджет с информацией о первом упоминании слова в текстах корпуса. Помимо даты первого упоминания, виджет также предоставляет контекстуальную информацию о нем: имя автора, название документа, а в корпусах берестяных грамот и эпиграфики — также тип носителя и локализация находки.

Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку‎.
В апреле мы обновили главную страницу сайта, чтобы сделать работу с корпусом более эффективной и комфортной для начинающих пользователей. Поисковая строка теперь автоматически определяет тип запроса и направляет пользователя в оптимальный вид поиска. При вводе одного слова (словоформы или леммы) — система активирует лексико-грамматический поиск в Основном корпусе. При вводе фразы или словосочетания — выполняется поиск по точным формам в Основном корпусе.

Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.

Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
Сегодня отечественная лингвистика отмечает сразу две значимые даты: 90 лет со дня рождения Андрея Анатольевича Зализняка (1935-2017) и 21 год со дня запуска Национального корпуса русского языка.

Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.

Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.

За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
Умеете ли вы анализировать не только сами тексты, но и их метаданные?

Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.

Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.

Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
В текстах какой тематики «‎истина»‌‎ встречается в Основном корпусе реже, чем «‌‎прогресс»‌‎?
Anonymous Quiz
49%
политология
17%
астрология, парапсихология, эзотерика
15%
логика
19%
философия
В текстах какого автора, представленного в корпусе «‎Русская классика»,‎ «‎пироги»‎ встречаются чаще, чем «‎булки»‎ и «‎хлеб»‎?
Anonymous Quiz
40%
Н. В. Гоголь
23%
И. А. Крылов
37%
М. Е. Салтыков-Щедрин
В СМИ какого региона России (по данным корпуса Региональных СМИ) «‎инвестиции»‎ встречаются чаще, чем «‎урожай»‎?
Anonymous Quiz
29%
Камчатский край
15%
Амурская область
56%
Санкт-Петербург
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появилась возможность сравнить распределение метаатрибутов у нескольких запросов.

Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.

Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «‎От 2 до 15» и «‎Русская классика»‎.

Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
2025/05/30 08:50:40
Back to Top
HTML Embed Code: