Сравнение скетчей, недавно появившееся в Корпусе, можно использовать для изучения паронимов – слов, сходных по звучанию и морфемному составу, но различающихся по значению. Новый функционал помогает выявить ключевые различия и сходства в значении и употреблении таких слов.
Предлагаем вам изучить инструкцию в карточках, а затем самостоятельно разобраться в значениях и особенностях употребления таких пар слов, как хозяйский и хозяйственный, органический и органичный, архаичный и архаический.
Предлагаем вам изучить инструкцию в карточках, а затем самостоятельно разобраться в значениях и особенностях употребления таких пар слов, как хозяйский и хозяйственный, органический и органичный, архаичный и архаический.
Объем корпуса «Русская классика» увеличился на 7,5 млн слов. В него добавлены академические полные собрания сочинений Ф. М. Достоевского и Н. А. Некрасова, большая часть написанных по-русски писем И. С. Тургенева, а также некоторые ранее не включенные тексты других авторов.
Сервис «Похожие слова» теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.
Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого – резко отрицательно (как похоть и злоба); лошадка у Лескова – примета быта, а у Чехова – одно из многочисленных прозвищ жены писателя, Ольги Книппер.
Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация – язык перевода и данные о переводчике.
Сервис «Похожие слова» теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.
Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого – резко отрицательно (как похоть и злоба); лошадка у Лескова – примета быта, а у Чехова – одно из многочисленных прозвищ жены писателя, Ольги Книппер.
Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация – язык перевода и данные о переводчике.
27 марта отмечается Международный день театра. В связи с этим мы хотим вам напомнить (а кому-то – рассказать впервые) о возможностях русского Мультимедийного параллельного корпуса.
В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» в 4 постановках, «Дядя Ваня» в 5 постановках и «Три сестры» в 4 постановках.
Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. Это позволяет выявить, как могут варьироваться различные аспекты звучащей речи и её жестового сопровождения в зависимости от личности актёра, времени и стиля постановки, замысла режиссёра и других факторов.
Например, можно посмотреть и послушать, с какой разной интонацией сестры у Чехова выражают желание поехать «в Москву», или как разные актеры произносили фразу «К нам едет ревизор».
В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» в 4 постановках, «Дядя Ваня» в 5 постановках и «Три сестры» в 4 постановках.
Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. Это позволяет выявить, как могут варьироваться различные аспекты звучащей речи и её жестового сопровождения в зависимости от личности актёра, времени и стиля постановки, замысла режиссёра и других факторов.
Например, можно посмотреть и послушать, с какой разной интонацией сестры у Чехова выражают желание поехать «в Москву», или как разные актеры произносили фразу «К нам едет ревизор».
3 апреля в 11.00 магистерская программа «Обработка естественного языка» МИСиС организует вебинар с Анной Глазковой, к. т. н., специалистом группы нейросетевой разметки НКРЯ, преподавателем Тюменского государственного университета.
Анна расскажет об опыте генерации ключевых слов для русскоязычных текстов Корпуса:
- сравнит подходы к выделению ключевых слов: генерация vs извлечение;
- поделится результатами экспериментов на текстах корпуса региональных СМИ Национального корпуса русского языка;
- оценит надежность (робастность) генерации ключевых слов с помощью LLM.
Зарегистрироваться на вебинар можно по ссылке.
Анна расскажет об опыте генерации ключевых слов для русскоязычных текстов Корпуса:
- сравнит подходы к выделению ключевых слов: генерация vs извлечение;
- поделится результатами экспериментов на текстах корпуса региональных СМИ Национального корпуса русского языка;
- оценит надежность (робастность) генерации ключевых слов с помощью LLM.
Зарегистрироваться на вебинар можно по ссылке.
В шапке запроса появилась информация об относительной частоте запроса – IPM. В настоящее время эта функция доступна во всех корпусах, кроме Параллельных, англо-русского МультиПАРКа, а также корпусов «Берестяные грамоты» и «Эпиграфика». Если пользователь ограничил запрос конкретным подкорпусом, то показатель рассчитывается как отношение количества примеров в запросе к количеству слов в этом подкорпусе, умноженное на миллион. Если же подкорпус не выбран, то количество примеров в запросе делится на общее количество слов в корпусе и умножается на миллион. IPM рассчитывается для любого количества слов в запросе.
Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
23-25 апреля проводится международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2025».
Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.
В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.
В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.
Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.
В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.
В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.
Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
Проведено масштабное пополнение Регионального корпуса, в результате которого объем корпуса почти удвоился и достиг 69 млн слов!
В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.
Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.
Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работа над метатекстовой разметкой Регионального корпуса в 2025 г. поддержана Благотворительным фондом содействия образованию «ДАР».
В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.
Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.
Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работа над метатекстовой разметкой Регионального корпуса в 2025 г. поддержана Благотворительным фондом содействия образованию «ДАР».
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного и четырех исторических корпусов НКРЯ появился новый виджет с информацией о первом упоминании слова в текстах корпуса. Помимо даты первого упоминания, виджет также предоставляет контекстуальную информацию о нем: имя автора, название документа, а в корпусах берестяных грамот и эпиграфики — также тип носителя и локализация находки.
Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку.
Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку.
В апреле мы обновили главную страницу сайта, чтобы сделать работу с корпусом более эффективной и комфортной для начинающих пользователей. Поисковая строка теперь автоматически определяет тип запроса и направляет пользователя в оптимальный вид поиска. При вводе одного слова (словоформы или леммы) — система активирует лексико-грамматический поиск в Основном корпусе. При вводе фразы или словосочетания — выполняется поиск по точным формам в Основном корпусе.
Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.
Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.
Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
Сегодня отечественная лингвистика отмечает сразу две значимые даты: 90 лет со дня рождения Андрея Анатольевича Зализняка (1935-2017) и 21 год со дня запуска Национального корпуса русского языка.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
Умеете ли вы анализировать не только сами тексты, но и их метаданные?
Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.
Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.
Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.
Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.
Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
В текстах какой тематики «истина» встречается в Основном корпусе реже, чем «прогресс»?
Anonymous Quiz
49%
политология
17%
астрология, парапсихология, эзотерика
15%
логика
19%
философия
В текстах какого автора, представленного в корпусе «Русская классика», «пироги» встречаются чаще, чем «булки» и «хлеб»?
Anonymous Quiz
40%
Н. В. Гоголь
23%
И. А. Крылов
37%
М. Е. Салтыков-Щедрин
В СМИ какого региона России (по данным корпуса Региональных СМИ) «инвестиции» встречаются чаще, чем «урожай»?
Anonymous Quiz
29%
Камчатский край
15%
Амурская область
56%
Санкт-Петербург
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появилась возможность сравнить распределение метаатрибутов у нескольких запросов.
Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.
Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «От 2 до 15» и «Русская классика».
Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.
Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «От 2 до 15» и «Русская классика».
Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».