От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Онлайн-журнал «Системный Блокъ» рассказал о масштабных нововведениях в НКРЯ: появились новые корпуса и новые функции.
Национальный корпус русского языка (НКРЯ) — ключевой инструмент для исследователей русского языка, литературы и словесной культуры. В 2019 году возникли опасения по поводу возможного закрытия сервиса, однако он не только продолжил свою работу, но и значительно расширился. Обновления включают как новый дизайн сайта, так и содержательные изменения.
Один из наиболее значимых новых корпусов — панахронический, который объединяет тексты разных исторических периодов (начиная со Средневековья и заканчивая современностью). Он позволяет исследователям формулировать запросы, охватывающие несколько веков развития русского языка. Унифицированные грамматические признаки облегчают поиск по различным формам слова.
Новый корпус «Русская классика» включает в себя собрание сочинений русских авторов, в том числе разные редакции и даже черновики произведений. Кроме того, создан корпус детской литературы «От 2 до 15». Каждое произведение размечено по возрастам при помощи нейросетей. В корпус вошли 75 популярных произведений зарубежных и отечественных авторов.
Еще один интересный корпус — коллекция записей из блогов и социальных сетей. Он позволяет исследовать диалоговую природу текстов и выявить отличия между материалами блогов и текстами других корпусов.
Нейросетевая программа «РуБик» отвечает за автоматическое снятие омонимии, что улучшило качество морфологической разметки. Добавление функции поиска коллокаций позволяет выявлять слова, которые часто встречаются вместе с заданными словами. Также появилась функция отображения частотности употребления слов и словосочетаний в выдаче.
Эти и другие нововведения значительно расширяют возможности НКРЯ, делая его более удобным и функциональным инструментом для исследователей русского языка и текстовой культуры.
Еще на
эту тему
Подкаст «Что это значит?» проясняет смысл необычных современных слов
Даже если вы избегаете новых заимствований, полезно понимать, откуда взялись ретрит, косты и непо-бейбис
В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»
Мероприятие организовано Домом народов России при поддержке ФАДН России
В Метасловаре Грамоты появилась возможность проверять ударения при подготовке к ЕГЭ по русскому языку
Все слова, вошедшие в орфоэпический словник, отмечены специальной плашкой
«Говорим по-русски!»: воспоминания об Апресяне, литургическая поэзия, лубок и уроки чтения
О чем говорили Ольга Северская и ее гости весной 2024 года
Как относиться к русскому мату? Мария Ровинская в подкасте «Кот Шредингера»
О табу и правилах безопасности при использовании сильных языковых средств