Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова
На примере проекта Chekhov Digital онлайн-журнал «Системный Блокъ» рассказывает о семантическом издании и о том, чем оно полезно.
Проект Chekhov Digital посвящен изучению литературного наследия Чехова. Семантическое издание — это цифровая форма текстов, снабженных структурно-семантической разметкой, что позволяет проводить интеллектуальный анализ и систематизацию внутритекстовых компонентов.
Подобная разметка произведений Чехова осуществляется с использованием стандарта TEI. Структура каждого документа включает описание библиографических и небиблиографических метаданных. Корпус таких TEI-документов представляет труды писателя в виде единой семантической сети, которую можно использовать для последующего компьютерного анализа и надстройки интерактивной поисковой системы. Проект Chekhov Digital помогает исследователям изучать социальные связи Чехова и его обширную переписку — 4500 писем, написанных в 1875–1904 годах.
Часть сущностей локальной базы знаний Chekhov Digital автоматически связывается с внешней базой знаний «Викиданные», благодаря чему можно исследовать пересечения социальных сетей разных авторов. В рамках проекта также разрабатывается семантическое издание текстов Льва Толстого.
Еще на
эту тему
Подкаст «Что это значит?» проясняет смысл необычных современных слов
Даже если вы избегаете новых заимствований, полезно понимать, откуда взялись ретрит, косты и непо-бейбис
В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»
Мероприятие организовано Домом народов России при поддержке ФАДН России
В Метасловаре Грамоты появилась возможность проверять ударения при подготовке к ЕГЭ по русскому языку
Все слова, вошедшие в орфоэпический словник, отмечены специальной плашкой
«Говорим по-русски!»: воспоминания об Апресяне, литургическая поэзия, лубок и уроки чтения
О чем говорили Ольга Северская и ее гости весной 2024 года
Как относиться к русскому мату? Мария Ровинская в подкасте «Кот Шредингера»
О табу и правилах безопасности при использовании сильных языковых средств