Проверка слова:  

 

«Русский язык за рубежом», № 3, 2002 год

 

Корпуса электронных текстов на русском и французском языках. Ресурсы и программное обеспечение

27.06.2003

В. Бене

В данной статье речь пойдет о корпусах (собраниях) электронных текстов, об их использовании и обработке.

Зачем нужны электронные версии различных текстов? Ведь гораздо менее удобно читать текст на экране, чем читать книгу или журнал. Однако если электронные тексты не совсем подходят для чтения человеком, то это единственные тексты, которые может «читать» компьютер. Таким образом, электронные тексты нужны не нам, а компьютерам.

Уже несколько лет существует так называемая «языковая промышленность». К этой сфере относится деятельность таких крупных компаний как XEROX, IBM, Microsoft, и т. д. В область профессиональных интересов этих известных трестов входит и прикладная лингвистика. Программные обеспечения типа Microsoft Word продаются во всем мире, а это значит, что их надо адаптировать ко всем языкам, что называется «локализацией». Для этого нужно составлять словари, словники, переводить все меню, вспомогательные файлы и т. д. Microsoft, например, предлагает локализированные версии своего программного обеспечения на двадцати пяти языках.

Лет десять назад появилась «Корпусная лингвистика» (linguistique de corpus), целью которой является составление собраний электронных текстов, подготовка их к компьютерной работе и разработка лингвистического программного обеспечения.
 

I. Лингвистические ресурсы

Первая задача лингвиста — сбор текстов, проверка их качества, составление электронных корпусов.

Для этого можно либо сканировать или набирать нужные тексты (долгая, скучная и требующая определенных денежных затрат работа), либо использовать лингвистические электронные ресурсы.

Вот перечень самых интересных ресурсов:
 

1. Собрания электронных текстов на русском языке

Онлай-ресурсы

Газеты

ресурсы на CD
 

2. Собрания электронных текстов на французском языке

Корпусов текстов на французском языке немало, они существуют уже давно, но, к сожалению, в большинстве своем платные.
 

Онлайн-ресурсы
 

ресурсы на CD:
 

Корпуса устной речи

Пока нет корпусов французской устной речи. Транскрипция устной речи требует существенных финансовых вложений, специфической методики и адекватного программного обеспечения.
 

3. корпуса текстов с аннотациями и разметками

Вторая задача лингвиста при создании корпуса текстов — составление системы разметки текстов (грамматической, синтаксической, семантической и проч.).
 

II. Программное обеспечение для лингвистов

Третья задача лингвиста — разработка (совместно с инженером по информатике) программного обеспечения для автоматического использования и обработки подготовленных текстов.

В необходимости существования корпусов электронных текстов и их полезности никто уже не сомневается. Подобные разработки стали частью лингвистической политики многих европейских государств.

Для лингвистических, литературоведческих исследований, преподавания французского и русского языков собрания электронных текстов также безусловно необходимы, и их нужно составлять и пополнять с помощью Интернет, систематически скачивая имеющиеся электронные библиотеки. Необходимо проделать работу по подготовке этих текстов (кодировка, маркирование и проч.) для дальнейшей эффективной работы с ними в той или иной сфере знаний.
 

Текущий рейтинг: