Корпуса эрзянского языка
Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса эрзянского языка. В настоящий момент доступны два корпуса: корпус современного литературного эрзянского («основной корпус») и корпус эрзянских соцсетей и форумов. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:
|
Основной корпус |
Корпус соцсетей |
Язык |
эрзянский |
эрзянский и русский |
Размер |
2,3 миллионов словоупотреблений |
830 тысяч словоупотреблений (эрзянская часть) 5,23 миллионов словоупотреблений (русская часть) |
Тексты |
современная пресса (до июля 2018 г.) — 67,4%, художественная литература XX века — 14%; Новый завет в двух переводах — 6,7%; блоги — 6%; Википедия, публицистика |
открытые посты и комментарии эрзяноязычных пользователей Вконтакте (до июля 2018 г.)— 48,5%; форум erzianj.borda.ru — 35%; форум erzianraske.forum24.ru — 16,5% |
Регистр языка |
в большинстве случаев нормативный письменный литературный эрзянский или близкий к нему |
язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов |
Разметка |
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,6% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
- омонимия не снималась
- разметка русских заимствований
- разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, диминутивы
- глоссирование
- переводы лемм на русский язык
|
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 90,7% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
- омонимия не снималась
- разметка русских заимствований
- разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, диминутивы
- глоссирование
- переводы лемм на русский язык
|
Метаданные |
- название текста
- автор или название издания
- год создания (точная дата в случае газет)
- жанр
|
- название группы (для групп)
- открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет); имена и ники пользователей скрыты
- год написания
- тип записи (пост/комментарий)
- язык (определяется автоматически отдельно для каждого предложения)
|
Кроме представленных здесь корпусов, существует ещё один общедоступный эрзянский корпус, созданный Джеком Рютером. Он содержит литературные тексты общим объёмом 800 тысяч словоупотреблений, но не имеет морфологической разметки.
Более подробную информацию о содержании эрзянского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:
Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.
Что такое корпус?
Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах эрзянского языка.
— Кому нужны корпуса?
В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова катка перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.
— Можно ли использовать корпус как библиотеку?
Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.
— Можно ли использовать корпус как словарь?
У каждого эрзянского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет эрзянским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.
— Что такое морфологическая разметка и как она сделана?
В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание эрзянского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на битбакете. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму валдо, анализатор не может понять, является ли это основной формой слова валдо («светлый»), формой аблатива от слова вал («о слове») или вообще формой глагола валомс «лить, сыпать». Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.
Эрзянский язык
Эрзянский язык — язык мордовской подгруппы уральских языков. Точное число говорящих неизвестно, поскольку в переписях большинство носителей эрзянского и мокшанского указывает «мордовский» в качестве родного языка; вероятно, речь идёт примерно о 400 тысячах человек. Для записи используется кириллическая орфография, алфавит совпадает с русским. Все морфологические категории выражаются суффиксально и в основном агглютинативно, большинство суффиксов имеет два сингармонических варианта (с гласными о/э и палатализованными/непалатализованными согласными). Именные грамматические категории включают число, падеж, определённость и посессивность. На переходных глаголах могут индексироваться лицо и число субъекта и объекта (субъектно-объектное спряжение). Прямое дополнение маркируется номинативом или генитивом (дифференциальное маркирование). Порядок слов в предложении свободный, по умолчанию — SVO (подлежащее – глагол – прямое дополнение).
Авторы
Разработкой этих корпусов занимается Тимофей Архангельский в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия корпуса была создана летом 2018 года, работа над над ним продолжается. Фотография для фона была любезно предоставлена Полиной Плешак. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.