Корпуса эрзянского языка


Вы находитесь на общей стартовой странице корпусов эрзянского языка: основного корпуса литературного эрзянского (пресса, блоги, художественная и небольшое количество нехудожественной литературы) и корпуса эрзянских соцсетей и форумов.

Подробнее К основному корпусу К корпусу соцсетей

Корпуса эрзянского языка

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса эрзянского языка. В настоящий момент доступны два корпуса: корпус современного литературного эрзянского («основной корпус») и корпус эрзянских соцсетей и форумов. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:

Основной корпус Корпус соцсетей
Язык эрзянский эрзянский и русский
Размер 2,3 миллионов словоупотреблений 830 тысяч словоупотреблений (эрзянская часть)
5,23 миллионов словоупотреблений (русская часть)
Тексты современная пресса (до июля 2018 г.) — 67,4%, художественная литература XX века — 14%; Новый завет в двух переводах — 6,7%; блоги — 6%; Википедия, публицистика открытые посты и комментарии эрзяноязычных пользователей Вконтакте (до июля 2018 г.)— 48,5%; форум erzianj.borda.ru — 35%; форум erzianraske.forum24.ru — 16,5%
Регистр языка в большинстве случаев нормативный письменный литературный эрзянский или близкий к нему язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов
Разметка
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,6% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, диминутивы
  • глоссирование
  • переводы лемм на русский язык
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 90,7% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, диминутивы
  • глоссирование
  • переводы лемм на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год создания (точная дата в случае газет)
  • жанр
  • название группы (для групп)
  • открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет); имена и ники пользователей скрыты
  • год написания
  • тип записи (пост/комментарий)
  • язык (определяется автоматически отдельно для каждого предложения)

Кроме представленных здесь корпусов, существует ещё один общедоступный эрзянский корпус, созданный Джеком Рютером. Он содержит литературные тексты общим объёмом 800 тысяч словоупотреблений, но не имеет морфологической разметки.

Более подробную информацию о содержании эрзянского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах эрзянского языка.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова катка перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого эрзянского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет эрзянским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.

— Что такое морфологическая разметка и как она сделана?

В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание эрзянского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на битбакете. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму валдо, анализатор не может понять, является ли это основной формой слова валдо («светлый»), формой аблатива от слова вал («о слове») или вообще формой глагола валомс «лить, сыпать». Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.

Эрзянский язык

Эрзянский язык — язык мордовской подгруппы уральских языков. Точное число говорящих неизвестно, поскольку в переписях большинство носителей эрзянского и мокшанского указывает «мордовский» в качестве родного языка; вероятно, речь идёт примерно о 400 тысячах человек. Для записи используется кириллическая орфография, алфавит совпадает с русским. Все морфологические категории выражаются суффиксально и в основном агглютинативно, большинство суффиксов имеет два сингармонических варианта (с гласными о/э и палатализованными/непалатализованными согласными). Именные грамматические категории включают число, падеж, определённость и посессивность. На переходных глаголах могут индексироваться лицо и число субъекта и объекта (субъектно-объектное спряжение). Прямое дополнение маркируется номинативом или генитивом (дифференциальное маркирование). Порядок слов в предложении свободный, по умолчанию — SVO (подлежащее – глагол – прямое дополнение).

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для эрзянского языка в алфавитном порядке с расшифровкой. Набор тэгов в обоих корпусах одинаков.

  • A — прилагательное
  • APRO — местоимение-прилагательное
  • ADV — наречие
  • ADVPRO — местоимение-наречие
  • CONJ — союз
  • IMIT — идеофон (изобразительное слово)
  • INTRJ — междометие
  • N — существительное
  • NUM — числительное
  • PARENTH — вводное слово
  • PART — частица
  • PN — имя собственное (подтип существительного)
  • POST — послелог
  • PREDIC — предикатив
  • PRO — местоимение
  • V — глагол
  • 1.o — 1 лицо объекта
  • 1.s — 1 лицо субъекта
  • 1pl — притяжательный суффикс 1 л. мн. ч.
  • 1sg — притяжательный суффикс 1 л. ед. ч.
  • 2.o — 2 лицо объекта
  • 2.s — 2 лицо субъекта
  • 2pl — притяжательный суффикс 2 л. мн. ч.
  • 2sg — притяжательный суффикс 2 л. ед. ч.
  • 3.o — 3 лицо объекта
  • 3.s — 3 лицо субъекта
  • 3pl — притяжательный суффикс 3 л. мн. ч.
  • 3sg — притяжательный суффикс 3 л. ед. ч.
  • abbr — аббревиатура
  • abl — аблатив
  • add — аддитивная клитика
  • all — аллатив
  • anim — одушевлённое существительное
  • body — часть тела
  • car — каритив (абэссив)
  • case_comp — двойное падежное маркирование
  • caus — каузатив (-вт-)
  • coll — собирательное числительное
  • com — комитатив (непродуктивный)
  • comp — компаратив
  • cond — кондиционал
  • cvb.caus — деепричастие причины (-мга)
  • cvb.simult — деепричастие одновременности (-мсто/-мстэ)
  • dat — датив
  • def — определённое склонение
  • desid — дезидератив
  • dim — диминутив
  • distr — дистрибутивное числительное
  • el — элатив
  • famn — фамилия
  • gen — генитив
  • hum — существительное, означающее человека
  • ill — иллатив
  • imp — императив
  • inch — инхоатив (-зев-)
  • inf — инфинитив (-мс)
  • iter — итератив (-кшн-)
  • loc — локатив/инэссив
  • missp — опечатка или ошибка в орфографии
  • mult — мультипликатив (-не-, -се-)
  • neg — отрицательная форма
  • nmlz — любая номинализация
  • nmlz_ma — номинализация на -ма
  • nmlz_mka — номинализация на -мка
  • nmlz_mo — номинализация на -мо/-ме
  • nom — номинатив (немаркированная форма)
  • non_obj — безобъектное спряжение
  • npst — непрошедшее время
  • num_approx — приблизительное числительное
  • opt — оптатив
  • ord — порядковое числительное
  • pair — парное числительное
  • pass — пассив (-в-)
  • patrn — отчество
  • persn — личное имя
  • pl — множественное число
  • pl.o — множественное число объекта
  • pl.s — множественное число субъекта
  • pl_comp — множественное число при двойном падежном маркировании
  • prol — пролатив
  • pst — первое прошедшее время
  • pst2 — второе прошедшее время
  • ptcp.hab — действительное причастие настоящего времени
  • ptcp.prs.pass — страдательное причастие настоящего времени
  • ptcp.pst — причастие прошедшего времени
  • rel_n — реляционное имя (изменяемый послелог)
  • rus — заимствование из русского или через русский
  • sg — единственное число
  • sg.o — единственное число объекта
  • sg.s — единственное число субъекта
  • subj — конъюнктив
  • supernat — сущесвтительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
  • time_meas — единица измерения времени
  • topn — топоним
  • trans — транслатив
  • transport — транспорт

Набор тэгов для русского языка (в русских предложениях корпуса соцсетей) можно посмотреть на сайте Национального корпуса русского языка.

Авторы

Разработкой этих корпусов занимается Тимофей Архангельский в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия корпуса была создана летом 2018 года, работа над над ним продолжается. Фотография для фона была любезно предоставлена Полиной Плешак. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая опечаток в блогах и соцсетях: эти тексты специально оставляются в исходном виде, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению свободно распространяемые эрзянский морфологический анализатор и корпусную платформу tsakorpus.