Корпусные исследования средневековых славянских рукописей: статистически значимые n-граммы (коллокации) древнерусских летописей
Корпусные исследования средневековых славянских рукописей: статистически значимые n-граммы (коллокации) древнерусских летописей
Аннотация
Код статьи
S207987840009440-3-1
DOI
10.18254/S207987840009440-3
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Баранов Виктор Аркадьевич 
Аффилиация: Ижевский государственный технический университет
Адрес: Российская Федерация, Ижевск
Аннотация

Рассматривается современное состояние подготовки славянских исторических текстовых корпусов, требования к ним с точки зрения обработки, поиска и демонстрации лингвистических данных. Указывается, что основными причинами медленного развития направления являются высокая трудоемкость ручного создания машиночитаемых транскрипций и их разметки и необходимость подготовки специализированных корпусных менеджеров, обеспечивающих доступ к данным и их визуализацию. Подчеркивается, что одним из актуальных направлений использования корпусных данных является их анализ с помощью количественных и статистических методов. Описываются функциональные возможности исторического корпуса «Манускрипт», содержащего средневековые славянские рукописи X—XV вв. (manuscripts.ru). На примере подкорпуса трех древнерусских летописей (Лаврентьевской, Ипатьевской, Радзивилловской) демонстрируются возможности модуля n-грамм для выявления грамматически и семантически устойчивых словосочетаний, характеризующих тематику текстов. С помощью статистических мер Mutual Information и T-score выявляются перечни относительно редких и наиболее частотных устойчивых сочетаний. MI-перечни включают имена собственные, парные именования, устойчивые библейские и славяно-книжные подчинительные конструкции. T-score-перечни дают информацию о событиях, целях, лицах, результатах и о их характеристиках. Делается вывод об эффективности использования статистических методов для автоматического нахождения семантически и тематически значимых сочетаний в исторических источниках.

Ключевые слова
русские летописи, лингвистическая статистика, n-граммы, коллокации
Источник финансирования
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (РФФИ) в рамках проекта «Лингвостатистический анализ однокомпонентных и многокомпонентных лексических единиц исторического корпуса “Манускрипт”» (проект № 18-012-00463).
Классификатор
Получено
19.10.2019
Дата публикации
12.05.2020
Кол-во символов
64254
Всего подписок
25
Всего просмотров
276
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf 100 руб. / 1.0 SU

Для скачивания PDF необходимо авторизоваться

Полная версия доступна только подписчикам
Подпишитесь прямо сейчас
Подписка только на эту статью
100 руб. / 1.0 SU
Подписка на весь выпуск
1000 руб. / 10.0 SU
Все выпуски за 2020 год
1200 руб. / 20.0 SU

Библиография

1. Баранов В. А. Исторический корпус как цель и инструмент корпусной палеославистики // Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies. Vol. 14—15. Sofia, 2015. C. 39—62 [Электронный ресурс]. URL: https://tinyurl.com/ycsr4skc (дата обращения: 06.05.2018).

2. Баранов В. А. Количественный и статистический анализ средневековых славянских текстов: инструментарий корпуса «Манускрипт» и методика его использования // Цифровая гуманитаристика: ресурсы, методы, исследования: материалы Междунар. науч. конф. (г. Пермь, 16—18 мая 2017 г.): в 2 ч. Перм. гос. нац. исслед. ун-т. Пермь, 2017. Ч. 1. С. 40—49.

3. Баранов В. А. Количественный и статистический анализ средневековых текстов: ключевые слова славянских служебных миней XI—XIV вв. // Естественнонаучные методы в цифровой гуманитарной среде: материалы Всерос. науч. конф. с междунар. участием (г. Пермь, 15—18 мая 2018 г.). Перм. гос. нац. исслед. ун-т. Пермь, 2018. С. 73—77.

4. Баранов В. А. Модуль n-грамм исторического корпуса «Манускрипт»: структурные и лингвистические параметры // Научное наследие В. А. Богородицкого и современный вектор исследований Казанской лингвистической школы: тр. и матер. междунар. конф. (Казань, 31 окт. — 3 нояб. 2016 г.): в 2 т. / под общ. ред. К. Р. Галиуллина, Е. А. Горобец, Г. А. Николаева. Казань, 2016. Т. 1. С. 50—61.

5. Баранов В. А. Опыт создания модуля n-грамм системы «Манускрипт» и оценки эффективности его использования для поиска коллокаций в корпусе М. В. Ломоносова // Интеллектуальные системы в производстве. 2016. № 4 (31). С. 124—131.

6. Баранов В. А. Организация поиска и демонстрации коллокаций в корпусе «Манускрипт» // Проблемы истории, филологии, культуры. 3 (45). М.; Магнитогорск; Новосибирск, 2014. С. 275—277.

7. Баранов В. А. Статистически значимые слова как характеристика средневекового славянского текста (на материале коллекции Апостолов исторического корпуса «Манускрипт») // Гуманитарное образование и наука в техническом вузе. Сборник докладов Всероссийской научно-практической конференции с международным участием (Ижевск, 24—27 октября 2017 г.). Ижевск, 2017. С. 359—369.

8. Кочеткова Н. А. Статистические языковые методы. Коллокации и коллигации // Cyberleninka.ru [Электронный ресурс]. URL: http://cyberleninka.ru/article/n/statisticheskie-yazykovye-metody-kollokatsii-i-kolligatsii (дата обращения: 06.05.2018).

9. Лукашевич Н. В., Логачев Ю. М. Комбинирование признаков для автоматического извлечения терминов // Вычислительные методы и программирование. Т. 2. 2010. С. 108—116 [Электронный ресурс]. URL: https://elibrary.ru/download/elibrary_15272886_42034432.pdf (дата обращения: 06.05.2018).

10. Миронова Д. М. Автоматизированная классификация древних рукописей (На материале 525 списков славянского Евангелия от Матфея XI—XVI вв.): дис. … канд. филол. наук: 10.02.21 — Прикладная и математическая лингвистика. СПб., 2018.

11. Нечунаева Н. А., Нечунаев А. В. Типология рукописей славянских миней XI—XIV вв. и методы информационного поиска // El’Manuscript—2016. Rašytinis palikimas ir skaitmeninės technologijos: VI tarptautinė mokslinė konferencija, Vilnius, 2016 m. rugpjūčio 22—28 d. Pranešimai / ats. red. V. Baranovas, Т. Timčenko. Vilnius; Iževskas, 2016. С. 274—274.

12. Хохлова М. В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы / под ред. А. Мустайоки, М. В. Копотева, Л. А. Бирюлина, Е. Ю. Протасова. Хельсинки, 2008. С. 343—357 [Электронный ресурс]. URL: https://preview.tinyurl.com/ybrkzcbw (дата обращения: 06.05.2018).

13. Ягунова Е. В., Пивоварова Л. М. От коллокаций к конструкциям // Русский язык: конструкционные и лексико-семантические подходы / отв. ред. С. С. Сай. СПб., 2013. (Acta Linguistica petropolitana. Труды Института лингвистических исследований РАН / отв. ред. Н. Н. Казанский, Е. В. Ягунова, Л. М. Пивоварова [Электронный ресурс]. URL: https://preview.tinyurl.com/y7h4gv6z (дата обращения: 06.05.2018).

14. Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Сб. НТИ. Сер. 2. № 6. М., 2010 [Электронный ресурс]. URL: http://medialing.spbu.ru/upload/files/file_1394529742_4311.pdf, http://webground.su/services.php?param=priroda_collac&part=priroda_collac.htm (дата обращения: 06.05.2018).

15. Evert S. Association Measures // Computational Approaches to Collocations [Электронный ресурс]. URL: http://collocations.de/AM/index.html (дата обращения: 06.05.2018).