Компьютерный анализ текстов на латинском языке: тематическое моделирование «Истории готов, вандалов и свевов» Исидора Севильского
Компьютерный анализ текстов на латинском языке: тематическое моделирование «Истории готов, вандалов и свевов» Исидора Севильского
Аннотация
Код статьи
S207987840009681-8-1
DOI
10.18254/S207987840009681-8
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Кузнецов Алексей Валерьевич 
Аффилиация: Институт всеобщей истории РАН
Адрес: Российская Федерация, Москва
Аннотация

В статье предпринимается попытка с использованием современных методов обработки текстов провести анализ латиноязычного текста «Истории готов, вандалов и свевов» Исидора Севильского, в частности осуществить тематическое моделирование для выявления в памятнике скрытых семантических структур. В ходе исследования ставилась задача уточнить отношение Исидора Севильского к трем варварским народам. Анализ текста проводился на языке программирования R. В качестве модели для тематического моделирования была избрана модель латентного размещения Дирихле. Основным программным инструментом для исследования был пакет UDPipe. Тематическое моделирование проводилось при помощи предварительно обученной модели, созданной в рамках проекта Universal Dependencies на основе трибанка Index Thomisticus. Особое внимание в ходе создания тематической модели было уделено качеству предварительной обработки текста и выбору оптимального количества тем для тематического моделирования на основании метрики когерентности (согласованности) тем. В конце статьи анализируются результаты распределения выявленных тем по разделам сочинения Исидора Севильского.

Ключевые слова
Исидор Севильский, раннесредневековая историография, компьютерный анализ текстов, тематическое моделипрвание, латентное размещение Дирихле, согласованность тем
Классификатор
Получено
12.11.2019
Дата публикации
12.05.2020
Кол-во символов
29393
Всего подписок
26
Всего просмотров
288
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf 100 руб. / 1.0 SU

Для скачивания PDF необходимо авторизоваться

Полная версия доступна только подписчикам
Подпишитесь прямо сейчас
Подписка только на эту статью
100 руб. / 1.0 SU
Подписка на весь выпуск
1000 руб. / 10.0 SU
Все выпуски за 2020 год
1200 руб. / 20.0 SU

Библиография

1. Воронцов К. В. Обзор вероятностных тематических моделей // Автоматическая обработка текстов на естественном языке и анализ данных: учебное пособие / Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. М., 2017. С. 195—268.

2. Воронцов С. А. Wood J. The politics of identity in Visigothic Spain. Religion and power in the histories of Isidore of Seville. Brill, 2012 // Вестник ПСТГУ. Серия 1: Богословие. Философия. 2012. № 42 (4). С. 125—131.

3. Кузнецов А. В. Применения инструментов text mining для анализа средневековых латиноязычных текстов: предварительная обработка текстов // Научные исследования и разработки. Сборник научных работ 57й Международной научной конференции Евразийского Научного Объединения (г. Москва, ноябрь 2019). М., 2019. C. 68—70.

4. Anandarajan M., Hill C., Nolan T. Practical Text Analytics. Maximizing the Value of Text Data. (Advances in Analytics and Data Science. Vol. 2.) Springer, 2019. P. 45—59.

5. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Proceedings of Frontiers of Computer Science in China. June 2010. Vol. 4. Is. 2. P. 280—301.

6. Fridlund M., Brauer R. Historizing topic models: A distant reading of topic modeling texts within historical studies // Науки о культуре в перспективе “digital humanities”: Материалы Международной конференции 3—5 октября 2013 г., Санкт-Петербург / под ред. Л. В. Никифоровой, Н. В. Никифоровой. СПб., 2013. С. 152—163.

7. McGillivray B., Kilgarriff A. Tools for Historical Corpus Research, and a Corpus of Latin // New Methods in Historical Corpus Linguistics. № 3. 2013. P. 247—257.

8. Piotrowski M. 2012. Natural Language Processing for Historical Texts. (Synthesis Lectures on Human Language Technologies. Vol. 17.) Morgan & Claypool. San Rafael, 2012. P. 1—4.

9. Weingart S. B., Meeks E. The Digital Humanities Contribution to Topic Modeling // The Journal of Digital Humanities. Vol. 2 (1). Winter 2012. P. 1—5.

10. Wood J. The Politics of Identity in Visigothic Spain. Religion and Power in the Histories of Isidore of Seville. Leiden; Boston, 2012. P. 77, 159—260.