Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Историческая информатика
Правильная ссылка на статью:

Компьютерный анализ текстов на латинском языке: Латентно-семантический анализ «Истории готов, вандалов и свевов» Исидора Севильского

Кузнецов Алексей Валерьевич

кандидат исторических наук

научный сотрудник, Институт всеобщей истории РАН

119334, Россия, г. Москва, Ленинский проспект, 32 а, оф. 1426

Kuznetsov Alexey

PhD in History

Research worker, General History Institute of the Russian Academy of Sciences

119334, Russia, g. Moscow, Leninskii prospekt, 32 a, of. 1426

kuznetsovaleks@rambler.ru

DOI:

10.7256/2585-7797.2020.2.32961

Дата направления статьи в редакцию:

22-05-2020


Дата публикации:

30-07-2020


Аннотация: В статье предпринимается попытка с использованием современных методов интеллектуального анализа текстов исследовать латиноязычный текст хроники «История готов, вандалов и свевов» выдающегося богослова и ученого VII века Исидора Севильского. Ставится цель проверить выдвинутую в историографии гипотезу о наличии у автора представлений об определенной иерархии варварских народов. Основное внимание направлено на раскрытие неявных семантических взаимоотношений между различными частями произведения с целью уточнения отношения автора к трем варварским народам. Анализ текста проводился на языке программирования R. В качестве конкретного метода бы выбран метод латентно-семантического анализа, позволяющий проводить сравнение и кластеризацию текстов на основе семантического пространства, построенного путем сингулярного разложения терм-документной матрицы. Новизна исследования заключается в том, что впервые реализован полный цикл латентно-семантического анализа средневекового латиноязычного текста. Проведена предварительная подготовка, построено семантическое пространство текста памятника, осуществлено сравнение семантической схожести текстов на основе меры косинусного сходства. Результаты анализа позволяют утверждать, что Исидор Севильский действительно выстраивает иерархию из трех варварских народов, придавая большее сходство описанию вестготов и свевов и особняком ставя вандалов.


Ключевые слова:

Исидор Севильский, раннесредневековая историография, компьютерный анализ текстов, латентно-семантический анализ, сингулярное разложение, кластерный анализ, семантическое пространство, интеллектуальный анализ текста, векторная модель текстов, терм-документная матрица

Abstract: The article attempts to study the Latin text of the chronicle “Historia de regibus Gothorum, Wandalorum et Sueborum” written by the famous 17th c. theologist and scholar Isidoro de Sevilla by means of advanced methods of intellectual text analysis. The main goal is to verify the hypothesis that the author had ideas about the hierarchy of barbarians. The main focus is to clarify the implicit semantic relationship between different parts of the chronicle in order to find out the author’s attitude to these three barbaric groups. The analysis of the text was performed with the R programming language. The specific method is that of latent semantic analysis providing for comparing clustering of texts on the basis of semantic space designed through the singular decomposition of term-document matrix. The research novelty of the study is that it is the first time when a full cycle latent semantic analysis of a Medieval Latin text has been performed which covered the text preprocessing, the creation of the semantic space and the calculation of the semantic similarity of texts on the basis of cosine similarity measure. The analysis results suggest that Isidoro de Sevilla really built the hierarchy of three barbarian groups providing greater similarity to the description of the Visigoths and the Suebi and putting the Vandals apart.


Keywords:

Isidore of Seville, early Middle Age historiography, computational text analysis, latent semantic analysis, singular value decomposition, cluster analysis, semantic space, text mining, vector space text representations, term-document matrix

Введение

Исидор Севильский (ок. 560–636) известен как выдающийся ученый, богослов, церковный и политический деятель конца VI – начала VII веков, энциклопедист, внесший неоценимый вклад в сохранение и творческую переработку античного наследия. Высокий интерес к творчеству Исидора Севильского сохраняется с 1960-х гг., когда отмечался его 1400 летний юбилей [1, с. 205]. Среди множества проблем в поле зрения исследователей его трудов одной из наиболее часто рассматриваемых в настоящее время является, пожалуй, проблема отражения в них формирования национальной, политической и религиозной идентичности в государстве вестготов [2, 3, 4, 5]. В сравнительно недавно увидевшей свет монографии Дж. Вуд выдвинул гипотезу о наличии в исторических сочинениях Исидора единой программы, направленной на обоснование политического и религиозного господства вестготов в Испании [3, p.77, p. 159-260]. В «Истории готов, вандалов и свевов», по мнению Дж. Вуда, он выстраивает своеобразную иерархию варварских народов, на вершине которой располагаются вестготы [3, p. 153-161]. Другие варварские народы сознательно умаляются и делигитимизируются. Ярче всего это проявляется в используемых Исидором системах датирования исторических событий. В разделе, посвященном истории вестготов, он применяет двойную систему хронологических указателей – отмечает год в соответствии с Испанской эрой (отсчет лет с 1 января 38 года до н. э.) и соответствующий ему год правления римских императоров, а в разделах, посвященных истории вандалов и свевов, только по годам Испанской эры [3, p. 156]. Особенно негативный образ Исидор создает вандалам, неоднократно указывая на их приверженность арианской вере. В противоположность им свевы, создавшие на северо-западе Испании собственное королевство и одновременно с вестготами перешедшие в никейскую веру, наделяются определенной религиозной и политической легитимностью. Исследователь выдвигает тезис, согласно которому Исидор таким образом подчеркивает, что свевы являются наиболее подходящим объектом для вестготского господства [3, p. 161]. Предположения Дж. Вуда были, впрочем, подвергнуты критике за недостаточную обоснованность его выводов текстами источников [6, с. 129]. В данной статье мы предполагаем попробовать значительно глубже понять отношение Исидора к трем варварским народам, раскрыть неявные идеи и смыслы, содержащиеся в «Истории готов, вандалов и свевов», используя метод латентно-семантического анализа – один из методов интеллектуального анализа текстов (англ. text mining). Интеллектуальный анализ текстов – это направление в искусственном интеллекте, цель которого получение информации из неструктурированных текстовых данных путём их преобразования в пригодный для анализа набор структурированных данных при помощи методов обработки естественного языка (англ. Natural Language Processing, NLP) и машинного обучения (англ. Machine Learning) [7, p. 1-15].

Метод латентно-семантического анализа

Применительно к анализу текстов на естественном языке латентно-семантический анализ (англ. Latent Semantic Analysis, LSA) понимается как метод, раскрывающий взаимосвязь между набором документов и термами (словами, n-граммами), представленными в виде векторов в многомерном латентно-семантическом пространстве [8, p. 111-113]. Под вектором документа понимается вектор, координатами которого являются частоты вхождений термов словаря в этот документ. Теоретическим основанием латентно-семантического анализа является так называемая дистрибутивная гипотеза, согласно которой, слова со схожим значением имеют тенденцию встречаться в схожих контекстах [9]. В латентно-семантическом пространстве представленные в виде векторов слова и документы, сходные по значению, будут стремиться находиться в близких областях пространства, что дает возможность сравнивать семантические значения слов и документов. Сравнение в большинстве случаев реализуется путем вычисления косинуса угла между векторами соответствующих слов и документов [10, p. 931],[11, p.84-87].

Часто латентно-семантический анализ рассматривают в контексте развития методов тематического моделирования [12],[13, p. 368-389], то есть способов построения моделей коллекции текстовых документов на основе анализа совместной встречаемости термов, которые определяют, к каким те мам относится каждый из документов, и какие термы образуют эти темы. Тематическое моделирование помогает обнаружить в коллекции документов скрытые темы, аннотировать документы с помощью этих тем и организовывать большой объем неструктурированных данных. Такой подход к латентно-семантическому анализу верен лишь отчасти, поскольку область применения этого метода значительно шире рамок тематического моделирования.

Впервые латентно-семантический анализ был описан и запатентован в конце 1980-х годов под наименованием латентно-семантическое индексирование (англ. Latent Semantic Indexing) [14, 15] как метод автоматического индексирования текстов и информационного поиска [16]. Его использование позволило повысить эффективность работы информационно-поисковых систем, преодолев две основные сложности в информационном поиске: полисемию (многозначность терминов) и синонимию (сходство значения различных слов) [17, с. 411-412]. Этот метод также успешно используется для решения других задач обработки естественного языка, в том числе для автоматического поиска рецензентов [18], реферирования текстов [19], тематического моделирования [12, с. 219-222]. Несколько позднее метод латентно-семантического анализа стал успешно использоваться в психологии для построения когнитивных моделей понимания и формирования знания [20, 22],[21, с. 19-20] моделей долговременной и кратковременной памяти у детей разного школьного возраста на базе детских текстов [23], оценки понимания текстов [24]. Отдельно стоит отметить, что латентно-семантический анализ нашел применение в системах тестирования знаний, в случаях, когда надо проверить правильность ответов в свободной форме [20]. Для нас наиболее значимым является то, что латентно-семантический анализ был и остается одним из наиболее эффективных методов классификации и индексации текстов, оценки их семантической близости [25, 26, 27].

Экспериментальная часть

Латентно-семантический анализ проводился с использованием латинского текста «Истории готов, вандалов и свевов» из первого издания в Patrologia Latina Жак-Поль Миня [28]. Электронный текст памятника доступен в «Patrologia Latina Database» [29], а также на сайте проекта «The Latin Library» [30].

Для проведения латентно-семантического анализа части произведения Исидора Севильского были представлены в виде отдельных документов. Обычно в сочинении выделяются четыре части «Пролог» (Prologus), известный также под названием «Похвала Испании» (Laus Spaniae), и три части посвященные соответственно истории готов, вандалов и свевов. В первой части (главы 1-70) речь идет о происхождении готов, переселении их на земли Римской империи, создании готских королевств, правлению вестготских королей в Испании и объединении всей Испании под их властью. В конце первой части (главы 66-70) расположены «Выводы» (Item recapitulatio ejusdem Isidori in Gothorum laudem) краткое изложение истории готов. «Выводы» мы также выделили в отдельный документ. Как и «Пролог» они стилистически отличающиеся от всего текста и по аналогии с «Похвалой Испании» представляет собой своеобразную «Похвалу готам». Во второй части (главы 71-84) рассказывается о нашествии вандалов, создании их государства в Испании и Африке и о падении их государства. В третьей части – об образовании королевства свевов в Испании и их присоединении к королевству вестготов. Таким образом мы будем анализировать всего пять документов: «Пролог», «Историю готов», «Выводы», «Историю вандалов», «Историю свевов».

Анализ текста проводился при помощи среды программирования R. Текст скрипта на языке R и все ресурсы доступны в репозитории сервиса GitHub [31].

В обобщенном виде латентно-семантический анализ текста применительно к классификации документов и сравнению их семантической близости включает следующие этапы [10, p. 931],[11, p.80-87],[32, p. 456-460]:

1) предварительная обработка текста;

2) создание терм-документной матрицы из набора документов;

3) взвешивание термов в терм-документной матрице;

4) создание семантического пространства набора документов;

5) сравнение векторов термов или документов в латентном семантическом пространстве, путем вычисления косинуса угла между векторами или другим методом.

Предварительная обработка текстов является важнейшим этапом для любых методов и приемов интеллектуального анализа текстов, от неё во многом зависят полученные результаты. Цель предварительной обработки – преобразовать неструктурированные тексты в пригодный для анализа формат данных при помощи методов обработки естественного языка. В зависимости от стоящих задач предварительная обработка текста может включать в различном сочетании следующие операции [7, p. 37-44],[11, p. 45-59],[33]: 1. Токенизация – разбиение текста на фрагменты (абзацы, предложения, слова, N-граммы). 2. Очистка текста – удаление лишних пробелов и пустых строк, типографских знаков, чисел, знаков препинания, перевод всех букв в нижний регистр. 3. Удаление стоп-слов – малозначимых и низкоинформативных (как правило, служебные части речи, местоимения, числительные). 4. Лемматизация – приведение слова к словарной форме (в латинском языке словарная форма глаголов соответствует форме первого лица единственного числа, существительных и прилагательных – именительному падежу единственного числа) или стемминг – выделение основы слова. Отметим, что стемминг для латиноязычных текстов не применим, поскольку приведет к потере или искажению значимой информации. 5. Частеречная разметка – определение части речи и морфологической формы слов в тексте. 6. Синтаксический парсинг – определение синтаксических зависимостей слов в предложении.

Предварительная обработка латиноязычных текстов имеет свою специфику, обусловленную развитой системой словоформ [33], без приведения которых к словарной форме адекватный анализ текста провести невозможно. Обработка текста «Истории готов, вандалов и свевов» Исидора Севильского была проделана с использованием пакетов tm [34] и UDPipe [35]. При помощи пакета tm буквы были переведены в нижний регистр, удалены числа и знаки препинания. Для удаления стоп-слов был составлен собственный их список. За основу взят список латинских стоп-слов проекта Perseus Digital Library [36], в который дополнительно были добавлены римские цифры во множестве присутствующие в тексте, а также некоторые часто встречающиеся, но малоинформативные слова. В их числе такие как «annus», «aera» используемые Исидором для обозначения дат. Далее с помощью пакета UDPipe текст был разбит на предложения, проведена лемматизация. Как результат – сформирована таблица данных (data frame), в которой для каждого слова в тексте приведена информация о начальной форме слова (лемме), морфологической форме слова и синтаксической роли в предложении.

На основе созданной с помощью пакета UDPipe таблицы данных можно сформировать матрицу терм-документ (term-document matrix) – базу латентно-семантического анализа, математическую матрицу, описывающую частоту терминов в коллекции документов [11, p.77],[32, p. 458-459]. В такой матрице каждый столбец соответствуют документу, а строки – термам (словам, фразам, N-граммам или как в нашем случае – леммам). Количество столбцов равно количеству документов, а количество строк – размеру словаря всей коллекции документов, числа в ячейках обозначают количество встречаемости слов в каждом из документов (см. табл. 1).

1

2

3

4

5

accipio

0

1

0

1

2

acies

0

3

0

0

0

adeo

0

11

1

0

0

africus

0

3

0

7

1

agilanis

0

3

0

0

0

alanus

0

0

1

2

0

alaricus

0

6