Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Программные системы и вычислительные методы
Правильная ссылка на статью:

Батура Т.В. Методы определения авторского стиля текстов и их программная реализация

Аннотация: Статья представляет собой обзор формальных методов атрибуции текстов. Задачи определения авторства текстов встречаются в различных областях и представляют интерес для филологов, литературоведов, историков, юристов. При решении задачи атрибуции наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. В некотором смысле более узкой задачей является задача сентимент-анализа (определения тональности текста). Методы ее решения могут оказаться полезными при определении автора текста. К сожалению, экспертный анализ авторского стиля является трудоемким и длительным процессом. Целесообразно создание новых подходов, позволяющих хотя бы частично автоматизировать деятельность экспертов. Поэтому в статье уделяется внимание именно формальным методам идентификации авторов текстов и программной реализации этих методов. В настоящее время для атрибуции текстов применяются алгоритмы сжатия данных, методы математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. В статье приведено описание наиболее известных на сегодняшний день программных систем для определения авторского стиля текстов на русском языке, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилестических параметров текста и проблему составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, на поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки.


Ключевые слова:

атрибуция текста, определение авторства, формальные параметры текста, авторский стиль, классификация текстов, машинное обучение, стастистический анализ, компьютерная лингвистика, идентификация стиля автора, анализ текстовой информации

Abstract: the article presents a review of formal methods of text attribution. The problem of determining the authorship of texts is present in different field and is important for philologists, literary critics, historians, lawyers. In solving the problem of text attribution the main interest and the main complexity is in the analysis of syntactic, lexical/idiomatic and stylistic levels of text. In a sense, a narrower task is in the text sentiment-analysis (defining the tone of the text). Techniques for solving the task can be useful for identifying authorship of the text. Unfortunately, expert analysis of author’s style is complex and time consuming. It’s desirable to find new approaches, allowing at least partially automate experts’ work. Therefore the article pays special attention exactly to the formal methods of author’s identification and software implementation of such methods. Currently, algorithms of data compression, methods of mathematical statistics, probability theory, neural networks algorithms and cluster analysis algorithms are applied for text attribution. The article describes the most popular software systems for author’s style identification for Russian language. Author attempts to make a comparative analysis, identify features and drawbacks of the reviews approaches. Among the problems hindering researches in text attribution there are a problem of selecting linguostylistic parameters of the text and a problem of selecting sample texts. The author states that there is a need in further researches, aimed at finding new or improving existing methods of texts attribution, at finding new characteristics allowing to clearly separate author’s style, including cases of short texts and small number of sample texts.


Keywords:

text attribution, defining authorship, formal text parameters, author’s style, text classification, machine learning, statistical analysis, computer linguistics, identification of author’s style, analysis of textual information


Эта статья может быть бесплатно загружена в формате PDF для чтения. Обращаем ваше внимание на необходимость соблюдения авторских прав, указания библиографической ссылки на статью при цитировании.

Скачать статью

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.