Библиотека
|
ваш профиль |
Опубликовано в журнале "Программные системы и вычислительные методы" в № 2 за 2014 год в рубрике "Системный анализ, поиск, анализ и фильтрация информации" на страницах 197-216.
Аннотация: Статья представляет собой обзор формальных методов атрибуции текстов. Задачи определения авторства текстов встречаются в различных областях и представляют интерес для филологов, литературоведов, историков, юристов. При решении задачи атрибуции наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. В некотором смысле более узкой задачей является задача сентимент-анализа (определения тональности текста). Методы ее решения могут оказаться полезными при определении автора текста. К сожалению, экспертный анализ авторского стиля является трудоемким и длительным процессом. Целесообразно создание новых подходов, позволяющих хотя бы частично автоматизировать деятельность экспертов. Поэтому в статье уделяется внимание именно формальным методам идентификации авторов текстов и программной реализации этих методов. В настоящее время для атрибуции текстов применяются алгоритмы сжатия данных, методы математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. В статье приведено описание наиболее известных на сегодняшний день программных систем для определения авторского стиля текстов на русском языке, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилестических параметров текста и проблему составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, на поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки.
Ключевые слова: атрибуция текста, определение авторства, формальные параметры текста, авторский стиль, классификация текстов, машинное обучение, стастистический анализ, компьютерная лингвистика, идентификация стиля автора, анализ текстовой информации
DOI: 10.7256/2305-6061.2014.2.11705
Библиография:
1. Романов А.С. Методика и программный комплекс для идентификации автора неизвестного текста:
Автореф. дис. канд. тех. наук. Томск, 2010. 26 с.
2. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами теории
распознавания образов. Л.: ЛГУ, 1990. 164 с.
3. Родионова Е.С. Методы атрибуции художественных текстов // Структурная и прикладная лингвистика:
Межвузовский сборник. СПб.: СПбГУ, 2008. Вып. 7. С. 118–127.
4. Марков А.А. Об одном применении статистического метода // Известия Императорской Академии наук.
Сер. 6. 1916. Т. 10, № 4. С. 239–242.
5. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов // Новая хронология Греции:
Античность в Cредневековье. М.: МГУ, 1995. 422 с.
6. Хмелёв Д.В. Классификация и разметка текстов с использованием методов сжатия данных // Всё о сжатии
данных, изображений и видео. 2003. URL: http://compression.ru/download/articles/classif/intro.html
(дата обращения: 17.04.2014)
7. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер. 9:
Филология. 2000. №2. С. 115–126.
8. Кукушкина О.В., Поликарпов А.А, Хмелёв Д.В. Определение авторства текста с использованием буквенной
и грамматической информации // Проблемы передачи информации. М.: Наука, 2001. Т. 37. № 2. С. 96–108.
9. Шевелёв О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Автореф.
дис. канд. тех. наук. Томск, 2006. 18 с.
10. Тимашев А.Н. Атрибутор // Текстология. ru. 1999–2007. URL: http://www.textology.ru/atr_resum.html
(дата обращения: 17.04.2014)
11. Информационная система «Статистические методы анализа литературного текста». 2004. URL: http://smalt.
karelia.ru (дата обращения: 16.04.2014) .
12. Рогов А.А., Сидоров Ю.В., Король А.В. Автоматизированная система обработки и анализа литературных
текстов СМАЛТ // Труды и материалы II-го Международного конгресса исследователей русского языка
«Русский язык: исторические судьбы и современность». М: МГУ, 2004. С. 485–486.
13. Антиплагиат. 2005–2014. URL: http://www.antiplagiat.ru (дата обращения: 16.04.2014)
14. Шевелёв О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие.
Томск: ТМЛ-Пресс, 2007. 144 с.
15. Романов А.С., Мещеряков Р.В. Идентификация автора текста с помощью аппарата опорных векторов / А.С.
Романов, Р.В. Мещеряков // Компьютерная лингвистика и интеллектуальные технологии: По материалам
ежегодной Международной конференции «Диалог 2009». М.: РГГУ, 2009. Вып. 8, №15. С. 432–437.
16. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval.
Vol. 2, No 1-2. 2008. P. 1–135.
17. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная
лингвистика и интеллектуальные технологии: cб. научных статей. М.: Изд-во РГГУ, 2011. Вып. 10, №17.
С. 510–522.
18. Yi J., Nasukawa T., Bunescu R., Niblack W. Sentiment analyzer: extracting sentiments about a given topic using
natural language processing techniques // Proc. of the Third IEEE International Conference on Data Mining
(ICDM 2003), 2003. P. 427–434.
19. Остин Дж. Слово как действие // Новое в зарубежной лингвистике. М.: Прогресс, 1986. Вып. 17. С. 22–130.
20. Онлайн энциклопедия «Кругосвет». 1997–2014. URL: http://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/
RECHEVO_AKT.html (дата обращения: 15.04.2014)
21. Серль Дж. Что такое речевой акт? // Новое в зарубежной лингвистике. М., 1986. Вып. 17. С. 151–169.
Правильная ссылка на статью:
просто выделите текст ссылки и скопируйте в буфер обмена