Настоящий выпуск журнала «Электронные библиотеки» представляет собой тематический сборник статей, посвященный проблеме автоматического анализа тональности текстов на русском языке.
Задача анализ тональности состоит в автоматическом определении отношения автора текста (позитивном, негативном или нейтральном) к объектам и ситуациям, о которых говорится в анализируемом тексте. В настоящее время автоматический анализ тональности используется в самых различных приложениях, ключая мониторинг репутации компаний и публичных персон, анализ общественных настроений в том или ином регионе, анализ сообществ в социальных сетях и многое другое.
В данном тематическом выпуске представлены статьи участников открытого тестирования систем анализа тональности на русском языке SentiRuEval, провeденном в 2014–2015 годах. В данном тестировании участникам были предложены для решения две основные задачи.
Первая задача состояла в автоматическом анализе отзывов пользователей в двух предметных областях (рестораны и автомобили) с целью определить основные характеристики обсуждаемых объектов (так называемые аспекты, например, салат, интерьер для ресторанов) и их оценку пользователем – автором отзыва.
Вторая задача заключалась в анализе постов Твиттера (твитов) для мониторинга репутации организаций в заданной сфере деятельности (банки и телекоммуникационные компании). Данная задача включает как выявление положительного или отрицательного отношения авторов твитов к заданным организациям,
так и оценку распространяемых в Твиттере позитивных или негативных новостей об этих организациях.
В статье Н.В. Лукашевич (НИВЦ МГУ им. М.В. Ломоносова) «Автоматический анализ текстов по отношению к заданному объекту и его характеристикам» представлен обзор задач, возникающих в рамках анализа тональности текстов по аспектам. Представлены особенности предлагаемых подходов и достигаемые ими характеристики качества.
Статья П.Д. Блинова и Е.В. Котельникова (Вятский государственный гуманитарный университет) «Семантическое сходство в задаче аспектно-эмоционального анализа» описывает совокупность подходов к анализу тональности текстов по аспектам, начиная с извлечения аспектов, их дальнейшей классификации и определению тональности. Подход к извлечению аспектов сущности основан на выявлении контекстов употребления слов, представления их в виде векторов и дальнейшем группировании этих слов в аспектные категории.
В статье группы авторов из Казанского федерального университета (Е.В. Тутубалина, В.В. Иванов, М.А. Загулова, Н.Р. Мингазов, И.С. Алимова, В.А. Малых) представлены подходы на основе методов машинного обучения к обеим задачам SentiRuEval: анализ отзывов и анализ твитов. Подробно описаны признаки, используемые в применяемых методах машинного обучения, их модификации в конкретных задачах, а также проведен анализ ошибок.
В статье Ю.В. Адаскиной, П.В. Паничевой и А.М. Попова (ООО «InfoQubes»,
Санкт-Петербургский государственный университет) исследуется вклад синтаксического анализа в задаче анализа тональности твитов. Для этого проводится синтаксический анализ твитов, получившаяся синтаксическая структура преобразуется в тройки вида (отношение, слово1, слово2), и затем эти тройки используются
как дополнительные признаки для системы классификации.
Статья П.Ю. Полякова, М.В. Калининой, В.В. Плешко (ООО «ЭР СИ О») посвящена рассмотрению лингвистико-инженерного подхода к анализу тональности твитов, включающего использование словаря оценочных слов, синтаксического анализатора, а также правил вычисления тональности на основе проведенного анализа.
В статье Ю.В. Рубцовой и С.А. Кошельникова (Институт систем информатики им. А.П. Ершова СО РАН) рассматриваются особенности применения известного метода машинного обучения CRF для анализа тональности твитов, анализируются ошибки полученного классификатора.
Нужно отметить, что мировая практика научных исследований в области автоматической обработки текстов свидетельствует о важности открытых тестирований типа SentiRuEval, в результате которых выявляются и получают большее распространение лучшие подходы, в целом ускоряется развитие автоматических систем. Поэтому практика проведения открытых тестирований становится все более распространенной в мире, в России также будут продолжаться такого рода тестирования автоматического анализа текстов на русском языке.
Н.В. Лукашевич
Опубликован: 18.04.2015
Весь выпуск
Статьи
От составителя
Настоящий выпуск журнала «Электронные библиотеки» представляет собой тематический сборник статей, посвященный проблеме автоматического анализа тональности текстов на русском языке.
Задача анализ тональности состоит в автоматическом определении отношения автора текста (позитивном, негативном или нейтральном) к объектам и ситуациям, о которых говорится в анализируемом тексте. В настоящее время автоматический анализ тональности используется в самых различных приложениях, включая мониторинг репутации компаний и публичных персон, анализ общественных настроений в том или ином регионе, анализ сообществ в социальных сетях и многое другое.
В данном тематическом выпуске представлены статьи участников открытого тестирования систем анализа тональности на русском языке SentiRuEval, провeденном в 2014–2015 годах. В данном тестировании участникам были предложены для решения две основные задачи.
Автоматический анализ тональности текстов по отношению к заданному объекту и его характеристикам
Статья посвящена рассмотрению подходов к анализу тональности текстов по отношению к заданному объекту, а также его характеристикам (аспектам). Для решения задачи анализа тональности по отношению к характеристикам сущности необходимо решать также задачи извлечения аспектов для сущности, категоризацию или кластеризацию аспектов по аспектным категориям, определение тональности текста по отношению к заданному аспекту или аспектной категории. Также в статье описывается задание по анализу тональности отзывов пользователей в рамках открытого тестирования систем анализа тональности SentiRuEval.
Семантическое сходство в задаче аспектно-эмоционального анализа
Исследуется проблема аспектно-эмоционального анализа текста. По сравнению с общим анализом тональности такой вариант является более сложным по причине наличия ряда сопутствующих подзадач, таких, как выделение аспектных терминов, определение тональности по отношению к этим терминам и аспектным категориям. Однако решение данной проблемы значительно расширяет возможности систем автоматического анализа неструктурированного текста.
Приведен обзор предыдущих работ в области аспектно-эмоционального анализа, описаны обучающие и тестовые данные семинара SentiRuEval. Для задачи извлечения аспектных терминов использовано векторное пространство распределенных представлений слов. Тональность аспектных терминов определяется на основе функций совместной информации и семантического сходства. Приведены сравнительные результаты на тестовых данных и заключительные выводы.
Тестирование методов анализа тональности текста, основанных на словарях
Технологии анализа тональности текста развиваются интенсивно, что обусловлено ростом объемов открытых источников, представляющих мнения пользователей интернета по различным вопросам. В статье описаны методы для анализа тональности текстов отзывов и коротких сообщений (твитов), приводятся результаты оценки их качества, которая производилась в рамках российского семинара SentiRuEval-2015.
Использование синтаксиса для анализа тональности твитов на русском языке
Представлен подход к решению задачи анализа тональности в рамках тестирования SentiRuEval – открытого соревнования систем анализа тональности на русском языке. Описанный алгоритм был применен в дорожке по анализу тональности твитов о банках и телекоммуникационных компаниях. Для этих данных была разработана и оценена классификация на три класса: положительный, отрицательный и нейтральный.
Для решения поставленной задачи использовались различные алгоритмы машинного обучения. Признаками для классификатора являлись лингвистические данные, полученные из текста с помощью разработанного нами морфо-синтаксического анализатора. Нормализованные слова, а также синтаксические связи, оказались решающими признаками для достижения наилучшего результата, который был получен с помощью статистического алгоритма опорных векторов.
Оценка, проведенная организаторами конкурса, выявила высокое качество предложенного подхода, который занял первую строчку по трем из четырех мерам качества.