Диссертация (1173445), страница 5
Текст из файла (страница 5)
В основе алгоритма лежит набор правил, создаваемыйлингвистом для выявления мнений. Кроме правил применяются тональныесловари для поиска тональных высказываний. Набор правил не являетсяуниверсальным и зависит от целей и материала исследования [Yang, Shin, 2012].Подходсприменениеммашинногообученияявляетсясамымвостребованным в анализе тональности. Это связано как с относительнойпростотой переноса системы на другой материал, так и с высокими результатамиклассификации.Чаще всего применяется машинное обучение с учителем (или обучение напрецедентах).
Имеется корпус текстов, который размечается аннотаторами.Исследователи определяют набор признаков, по которому будут производитьклассификацию. Как правило, это лексемы, при этом из текстов убирают стопслова, но при анализе блогов или микроблогов могут добавлять эмотиконы какотдельную группу признаков.
Если считать все признаки равноценными, онивносятся в пространство признаков вместе, если некоторые признаки являютсяболее важными, чем другие, может применяться иерархическая классификация.Одним из самых распространенных классификаторов является метод опорныхвекторов (SVM), который в большинстве случаев дает лучшие результаты, нежелипростые нейронные сети или Байесовский классификатор [Mullen, Collier, 2004;Neethu, Rajasree, 2013; Максименко, 2018].
Не все алгоритмы машинногообучения с учителем основаны на разделении пространства признаков. Многиеисследователиприменяюталгоритмk-ближайшихсоседей,вкотором26определение класса нового объекта (то есть объекта, чья тональность не известна)основано на поиске k ближайших соседей в пространстве признаков [Huq, Ali,Rahman, 2017].Машинное обучение без учителя относится не к задаче классификации, а ккластеризации. В этом случае отсутствует набор размеченных данных, вместоэтого объекты для кластеризации попадают в пространство признаков и делятсяна классы на основе расстояния между ними [Li, Liu, 2012].Обучение с частичным привлечением учителя (или частичное обучение)основано на комбинировании размеченных и неразмеченных данных дляобучения [Sindhwani, Melville, 2008].Кроме методов машинного обучения к задачам анализа тональностиприменяют нейросетевые модели (чаще всего рекуррентные нейронные сети) иглубинное обучение.
Отличие рекуррентных нейронных сетей от остальныхтопологий (например, сетей прямого распространения или сверточных) состоит втом, что каждый нейрон, получая некоторую информацию, получает также иданные о предыдущем состоянии сети [Li, Qian, 2016; Wang, Jiang, Luo, 2016; Can,Ezen-Can, Can, 2018].Гибридный подход состоит в комбинации двух и более подходов к анализутональности [Котельников, 2012; Ghiassi, Skinner, Zimbra, 2013].Несмотря на широкий интерес исследователей к проблеме анализатональности, до сих пор есть ряд проблем, требующих отдельного внимания. Кним относится обработка отдельных случаев отрицания, которое оказываетсерьезное влияние на тональность, инвертируя ее.
Более сложной для реализацииявляется проблема поиска сарказма и иронии, что считается крайне труднойзадачей для искусственного интеллекта [Badlani, Asnani, Rai, 2019; Hiai, Shimada,2018; Filatova, 2017; Dave, Desai, 2016].271.3.1 Виды мненийВ словаре Ефремовой мнение определяется как «1) суждение, выражающееоценку кого-л., чего-л., отношение к кому-л., чему-л., взгляд на кого-л., что-л.
2)официальное заключение, решение» [Ефремова, 2000]. В целом, первое значениесоответствует пониманию термина «мнение» в анализе тональности, но оно неотражает его структуру, необходимую для верного понимания задач анализа.Долгое время существовало выделение следующих основных компонентовмнения:- субъект – тот, кто высказывает мнение;- объект – то, по отношению к чему высказывается мнение;- тональность – полярность оценки (отрицательная, положительная илинейтральная).Подобная терминология до сих пор применяется, но вызывают вопросытермины “субъект” и “объект”, потому что они имеют другое значение в теорииязыка.
Сейчас вместо них часто применяются термины “источник” и “цель”соответственно. По нашему мнению, эти варианты пришли из аннотационнойсхемы тонального корпуса MPQA [Deng, Wiebe, 2015b]. Несмотря на то, чтобольшое количество исследователей применяет трехкомпонентную структурумнения, для некоторых задач она является недостаточно полной.С точки зрения структуры мнения можно разделить на обычные исравнительные, с точки зрения прозрачности для системы анализа тональностиможно выделить эксплицитные и имплицитные мнения [Гейко, Сиривля, 2016].По Б. Лью обычное мнение – это множество (ei, aij, sijkl, hk, tl), где ei – имясущности, aij – аспект сущности ei, sijkl – тональности аспекта aij сущности ei, hk –источник мнения и tl – время выражения hk мнения.
Тональность sijkl может бытьположительной, отрицательной или нейтральной; кроме этого, может бытьиспользована оценочная шкала, например от 1 до 5 как на большинстве сайтов с28отзывами. Если же мнение выражено по отношению к сущности в целом, а не кконкретному ее аспекту, то ei и aij вместе выражают цель [Liu, 2012, p.19].Индексы элементов множества показывают, что все пять элементов связаныдруг с другом, если есть несовпадение – мнение ошибочно. То есть еслинеправильноустановленисточникмненияhk,неправильноопределенатональность sijkl.Согласно определению Б.
Лью, все пять компонентов важны для верногопонимания мнения, тем не менее, часто исследователи исключают элемент времяtl из-за сложной реализации. Но сложно не согласиться с тем, что элемент время t lвлияет на актуальность мнения и важен для анализа. Может указываться какточное время, например, дата публикации отзыва или статьи, так и указание наактуальность мнения на момент выхода статьи. Рассмотрим пример:В начале этого года Евросоюз отменил санкции против Белоруссии[Лаурен, 2016, Электронный ресурс].В одном предложении содержится сразу два мнения разной полярности:({Евросоюз}, negative, {Белоруссия}, past})({Евросоюз}, positive, {Белоруссия}, current}Мнение в задачах анализа тональности не обязательно содержит оценочныйили эмоциональный компонент, это может быть указание на событие, негативноили положительно отразившееся на объекте, иногда их называют +/- effect events[Deng, Wiebe, 2014, p.
377]. В примере выше видно, что ранее Евросоюз ввелсанкции против Белоруссии, то есть сущность Евросоюз совершила действие,негативно отразившееся на сущности Беларусь, но в настоящее время санкцииотменены, то есть мнение сущности Евросоюз о сущности Беларусь поменялосьна противоположное, потому что действие отмена санкций положительно влияетна сущность-цель.Если бы целью системы анализа тональности было анализировать средствамассовой информации и отслеживать изменения отношений между сущностями сцелью отслеживания политических событий, актуальность мнения сыграла быбольшую роль.
Проблема в том, что автоматически отслеживать этот фактор29сложно. В примере выше неактуальная тональность выражена имплицитно, номожет встречаться и эксплицитная неактуальная тональность. Указание на годможет быть маркером неактуальной тональности:Брюссель ввел санкции против него [Лукашенко] после насилия приподавлении протестов во время выборов в 2010 году [Лаурен, 2016, Электронныйресурс].Нужно отметить, что приведенное выше определение «мнения» неописывает сравнительные мнения и некоторые другие явления.Сравнительное мнение выражает отношение, основанное на схожести илиразличиях двух и более сущностей, поэтому структура сравнительного мнениябудет сложнее.Сравнительное мнение – это множество (E1, E2, A, PE, h, t), где E1 и E2 – этосущности, которые сравниваются на основе аспекта A, PE – сущность, которойотдает предпочтение источник мнения h, t – время высказывания мнения.
Еслипри сравнении источник мнения признает сущности E1 и E2 равными на основесравнения аспекта A, вместо PE вводится отдельный элемент для признанияравенства сущностей [Liu, 2012, p. 101].В примере ниже две сущности Galaxy S9+ и iPhone X сравниваются поаспекту камера, тем не менее, можно было бы ввести иерархическую структурусущности, в этом случае говорилось бы об аспекте «диафрагма камеры».Тут Galaxy S9+ дал жару iPhone X. С диафрагмой f/1.5 его сенсорзахватывает на 30% больше света, чем iPhone X со своей «скромной» f/1.8[Остапенко И., 2018, Электронный ресурс].Компоненты мнения выглядят следующим образом: ({GALAXY S9+},{iPhone X}, {камера}, {GALAXY S9+}, hi-tech.mail.ru, 9.03.2018)Компонент мнения тональность, который был элементом множестваструктуры регулярного мнения, в сравнительном мнении не нужен, потому чтоавтор не говорит явно об отношении к сущностям, а выражает мнение опреимуществе одной сущности перед другой.
Тем не менее, из сравнительногомнения можно извлечь и обычное мнение, если признать, что высказывание30предпочтения одной сущности эквивалентно выражению положительногомнения, в этом случае удастся заполнить все элементы множества: ({Galaxy S9+},{камера}, positive, hi-tech.mail.ru, 9.03.2018). Несомненно, можно представитьварианты, в которых автор выражает предпочтение одной сущности перед другой,но положительным мнением это не будет являться, например, сравнение плохихкамер смартфонов, одна из которых немного превосходит другую.В примере ниже сравниваются три сущности ({США}, {Россия}, {Китай}),но источник тональности оценивает эти сущности как равные по аспектугиперзвуковое оружие. Источником тональности будет не автор статьи, а одна изсущностей, встретившихся в тексте ({Американские эксперты}).Американские эксперты заявили, что разработки США, России и Китая вобласти гиперзвукового оружия находятся практически на одном уровне,передает CNBC News [Фахрутдинов Р., 2018, Электронный ресурс].({США},{Россия},{Китай},{гиперзвуковоеоружие},{EQUAL},{Американские эксперты}, 13.05.2018)Мнение может быть высказано эксплицитно, в таком случае его называютэксплицитным мнением.