Диссертация (1173445), страница 7
Текст из файла (страница 7)
Ефремова предложили несколькоподходов для выделения аспектов, таких как: статистический, лингвистический иподход с применением машинного обучения [Рой, Ефремова, 2018]. П. Блинов и36Е.В. Котельников для выделения аспектов применяли оценку семантическойблизости [Blinov, Kotelnikov, 2015].Т. Тхет, Дж. На и К. Кху в анализе кинорецензий выделили следующиеаспекты и признаки аспектов: cast, director, story, scene, music. Для каждогоаспекта были представлены термины, которые могут быть относиться в каждомуиз аспектов [Thet, Na, Khoo, 2010, p.
828]. В тексте не обязательно встретитсяинформация о всех аспектах, которые будут выделены, но это не являетсясерьезной проблемой для исследования.Анализ тональности на уровне фрагментов и аспектов часто называютточным анализом тональности. К ним можно отнести и анализ тональности науровне сущностей/событий [Deng, Wiebe, 2015, p. 179]. Тем не менее, последниеотличаются от анализа на уровне фраз и аспектов пониманием терминов источники цель.Стоит определиться с такими терминами как сущность и событие.Сущность (или именованная сущность) – это слово или словосочетание,предназначенное для конкретного предмета или явления, выделяющее этотпредмет или явление из ряда однотипных предметов или явления. Именованнаясущность обычно пишется с заглавной буквы и обязательно имеет референт.Извлечение именованных сущностей является важным этапом обработкиестественного языка для ряда задач [Можарова, Лукашевич, 2016, с.
81].Целью в системах анализа тональности на уровне фрагментов являетсяфрагмент текста, а не сама вершина фразы, относящейся к цели. Цель в такихсистемах оценивается подсчетом коэффициента сходства извлеченного фрагментапо отношению к эталонной фразе [Yang, Cardie, 2013], в то время как при анализена уровне сущностей/событий цель оценивается по отношению к эталонномуслову (то есть вершине именной или глагольной группы), что является болееточной оценкой.
Хотя целью в системах анализа тональности на уровне аспектовчасто является сущность, в основном, это характеристики продукта, которыезаранее собраны в множество. В противоположность этому, целью анализа науровне сущностей/событий может быть любое существительное или глагол. С37точки зрения понимания источника, ранние работы по анализу тональности, вкоторых происходило обучение на размеченных корпусах отзывов, определялиисточник тональности как автора отзыва [Titov, McDonald, 2008].
При переходе науровень сущностей мы можем считать источником любую сущность.Помимоизвлеченияименованныхсущностейстоитпроблемаихклассификации, потому что для исследования может быть важен тип сущности.Например, Москва в примере 1 как государство может иметь мнение о другойсущности, но Москва (пример 2) как топоним – нет.1) Москве было приятно наблюдать за разногласиями на саммите G7[Насер, 2018, Электронный ресурс].2) Зачем Бойко отправился в Москву и как это повлияет на его поддержку,– "Апострофу" рассказал политический эксперт МЦПИ Игорь Петренко[Петренко, 2019, Электронный ресурс].В примере 1 Москва как государство может быть сущностью –источникоммнения (как и целью), но в 2 Москва означает только локацию, поэтому этаименованная сущность не может быть компонентом структуры мнения.Событие может являться одним из типов сущностей, оно обозначаетявления, общественные акции, праздники и т.д.И после того как они объединились, европейские чиновники вновь понялиабсурдности брексита [EVENT]», – резюмирует автор The Guardian [Guardian:«Новичок» сплотил Европу, и теперь брексит кажется абсурдом, 2018,Электронный ресурс].В примере высказывается негативное мнение о событии «брексит», вданном случае найти эту сущность можно при помощи статистического анализакорпуса актуальных текстов или создания словаря событий на основе новостей исобытий в мировой политике.Лингвистический блок, который способен распознавать тональностьсубъекта по отношению к сущностям и событиям, был бы ценным дополнением ввопросно-ответных диалоговых системах для ответов на такие вопросы, как “Кто38относится положительно/отрицательно к Х” [Stoyanov, Cardie, Wiebe, 2005], где Х– любая сущность или событие.1.3.3 Материал для анализа тональностиПрактически все работы по анализу тональности используют в качествематериала тексты из интернета, что связано с применением подобных систем.
Всетексты из интернета, которые могут стать объектом исследования, можноразделить на две группы: персонализованные и неперсонализованные.Персонализованные тексты характеризуются явным присутствием позицииавтора текста, то есть источником тональности в большинстве мнений будет самавтор. К персонализованным текстам относятся рецензии (на фильмы илилитературу), отзывы, твиты, тексты блогов и многое другое. У кинорецензий иотзывов есть ряд схожих черт, которые в некоторой степени облегчают анализ.С появлением Твиттера интерес исследователей сместился на анализ этихсообщений.
В настоящее время проводятся ежегодные соревнования по анализутональности, материалом обычно служат твиты. Анализ твитов отличался отанализа тональности рецензий и отзывов, это связано как с различным объемомтекстов (текст твита может содержать 280 символов), так и с разным стилемтекстов.Твиты как материал имеют как ряд достоинств, так и ряд недостатков.
Кдостоинствам можно отнести наличие только одного объекта тональности (какправило), хештеги, служащие маркером объекта, и эмотиконы, которые могутслужить маркером тональности. Некоторые исследователи проводят анализтональности на основе эмотиконов, выделяя основные эмоции (радость, злость,грусть и т.д.) и соотнося с ними эмотиконы [Wolny, 2016].Несмотря на достоинства твитов как материала для анализа, есть и рядсложностей, с которыми сталкиваются исследователи. Это, например, множествосокращений и аббревиатур и обилие сленга и диалектных форм.
Как показывают39исследования, 93% встречающихся слов употребляются менее чем 10 раз (78% накорпусе рецензий фильмов из IMDB). Это объясняется использованием сленга,искажением написания слов для сокращения графического объема информации,использованием разных регистров при написании одного и того же слова [Saif,He, Alani, 2012]. Тем не менее, у Твиттера есть главное преимущество переддругими материалами анализа: разнообразие тем.Впоследнеевремяинтересисследователейсместилсякнеперсонализованным текстам. Это тексты, в которых автор не высказывает своемнение (как правило, но не всегда), но в тексте присутствуют мнения сущностей одругих сущностях или событиях. К неперсонализованным текстам относятсястатьи: как новостные, так и аналитические.
Главным отличием анализанеперсонализованныхтекстовбудетпониманиетональности.Есливперсонализованных текстах это мнение представлено в более привычномносителям языка виде, то в неперсонализованных текстах мнение представленокак действие одной сущности по отношению к другой, при этом сущность-цельлибо получает выгоду от этого действия (положительная тональность), либосущность-источник отрицательно на нее влияет (отрицательная тональность).Отличительнымсвойствомнеперсонализованныхтекстовявляетсяотсутствие явно выраженного мнения автора текста. Кроме того, тональность внеперсонализованных текстах часто выражена фактической лексикой. Извлечениетональности, выраженной фактической лексикой, исследовалось М. Кленнером иМ.
Амслером при создании тональных фреймов [Klenner, Amsler, 2016]. Онисоздали Sentiframes, ресурс, который не отражает отношения автор-цель, нопоказывает специфические для глагола полярные коннотации. М. Кленнер и М.Амслер создали 470 так называемых глагольных фреймов для 251 немецкогоглагола. Фрейм полярности глагола представляет собой фрейм, которыйопределяет для каждой роли глагола, срабатывает ли эффект полярности приусловии, что соответствующий объект-наполнитель занимает эту роль.
Например,прямой объект глагола «критиковать» имеет отрицательный эффект, в то времякак прямой объект «восхищаться» – положительный эффект.40Один фрейм состоит из фрейма субкатегоризации и эффектов полярности,связанных с ролями. Помимо эффектов полярности, должны быть указаны:ожидаемые полярности и ограничения на полярности.