Диссертация (1173445), страница 12
Текст из файла (страница 12)
Необходимость разрешения референциизаключается в том, что в тональном отношении может участвовать прономинал,имеющий в качестве антецедента именованную сущность. Прономинал всоответствии с теорией связывания должен быть свободен в локальной клаузе,при этом, он может располагаться как в другой клаузе предложения, так и вдругом предложении. Например, в текстах статей содержится около половиныпредложений с прономиналами, но не во всех случаях прономинал замещалименованную сущность, как в примере:КогдаЕвропейскийСоюзпринялпервоначальныесанкции,онираспространялись… [Как Россия будет использовать Брексит для отменысанкций, 2016, Электронный ресурс].Прономиналониимеетвкачествеантецедентасловосанкции,расположенное в другой клаузе, в этом случае, прономинал не участвует втональных отношениях, так как не является именованной сущностью.
В примерепредставлена ситуация с прономиналом, чей антецедент участвует в тональныхотношениях:Турция это крупный потребитель российских энергоресурсов, а в Москвеона видит весьма полезный противовес Европе… [Бэндоу, 2016, Электронныйресурс].Прономинал она имеет в качестве антецедента именованную сущностьТурция, и во второй клаузе прономинал вступает в тональные отношения, вподобных примерах разрешение референции было бы необходимо.61Длясоотнесенияпрономиналовсименованнымисущностями-антецедентами можно установить связь по принципу близости и сходствапараметров рода и числа прономинала и именованной сущности. Несмотря натребования о свободе прономинала в минимальной клаузе, между прономиналоми его антецедентом расстояние часто бывает небольшим.
Это связано с большимколичеством обсуждаемых в текстах объектов, и при невысокой степениактивации объекта референциальный выбор будет скорее делаться в пользуименной группы, а для избегания повторов могут использоваться эквивалентныеименованные сущности.С анафорами при анализе мнений таких сложностей не возникает.Материалы для анализа особенностей выражения мнения в текстах смножеством упоминаемых сущностей представляют собой корпус из 120 статей ссайта Иносми.Ру. Выбранные статьи посвящены политике, основной темойявляется Россия.
Выборку определила цель исследования – определениехарактеристик тональных отношений между именованными сущностями, аполитические аналитические статьи являются текстами, содержащими большоеколичество сущностей и отношений между ними. Тематика текстов, несомненно,зависела от времени публикации статьи, это влияло на лексический составтекстов, тем не менее, это не играет особой роли в исследовании, так кактональные лексемы, связанные с политикой, в большинстве своем независимы оттемы публикации.
В ряде случаев привлекались результаты поиска по сайтуИноСМИ.Ру, если интуитивная оценка говорила о наличии возможного языковогоматериала [Максименко, Семина, 2019].Общее число предложений в статьях – 5745, то есть среднее числопредложений в статье – 47,88. Статьи неоднородны по размеру, но в каждой изних минимум пять уникальных именованных сущностей.
41 статья содержитручную разметку именованных сущностей.Для 84 статей проведена ручная разметка тональных отношений, имеющаяследующий вид:Россия, Дания, neg, current62Россия, НАТО, neg, currentНАТО, Россия, neg, currentВ общем виде разметку можно представить следующим образом:source, target, pos/neg, current/past-source – автор мнения;-target – по отношению к кому/чему высказано мнение;-pos/neg – полярность мнения;-current/past – актуальность мнения.Разметка полярности оценки является бинарной, тем не менее, она можетприменяться и для выявления нейтральной оценки. Обычно под нейтральнойоценкой подразумевается, в том числе, отсутствие какой-либо оценки, поэтомувозможна простая генерация пар сущностей в каждой статье и проверка их наналичие отношений.
Если для пары сущностей не найдено ни положительное, ниотрицательное мнение, можно установить нейтральную оценку между ними[Семина, 2019в].Актуальность мнения является еще одним важным критерием в анализетональности, нужно отметить, что этот фактор часто опускают из-за сложностиреализации. Мы включили актуальность в разметку, потому что это может бытьиспользовано в будущих исследованиях [Максименко, Семина, 2019].В статьях в собранном корпусе субъектом и объектом мнения почти всегдабудут сущности-элементы текста. Для этого может быть важна разметкасущностей, особенно различие между метками GEOPOLIT и LOC. Например,Москва как геополитическая организация может быть источником мнения, в товремя как Москва как топоним – нет.29 статей имеют разметку с разрешенной референцией в примерах типа«президент России». При разметке именованных сущностей метка ставитсятолько для России, то есть речь в высказывании идет о человеке (в данном случае– В.В.
Путине), в то время как метка показывает на геополитическое образование.Как говорилось ранее, тип метки может влиять на способность сущности быть63источником мнения, поэтому подобная разметка данных может оказатьсяполезной [Там же].Для всего корпуса был составлен частотный словарь, в Приложении Апредставлен его фрагмент, в который включены все лексемы, встретившиеся 10раз и более. Словарь собирался по предварительно лемматизированным припомощи пакета PyMorphy2 [Электронный ресурс] и очищенным от стоп-словтекстам, число уникальных лексем составило 8932 единицы.
Наиболее частотнымявляется слово «Россия», число вхождений – 1379, что объясняется общей темойстатей.В Таблице 3 приведены все инструменты, использованные для составлениячастотного словаря, код был написан на языке программирования Python.Таблица 3 – Инструменты, использованные при собрании частотного словаряБиблиотека или модуль ПрименениеNatural Language Tool Kit использован список стоп-слов для русского языкаrePyMorphy2stringмодуль для обработки регулярными выражениями,использовался для поиска пунктуациииспользован для приведения слов к нормальнойформемодуль для работы со строковыми даннымиВ инвентарь именованных сущностей входят: {PER}, {GEOPOLIT}, {LOC},{TITLE}, {EVENT}, {MEDIA} и {ORG}. Назначение меток описано в Таблице 4.Таблица 4 – Краткое описание метокМеткаPERGEOPOLITLOCTITLEEVENTMEDIAORGНазначениеЧеловекГосударство как политическое образованиеМестность, локация, город, страна (и т.д.)Название (книги, статьи, доклада и т.д.)СобытиеСредства массовой информацииОрганизация, структура, членом которойсущность с меткой PER или GEOPOLITможетбыть64Немаловажным является факт установления эквивалентности междунекоторыми сущностями.
Так, например, сущности «Москва», «Россия»,«Кремль», «РФ» и «Российская Федерация» можно назвать эквивалентными, еслиони имеют одного референта – Российскую Федерацию, в частности,правительство. Установление эквивалентных отношений играет немаловажнуюроль, потому что при итоговом представлении результатов, если не объединитьсущности в одну, могут оказаться дублирующиеся или неоднозначные отношениямежду парами сущностей.Для ручного или автоматизированного анализа решение этого вопроса неявляется необходимым, потому что подобная эквивалентность сущностей кажетсяносителям очевидной. При создании автоматической системы стоит добавлятьблок правил, которые могли бы убирать повторы, или перед анализом заменятьэквивалентные сущности на выбранный вариант.
К эквивалентным могутотноситься не только сущности одного типа. Эквивалентным государству можетбыть и официальное руководящее лицо, и официальный спикер, так как онипредставляют политическую программу и идею, принадлежащую государству[Семина, 2017].Далее представлен вариант подобного списка для сущностей.США = Соединенные Штаты = Америка = Вашингтон = Обама = КерриРоссия = Москва = Кремль = Путин = Медведев = ГОСДУМАЕС = Европа = Европейский союз = Евросоюз = ЕвропейскийИГ = ИГИЛ = Исламское государство = ИГО = ИГИТЬ = Аль-БагдадиСирия = Дамаск = Алеппо = АсадИзраиль = Нетаньяху = РивлинУкраина = Порошенко = ТимошенкоКитай = Пекин = КНРИран = Тегеран = РуханиТурция = Анкара = ЭрдоганБелоруссия= Беларусь = Лукашенко = Минск65Афганистан = Кабул = АхмадзайФинляндия = Хельсинки = НийнистёВеликобритания = Кэмерон = Лондон = Соединенное Королевство =Объединенное КоролевствоIAAF = Коэ = КоуШвеция = Лёвен = СтокгольмДания = Копенгаген = РасмуссенЭстония = Таллин = ТаллиннАвстралия = КанберраФранция = Париж = Саркози = ОлландГермания = Берлин = Меркель = ШтайнмайерСаудовская Аравия = Эр-РиядЕгипет = Каир = Ас-Сиси = ИсмаилТип именованной сущности может определять ее роль в тональныхотношениях.
Например, человек или государство могут быть субъектом мнения, вто же время, событие или локация могут быть только объектом, поставить их нароль субъекта мнения невозможно.В аналитических политических статьях при установлении метки сущностибудет полезным расширение метки на определенный класс лексики и изменениеметки. Часто в статьях упоминаются главы государств или чиновники высшегоранга, при этом, упоминаться может не только имя человека, но и его должность встране. Например, В.В. Путин кореферентен выражению президент России, темне менее, в сочетании президент России у слова Россия будет стоять меткаGEOPOLIT или LOC, хотя речь идет о человеке.Для анализа подобного явления из корпуса были извлечены предложения,со словами президент, представитель, министр, премьер-министр. Последнееслово было указано в форме премьерминистр, что связано с особенностямилемматизатора. В корпусе статей было выделено 393 подобных предложения,примеры можно разделить на группы в зависимости от контекста указанных слови их влияния на именованные сущности.66Первая группа – употребление должности вместе с именем человека:президент Эрдоган, президент Башар аль-Асад, президент Д.