Автореферат (1095055), страница 2
Текст из файла (страница 2)
«Программная система интеллектуального анализа текстов длясоциально-гуманитарных исследований», выполненной в рамках тематическогоплана ВятГГУ (2011–2012 гг.).2. «Модели, методы и программные средства автоматическогораспознавания эмоциональной составляющей в текстах», выполненной врамках государственного задания Министерства образования и наукиРоссийской Федерации, номер проекта 8.1118.2011 (2012–2013 гг.).3. «Разработка программного комплекса для аспектно-эмоциональногоанализа текстов на основе статистических методов машинного обучения»,выполненной по гранту Фонда содействия развитию малых форм предприятийв научно-технической сфере, номера проектов 1421ГУ1/2014 и 5148ГУ2/2014.4.
«Разработка и исследование системы автоматического анализа мненийв текстовых документах», проводимой в рамках государственного заданияМинистерства образования и науки Российской Федерации, номер проекта2014/330 (2014–2015 гг.).5. «Разработкаиисследованиеинтеллектуальнойсистемыинформационного поиска и анализа тональности текстовых и речевыхдокументов», выполненной по гранту Российского фонда фундаментальныхисследований, номер проекта 16-07-00342 а (2016–2018 гг.).6. «Разработка метода аспектно-эмоционального анализа текста наоснове тонально-ориентированных распределённых представлений слов»выполненной по гранту Российского фонда фундаментальных исследований,номер проекта 16-37-00311 мол_а (2016–2017 гг.).ДиссертационноеисследованиебылоподдержаностипендиейПравительства Российской Федерации по приоритетным направленияммодернизации и технологического развития экономики России, приказ № 1028от 30.08.2013 г.
Министерства образования и науки Российской Федерации.Разработанные алгоритмы и методы аспектно-эмоционального анализатекста реализованы в виде программной системы [13] и внедрены в работунаучно-исследовательской лаборатории интеллектуальных систем и научнойсоциологической лаборатории Вятского государственного гуманитарногоуниверситета.Апробация результатов исследованияОсновные результаты работы докладывались на следующих научныхконференциях и семинарах:71.
Российский семинар по Оценке Методов Информационного ПоискаРОМИП (2012).2. XIII Международная конференция «Информатика: проблемы,методология, технологии» (г. Воронеж, 2013).3. Международные конференции по компьютерной лингвистике«Диалог» (г. Москва, 2013, 2014, 2015).4. XV Всероссийская научная конференция «Электронные библиотеки:перспективные методы и технологии, электронные коллекции» (RCDL-2013,г. Ярославль, 2013).5. XIII International Workshop on Semantic Evaluation (SemEval-2014,Dublin, Ireland, 2014).6. V Biennial International Workshop on Balto-Slavic Natural LanguageProcessing (BSNLP 2015, Hissar, Bulgaria, 2015).ПубликацииПо теме диссертации опубликовано 12 печатных работ, в том числе тристатьи в журналах из перечня ВАК РФ [1–3], три статьи, входящие вреферативную базу данных SCOPUS [4–6], одна депонированная статья [7] ипять статей в других изданиях [8–12].
Получено свидетельство огосударственной регистрации программы для ЭВМ [13].Структура и объём работыДиссертационная работа состоит из введения, четырёх глав, заключения,списка литературы (включающего 140 наименований), списка сокращений иусловных обозначений и двух приложений. Основная часть работы изложена на138 страницах и содержит 22 рисунка и 17 таблиц.ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫВо введении обоснована актуальность диссертационной работы,сформулированы научная новизна и практическая значимость исследования,определены цель и задачи работы, представлены выносимые на защитунаучные положения, указаны сведения об апробации и внедрении результатов.Первая глава посвящена описанию задачи автоматического анализатональности текста.
В данной главе вводится терминология, используемая вдиссертации, приведенаформальная постановка задачи аспектноэмоционального анализа и выделены её ключевые подзадачи, также приведёнобзор основных подходов к решению каждой из подзадач и метрик дляопределения качества решения.Мнением называют эмоциональное отношение автора, выраженное втексте по отношению к объекту высказывания, в качестве которого можетвыступать материальная сущность или её атрибуты, событие или процесс.Формально мнение определяется следующим образом 5 :(O, A , S , H , T ),iiгде O – объект, по отношению к аспектам которого выражается мнение;5Liu B.
Op. cit. P. 19.(1)8Ai – i-й аспект (аспектная категория) объекта;S i – тональность мнения по отношению к i-му аспекту;H – автор мнения;T – время выражения мнения.Обобщённая задача анализа тональности текста заключается вобнаружении в заданном тексте всех мнений вида (1). При этом задачааспектно-эмоционального анализа формулируется более узко и сводится кпоиску в тексте мнений вида:_, Ai , S i , _, _ . В соответствии сприсутствующими компонентами можно выделить две подзадачи такогоанализа:1) извлечение из текста аспектных терминов;2) определение тональности, указанной по отношению к выделеннымаспектным терминам.Аспектным термином a называется слово или словосочетание,определяющее конкретный аспект (свойство, составную часть, характеристику)исследуемого объекта.
Таким образом, аспектная категория Ai , представленнаяв (1), определяется множеством соответствующих аспектных терминовa i = Ai .Задача извлечения аспектных терминов решается в рамках трёх основныхподходов 6 :1) частотный подход;2) подход на основе машинного обучения с учителем;3) подход на основе машинного обучения без учителя.Методы извлечения аспектных терминов, основанные на третьемподходе, представляются наиболее перспективными, так как не требуюттрудоёмкой разметки текстовой коллекции.Вторую задачу – определение тональности аспектных терминов – можносчитать частным случаем общей задачи определения тональности текста.Тональность текста всегда представляется в виде значений некоторой шкалы;чаще всего используется двухзначная (позитивная или негативная тональность)или трёхзначная (добавляется нейтральная или противоречивая тональность)шкалы.Задача анализа тональности решается в рамках двух основных подходов7 :1) подход на основе знаний или правил;2) подход на основе машинного обучения.Для оценки качества работы методов выделения аспектных терминов иопределения тональности применялись традиционные метрики, используемые взадачах автоматической обработки текста 8 – точность (precision), полнота(recall), F1-мера (F1-measure) и правильность (accuracy).(){}6Liu B.
Op. cit. P. 68.Ibid. P. 59.8Manning Ch., Raghavan P., Shutze H. Introduction to Information Retrieval. Cambridge University Press, 2009.P. 155.79Во второй главе приводится описание алгоритмов извлечения аспектныхтерминов предметной области и определения их тональности, а также методааспектно-эмоционального анализа.Алгоритм извлечения аспектных терминов.Идея алгоритма ITE (сокр. от англ. Iterative aspect Term Extractionalgorithm) заключается в использовании свойств пространства распределённыхпредставлений слов для автоматического построения терминологическихсловарей для каждого аспекта.Алгоритм состоит из двух этапов: построение пространствараспределённых представлений и генерации словарей аспектных терминов.Первым этапом алгоритма является построение пространствараспределённых представлений. Распределённым представлением слова(distributed representation of word или word embedding) называется d-мерныйrвектор v = (v1 ,K, vd ) , где vi ∈ R – компоненты вектора9 .
Пространство, вкоторомрасположенытакиевектора,называют,соответственно,пространством распределённых представлений слов. Векторы указанногопространства строятся на основе неразмеченного тематического корпуса,например, корпуса текстов медицинской тематики, путем обучения нейроннойязыковой модели. Результатом работы первого этапа является пространство, вкотором сгруппированы векторы семантически и орфографически похожихслов.На втором этапе осуществляется генерация аспектных терминов.Входными данными при этом являются небольшие множества терминовобразцов, представляющих аспектные категории целевого объекта. Например,для объекта медицинское учреждение аспектными категориями могут быть:сервис, аппаратура и расположение. Тогда, например, аспект сервис можетбыть представлен следующими начальными терминами: персонал, врач,медсестра, лор, офтальмолог.Для каждого термина в векторном пространстве распределенныхпредставлений можно найти его ближайших соседей.
В качестве метрикиблизости между векторами использовалась косинусная мера сходства.rrФормально такое сходство между векторами v = (v1 ,..., vd ) и u = (u1,..., ud )задаётся выражением 10 :r rsim (v , u ) =∑i =1 viui,dd22v⋅u∑i =1 i ∑i =1 id(2)где d – размерность пространства.Таким образом, на втором этапе для каждого термина может бытьполучен список из нескольких (например, десяти) ближайших к нему терминов.При объединении полученных списков с исключением повторений, получаетсямножество новых терминов для аспекта, которое называется поколение.
Тогда9Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and theirCompositionality // Proceedings of NIPS. 2013. P. 3111–3119.10Manning Ch. Op. cit. P. 121.10начальные множества терминов-образцов можно считать нулевым поколениемAi ,0 ⊂ Ai .
Повторение аналогичной процедуры с новыми поколениямиформирует итеративный процесс, генерирующий аспектные термины.Например, в экспериментах с отзывами о медицинских учреждениях дляаспекта сервис в первом поколении были получены следующие термины:доктор, педиатр, анестезиолог, ординатор, акушерка, неонатолог,дерматолог, окулист и др.При увеличении номера итерации в поколение могут попадать шумовыеслова, поэтому для контроля тематической согласованности каждый новыйтермин q проверялся на выполнение критерия близости к нулевому поколению:к термину q должны быть близки (положительное значение меры (2) сходства)как минимум m из n (m ≤ n ) терминов a i нулевого поколения Ai ,0 :∑ f q, aij ≥ m, a ij ∈ Ai,0 .(3)()jЕдиничная функция f определена следующим образом:⎧1, sim(q, a ) > 0f (q, a ) = ⎨.(4)⎩0, sim(q, a ) ≤ 0Тогда множество терминов поколения k задаётся так:⎧⎪⎫⎪Ai , k = ⎨q ∑ f q, a ij ≥ m⎬.(5)⎪⎩⎪⎭jПараметр m критерия (3) позволяет контролировать согласованностьполучаемых терминов.