Автореферат (1095055), страница 3
Текст из файла (страница 3)
Значения m, близкие к n, способствуют более строгомуотбору аспектных терминов. Тогда как при значениях m, близких к нулю,выбирается много аспектных терминов, возможно, не являющихся таковыми.После некоторого конечного числа итераций множество терминовисчерпывается, процесс завершается и, путем объединения всех поколений,формируются терминологические словари для каждого аспекта.Стоит отметить, что при таком методе отбора появляется возможностьобнаружения терминов с ошибками в написании, например, педиатр –педиатор; акушерка – окушерка; рентген – ренген; коридор – корридор и др.Возможность определения такого рода терминов появляется благодаряпостроению пространства распределённых представлений слов с учётомближайшего контекста. При этом контекст каждого слова оказываетсяустойчивым к ошибкам написания, т.
е. если термин написан с ошибкой, онпоявляется в том же контексте, что и правильно написанный термин, поэтомустановится возможным его извлечение.Алгоритм определения тональности аспектных терминов.Идея алгоритма TSD (сокр. от англ. aspect Term Sentiment Detectionalgorithm) заключается в использовании словаря оценочной лексики,построенного автоматически. Преимущество алгоритма в том, чтоиспользуются только неразмеченные текстовые данные и минимальноеколичество экспертных знаний в виде эталонных выражений тональности.Также автоматическое порождение словаря оценочной лексики из корпуса()11документов приводит к тому, что полученный словарь априори представлентолько релевантными предметной области выражениями и не требуетдополнительных процедур обработки.Способ построения словаря оценочной лексики состоит из двух этапов:отбор кандидатов и вычисление их весов.На роль кандидатов в выражения тональности отбираются всеприлагательные и глаголы, так как чаще всего слова именно этих частей речинесут наибольшую эмоциональную нагрузку.
Отрицания вносят существенныйвклад в формировании результирующей тональности выражений, поэтомуалгоритм учитывает лексическую структуру эмоциональных выраженийпосредством обработки впереди стоящей частицы «не», на которую приходитсябольшая часть всех отрицаний 11 .На втором этапе для каждого кандидата вычисляются две оценкитональности:1) оценка, основанная на использовании взаимной информации(Pointwise Mutual Information, PMI);2) оценка, основанная на использовании пространства распределённыхпредставлений слов, позволяющая оценить меру семантической близостивыражений.Первая из указанных оценок тональности термина-кандидата wопределяется по формуле:score1 (w) = PMI (w, pos ) − PMI (w, neg ) ,(6)где PMI (w, s ) – оценка взаимной информации между кандидатом w и классомтональности s ∈ {pos, neg }.Взаимная информация между кандидатом w и, например, позитивнымклассом тональности вычисляется по следующей формуле 12 :count (w, pos ) ⋅ N,PMI (w, pos ) = log 2(7)count (w) ⋅ count ( pos )где count (w, pos ) – количество вхождений кандидата w в позитивные отзывы;N – общее количество терминов в корпусе;count(w) – количество вхождений w во все отзывы корпуса;count ( pos ) – общее количество терминов в позитивных отзывах.Взаимная информация между кандидатом w и негативным классомтональности PMI (w, neg ) вычисляется аналогично.Для вычисления оценки тональности кандидата по формулам (6) и (7)необходим корпус с разметкой тональности на уровне документов, получитькоторый значительно легче в сравнении с тональностями по аспектам.Вторая оценка формируется на основе пространства распределённыхпредставлений слов.
Такая оценка, представляя альтернативный источник11Воробьёва О. В. Выражение имплицитного несогласия в разноструктурных языках // Научные трудыКубанского государственного технологического университета. 2015. № 5. С. 67–70.12Islam A., Inkpen D. Second Order Co-occurrence PMI for Determining the Semantic Similarity of Words //Proceedings of the International Conference on Language Resources and Evaluation (LREC 2006).
2006. P. 1033–1038.12информации о тональности слов, способствует более точному отражениюдействительных тональностей. При этом, аналогично алгоритму извлеченияаспектных терминов, используется минимум экспертных знаний в видеэталонных выражений, определяющих тональности. Например, для предметнойобласти медицины тональности могут задаваться множествами позитивныхвыражений E+ и негативных E– выражений, представленными в таблице 1.Таблица 1 – Эталонные выражения тональностиПозитивная тональность, E+Негативная тональность, E–профессиональный, рекомендовать,страшный, незаконный, ужасный,удобный, заботливый, отличный, …бесполезный, неудобный, …Используя формулу (2), можно оценить сходство термина-кандидата икаждого из заданных эталонных выражений.
Тогда результирующее значениеоценки тональности кандидата в оценочные термины, представленногоrвектором q , определяется через максимум оценок сходства score 2+ и score 2− сэталонными выражениями тональности:r rr r⎧sim(q , e ), sim(q , e ) > 0{+ , −}score2 = ∑ ⎨,(8)r rr { + , −} ⎩0, sim(q , e ) ≤ 0e ∈Erгде – e вектор эталонного выражения тональности.Например, для термина-кандидата первоклассный значение score 2+ = 4,3 ,а значение score 2− = 1,1 , следовательно, кандидату приписывается итоговаяоценка score 2 = +4,3 . В качестве других примеров можно привести следующиевыражения: подтянутый (+4,06); не навязчивый (+4,9); результативный (+2,3);надлежащий (+1,9); не плохой (+5,5); не почистить (–0,2); обшарпанный (–3,9);унылый (–3,5); неопрятный (–4,6); надменный (–4,2) и т.
д.Одновременное вычисление двух оценок позволяет частично избегатьошибок в определении значений выражений тональности. Например, дляпредметной области медицины выражение утомительный имеет скорееневерную первую оценку +0,99, тогда как вторая оценка –1,88 является болееправильной. Другие подобные примеры взаимодополнения оценок для той жеобласти: жестковатый +1,1 / –2,6; невкусный +0,6 / –3,8; улучшаться +1,38 / –1,35; нежелательный +0,85 / –2,3; изнурительный +2,1 / –0,92; не капризничать+1,1 / –1,9; не улучшать +1,29 / –1,6 и т.
д.С помощью построенного таким образом словаря составляетсяпризнаковое описание для каждого аспектного термина. В качестве признаковиспользуются веса (6) и (8) найденных кандидатов, расположенных в текстерядом с аспектным термином. При этом учитываются ближний (три терминаслева и справа) и дальний (шесть терминов слева и справа) контексты термина.Рассмотрение двух контекстов связано с тем, что эмоциональные выраженияопределяющие тональность аспектного термина чаще встречаются внепосредственной его близости, но также могут присутствовать на большемудалении от него. Далее для построения классификатора тональностей13возможно применение одного из методов машинного обучения, например,метода опорных векторов.Метод аспектно-эмоционального анализа.Результатом работы двух описанных выше алгоритмов являетсямножество аспектных терминов a i , для каждой категории Ai , где i – индекс{ }категории.
Относительно каждого аспектного термина a ij ∈ Ai известна еготональность s j и номер поколения g j .Для вычисления интегральной оценки тональности S i аспектнойкатегории Ai в разработанном методе предлагается суммировать оценкитональности по терминам этой категории следующим способом:sjSi = ∑.(9)a ij ∈ Ai g jТональность термина в (9) учитывается обратно пропорционально номеруего поколения в связи со следующим предположением: чем младше поколение,тем его термины ближе к эталонным терминам, заданным экспертом, а значит иих вес в общей оценке тональности конкретной аспектной категории долженбыть выше.Например,вофрагментетекста«Врачоказалсяоченьпрофессиональным...
А вот санитарки хамят просто напропалую…» найденыдва термина, принадлежащих аспекту сервис. Термин врач, принадлежащийпервому поколению, упомянут с позитивной тональностью, а терминсанитарки, принадлежащий третьему поколению, выражает негативнуютональность.Общаяоценкааспектасервисбудетпозитивной:(+ 1) + (− 1) = +0,67 → pos .13Рисунок 1 – Схема работы метода аспектно-эмоционального анализа текстаВ целом, разработанный на основе алгоритмов ITE и TSD методаспектно-эмоционального анализа может быть представлен в виде следующейсхемы (рисунок 1).Входными данными для метода являются текстовые документы, а такженабор аспектов, относительно которых необходимо определить выраженныемнения.
На первом этапе выполняется алгоритм ITE, результатом которогоявляется набор извлечённых аспектных терминов. Данный набор поступает на14вход второго этапа, где на основе алгоритма TSD определяются ихтональности: результатом является набор аспектных терминов с числовымиоценками тональности. В завершении вычисляются интегральные оценкитональности по каждому из заданных аспектов на основе способа (9).
Врезультате каждый исходный текст представляется компактным набороммнений по аспектам.Третья глава содержит описание структуры разработанной системыаспектно-эмоционального анализа текста (рисунок 2), а также особенности еёпрограммной реализации.Рисунок 2 – Структура системы аспектно-эмоционального анализа текстаКак и в системах машинного обучения с учителем на схеме сохраненоделение текстов на обучающие и тестовые. Однако в предлагаемой системеобучающий корпус, в отличие от традиционного понимания, может несодержать никакой экспертной разметки. «Обучающими» в таком случаеявляются сами тексты корпуса для заданной предметной области.Все тексты, с которыми работает система, подвергаются предобработке.В соответствующей подсистеме происходит разбиение текста на токены,выполнение морфологического анализа.Подсистема представления слов реализует функционал по построениюпространства распределённых представлений слов.
Подсистема работает наподготовленном корпусе обучающих документов, а её результатом являетсясоответствие лексических единиц векторам пространства распределённыхпредставлений.15Подсистема экспертных знаний предоставляет эксперту в предметнойобласти интерфейс для задания аспектных терминов-образцов и эталонныхвыражений тональности.Подсистема формирования лингвистических ресурсов работает наоснове полученного ранее пространства распределённых представлений слов иэкспертных знаний.
Для каждого из заданных экспертом аспектовгенерируются аспектные термины, формирующие соответствующие словари.Также в этой подсистеме выполняются основные этапы построения словаряоценочной лексики: отбор кандидатов в оценочные термины и определение ихвесов по формулам (6) и (8).Полученные словари используются подсистемой управления анализомдля извлечения из тестовых данных аспектных терминов и определениявыражений тональности. Далее составляются признаковые описания каждогоиз найденных аспектных терминов, по которым определяется тональность.Итоговым действием является вычисление по формуле (9) общих оценоктональностей документа в соответствии с аспектными категориями,определёнными экспертом.Основной особенностью программной реализации системы являетсяиспользование XML-ориентированной базы данных для хранения текстов илингвистической разметки. Преимущество такого подхода заключается в том,что не требуется специализированное программное обеспечение, т.к.