Автореферат (1095055), страница 3

Файл №1095055 Автореферат (Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов) 3 страницаАвтореферат (1095055) страница 32018-02-162018-02-16СтудИзба

Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Значения m, близкие к n, способствуют более строгомуотбору аспектных терминов. Тогда как при значениях m, близких к нулю,выбирается много аспектных терминов, возможно, не являющихся таковыми.После некоторого конечного числа итераций множество терминовисчерпывается, процесс завершается и, путем объединения всех поколений,формируются терминологические словари для каждого аспекта.Стоит отметить, что при таком методе отбора появляется возможностьобнаружения терминов с ошибками в написании, например, педиатр –педиатор; акушерка – окушерка; рентген – ренген; коридор – корридор и др.Возможность определения такого рода терминов появляется благодаряпостроению пространства распределённых представлений слов с учётомближайшего контекста. При этом контекст каждого слова оказываетсяустойчивым к ошибкам написания, т.

е. если термин написан с ошибкой, онпоявляется в том же контексте, что и правильно написанный термин, поэтомустановится возможным его извлечение.Алгоритм определения тональности аспектных терминов.Идея алгоритма TSD (сокр. от англ. aspect Term Sentiment Detectionalgorithm) заключается в использовании словаря оценочной лексики,построенного автоматически. Преимущество алгоритма в том, чтоиспользуются только неразмеченные текстовые данные и минимальноеколичество экспертных знаний в виде эталонных выражений тональности.Также автоматическое порождение словаря оценочной лексики из корпуса()11документов приводит к тому, что полученный словарь априори представлентолько релевантными предметной области выражениями и не требуетдополнительных процедур обработки.Способ построения словаря оценочной лексики состоит из двух этапов:отбор кандидатов и вычисление их весов.На роль кандидатов в выражения тональности отбираются всеприлагательные и глаголы, так как чаще всего слова именно этих частей речинесут наибольшую эмоциональную нагрузку.

Отрицания вносят существенныйвклад в формировании результирующей тональности выражений, поэтомуалгоритм учитывает лексическую структуру эмоциональных выраженийпосредством обработки впереди стоящей частицы «не», на которую приходитсябольшая часть всех отрицаний 11 .На втором этапе для каждого кандидата вычисляются две оценкитональности:1) оценка, основанная на использовании взаимной информации(Pointwise Mutual Information, PMI);2) оценка, основанная на использовании пространства распределённыхпредставлений слов, позволяющая оценить меру семантической близостивыражений.Первая из указанных оценок тональности термина-кандидата wопределяется по формуле:score1 (w) = PMI (w, pos ) − PMI (w, neg ) ,(6)где PMI (w, s ) – оценка взаимной информации между кандидатом w и классомтональности s ∈ {pos, neg }.Взаимная информация между кандидатом w и, например, позитивнымклассом тональности вычисляется по следующей формуле 12 :count (w, pos ) ⋅ N,PMI (w, pos ) = log 2(7)count (w) ⋅ count ( pos )где count (w, pos ) – количество вхождений кандидата w в позитивные отзывы;N – общее количество терминов в корпусе;count(w) – количество вхождений w во все отзывы корпуса;count ( pos ) – общее количество терминов в позитивных отзывах.Взаимная информация между кандидатом w и негативным классомтональности PMI (w, neg ) вычисляется аналогично.Для вычисления оценки тональности кандидата по формулам (6) и (7)необходим корпус с разметкой тональности на уровне документов, получитькоторый значительно легче в сравнении с тональностями по аспектам.Вторая оценка формируется на основе пространства распределённыхпредставлений слов.

Такая оценка, представляя альтернативный источник11Воробьёва О. В. Выражение имплицитного несогласия в разноструктурных языках // Научные трудыКубанского государственного технологического университета. 2015. № 5. С. 67–70.12Islam A., Inkpen D. Second Order Co-occurrence PMI for Determining the Semantic Similarity of Words //Proceedings of the International Conference on Language Resources and Evaluation (LREC 2006).

2006. P. 1033–1038.12информации о тональности слов, способствует более точному отражениюдействительных тональностей. При этом, аналогично алгоритму извлеченияаспектных терминов, используется минимум экспертных знаний в видеэталонных выражений, определяющих тональности. Например, для предметнойобласти медицины тональности могут задаваться множествами позитивныхвыражений E+ и негативных E– выражений, представленными в таблице 1.Таблица 1 – Эталонные выражения тональностиПозитивная тональность, E+Негативная тональность, E–профессиональный, рекомендовать,страшный, незаконный, ужасный,удобный, заботливый, отличный, …бесполезный, неудобный, …Используя формулу (2), можно оценить сходство термина-кандидата икаждого из заданных эталонных выражений.

Тогда результирующее значениеоценки тональности кандидата в оценочные термины, представленногоrвектором q , определяется через максимум оценок сходства score 2+ и score 2− сэталонными выражениями тональности:r rr r⎧sim(q , e ), sim(q , e ) > 0{+ , −}score2 = ∑ ⎨,(8)r rr { + , −} ⎩0, sim(q , e ) ≤ 0e ∈Erгде – e вектор эталонного выражения тональности.Например, для термина-кандидата первоклассный значение score 2+ = 4,3 ,а значение score 2− = 1,1 , следовательно, кандидату приписывается итоговаяоценка score 2 = +4,3 . В качестве других примеров можно привести следующиевыражения: подтянутый (+4,06); не навязчивый (+4,9); результативный (+2,3);надлежащий (+1,9); не плохой (+5,5); не почистить (–0,2); обшарпанный (–3,9);унылый (–3,5); неопрятный (–4,6); надменный (–4,2) и т.

д.Одновременное вычисление двух оценок позволяет частично избегатьошибок в определении значений выражений тональности. Например, дляпредметной области медицины выражение утомительный имеет скорееневерную первую оценку +0,99, тогда как вторая оценка –1,88 является болееправильной. Другие подобные примеры взаимодополнения оценок для той жеобласти: жестковатый +1,1 / –2,6; невкусный +0,6 / –3,8; улучшаться +1,38 / –1,35; нежелательный +0,85 / –2,3; изнурительный +2,1 / –0,92; не капризничать+1,1 / –1,9; не улучшать +1,29 / –1,6 и т.

д.С помощью построенного таким образом словаря составляетсяпризнаковое описание для каждого аспектного термина. В качестве признаковиспользуются веса (6) и (8) найденных кандидатов, расположенных в текстерядом с аспектным термином. При этом учитываются ближний (три терминаслева и справа) и дальний (шесть терминов слева и справа) контексты термина.Рассмотрение двух контекстов связано с тем, что эмоциональные выраженияопределяющие тональность аспектного термина чаще встречаются внепосредственной его близости, но также могут присутствовать на большемудалении от него. Далее для построения классификатора тональностей13возможно применение одного из методов машинного обучения, например,метода опорных векторов.Метод аспектно-эмоционального анализа.Результатом работы двух описанных выше алгоритмов являетсямножество аспектных терминов a i , для каждой категории Ai , где i – индекс{ }категории.

Относительно каждого аспектного термина a ij ∈ Ai известна еготональность s j и номер поколения g j .Для вычисления интегральной оценки тональности S i аспектнойкатегории Ai в разработанном методе предлагается суммировать оценкитональности по терминам этой категории следующим способом:sjSi = ∑.(9)a ij ∈ Ai g jТональность термина в (9) учитывается обратно пропорционально номеруего поколения в связи со следующим предположением: чем младше поколение,тем его термины ближе к эталонным терминам, заданным экспертом, а значит иих вес в общей оценке тональности конкретной аспектной категории долженбыть выше.Например,вофрагментетекста«Врачоказалсяоченьпрофессиональным...

А вот санитарки хамят просто напропалую…» найденыдва термина, принадлежащих аспекту сервис. Термин врач, принадлежащийпервому поколению, упомянут с позитивной тональностью, а терминсанитарки, принадлежащий третьему поколению, выражает негативнуютональность.Общаяоценкааспектасервисбудетпозитивной:(+ 1) + (− 1) = +0,67 → pos .13Рисунок 1 – Схема работы метода аспектно-эмоционального анализа текстаВ целом, разработанный на основе алгоритмов ITE и TSD методаспектно-эмоционального анализа может быть представлен в виде следующейсхемы (рисунок 1).Входными данными для метода являются текстовые документы, а такженабор аспектов, относительно которых необходимо определить выраженныемнения.

На первом этапе выполняется алгоритм ITE, результатом которогоявляется набор извлечённых аспектных терминов. Данный набор поступает на14вход второго этапа, где на основе алгоритма TSD определяются ихтональности: результатом является набор аспектных терминов с числовымиоценками тональности. В завершении вычисляются интегральные оценкитональности по каждому из заданных аспектов на основе способа (9).

Врезультате каждый исходный текст представляется компактным набороммнений по аспектам.Третья глава содержит описание структуры разработанной системыаспектно-эмоционального анализа текста (рисунок 2), а также особенности еёпрограммной реализации.Рисунок 2 – Структура системы аспектно-эмоционального анализа текстаКак и в системах машинного обучения с учителем на схеме сохраненоделение текстов на обучающие и тестовые. Однако в предлагаемой системеобучающий корпус, в отличие от традиционного понимания, может несодержать никакой экспертной разметки. «Обучающими» в таком случаеявляются сами тексты корпуса для заданной предметной области.Все тексты, с которыми работает система, подвергаются предобработке.В соответствующей подсистеме происходит разбиение текста на токены,выполнение морфологического анализа.Подсистема представления слов реализует функционал по построениюпространства распределённых представлений слов.

Подсистема работает наподготовленном корпусе обучающих документов, а её результатом являетсясоответствие лексических единиц векторам пространства распределённыхпредставлений.15Подсистема экспертных знаний предоставляет эксперту в предметнойобласти интерфейс для задания аспектных терминов-образцов и эталонныхвыражений тональности.Подсистема формирования лингвистических ресурсов работает наоснове полученного ранее пространства распределённых представлений слов иэкспертных знаний.

Для каждого из заданных экспертом аспектовгенерируются аспектные термины, формирующие соответствующие словари.Также в этой подсистеме выполняются основные этапы построения словаряоценочной лексики: отбор кандидатов в оценочные термины и определение ихвесов по формулам (6) и (8).Полученные словари используются подсистемой управления анализомдля извлечения из тестовых данных аспектных терминов и определениявыражений тональности. Далее составляются признаковые описания каждогоиз найденных аспектных терминов, по которым определяется тональность.Итоговым действием является вычисление по формуле (9) общих оценоктональностей документа в соответствии с аспектными категориями,определёнными экспертом.Основной особенностью программной реализации системы являетсяиспользование XML-ориентированной базы данных для хранения текстов илингвистической разметки. Преимущество такого подхода заключается в том,что не требуется специализированное программное обеспечение, т.к.

Характеристики

Тип файла

PDF-файл

Размер

443,02 Kb

Материал

Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

МПУ

Список файлов диссертации

metod-algoritmy-i-programmnaya-cistema-aspektno-emocionalnogo-analiza-tekstov-123571857-1518766828.rar

Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов

Автореферат.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.