Автореферат (Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов)

PDF-файл Автореферат (Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов) Технические науки (21197): Диссертация - Аспирантура и докторантураАвтореферат (Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов) - PDF (21197) - СтудИзба2018-02-16СтудИзба

Описание файла

Файл "Автореферат" внутри архива находится в папке "Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов". PDF-файл из архива "Метод, алгоритмы и программная cистема аспектно-эмоционального анализа текстов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве МПУ. Не смотря на прямую связь этого архива с МПУ, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст из PDF

На правах рукописиБлинов Павел ДмитриевичМЕТОД, АЛГОРИТМЫ И ПРОГРАММНАЯ СИСТЕМААСПЕКТНО-ЭМОЦИОНАЛЬНОГО АНАЛИЗА ТЕКСТОВСпециальность 05.13.17 – Теоретические основы информатикиАВТОРЕФЕРАТдиссертации на соискание учёной степеникандидата технических наукМосква – 2016РаботавыполненавФедеральномгосударственномбюджетномобразовательном учреждении высшего образования «Вятский государственныйгуманитарный университет» на кафедре прикладной математики иинформатики.Научный руководитель:Котельников Евгений Вячеславович,кандидат технических наук, доцент кафедрыприкладной математики и информатики ФГБОУВО «Вятский государственный гуманитарныйуниверситет»Официальные оппоненты:Иванова Галина Сергеевна,доктор технических наук, профессор кафедры«Компьютерные системы и сети» ФГБОУ ВПО«Московскийгосударственныйтехническийуниверситет имени Н.Э.

Баумана»Турдаков Денис Юрьевич,кандидатфизико-математическихнаук,заведующий отделом Информационных системИнститута системного программирования РАНВедущая организация:ФГБОУ ВО «Московский государственныйуниверситет имени М.В. Ломоносова»Защита диссертации состоится «26» мая 2016 г. в 13:00 на заседаниидиссертационного совета Д 212.147.03 при Федеральном государственномбюджетном образовательном учреждении высшего профессиональногообразования «Московский государственный университет печати имени ИванаФёдорова» по адресу 127550, Москва, ул.

Прянишникова, д. 2А.С диссертацией можно ознакомиться в библиотеке МГУП имени ИванаФёдорова и на сайте http://mgup.ru.Автореферат разослан «___» __________ 2016 г.Ученый секретарьдиссертационного совета Д 212.147.03ЩербинаЮрий Владимирович3ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность темы исследованияС начала 2000-х годов активное распространение компьютерныхтехнологий способствует тому, что процедура создания информационногоконтента стала доступна практически для каждого человека.

Содержимое такихинформационных ресурсов как социальные сети, сервисы сбора отзывов,веб-форумы и блоги активно формируется самими пользователями.Консолидированный субъективный опыт отдельных пользователей являетсяисточником ценной информации 1 . Например, коллекция отзывов пользователейо конкретном медицинском учреждении содержит сведения об уровнепрофессионализма персонала, качестве обслуживания, наличии современногомедицинского оборудования.

Однако, чтобы извлечь такую информациюнеобходимо анализировать внушительные объёмы текстовых данных. Решениюэтой проблемы посвящен специальный раздел компьютерной лингвистики –автоматический анализ тональности текста 2 (sentiment analysis или opinionmining).Исходной целью методов анализа тональности являлась классификациядокументов, а позднее и предложений, по заданной шкале тональности, какправило, двухбалльной (позитив–негатив) или трехбалльной (добавляетсянейтральная или противоречивая тональность).

Однако для многих прикладныхзадач такого общего анализа тональности на уровне всего текста или дажеотдельных предложений явно недостаточно. Часто вместо общей оценкитональности требуется более детальное исследование выраженных мнений поконкретным аспектам.

Например, для объекта медицинское учреждение такимиаспектами могут быть: сервис, аппаратура, расположение и др.; для объектаобразовательное учреждение возможныеаспекты: образовательнаяпрограмма, качество обучения, стоимость и т. д. Поэтому со временемначальная постановка задачи анализа тональности приобрела более детальнуюформулировку и выделилась в отдельную проблему аспектно-эмоциональногоанализа текста (aspect-based sentiment analysis), которая заключается вавтоматическом определении мнений пользователя, выраженных в тексте,относительно конкретных аспектов исследуемой сущности.Методы аспектно-эмоционального анализа текста разрабатываются врамках двух подходов машинного обучения: с учителем и без учителя 3 .

Вподходе на основе обучения с учителем необходима размеченная коллекциядокументов, в которой указаны примеры эмоциональных выражений иаспектных терминов. Процесс подготовки такой обучающей коллекциисопряжён с большими затратами как по времени, так и по трудоёмкости, что1Hu M., Liu B. Mining and Summarizing Customer Reviews // Proceedings of the Tenth ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining (KDD ‘04). 2004.

P. 168–177.2Liu B. Sentiment Analysis and Opinion Mining // Synthesis Lectures on Human Language Technologies. 2012.Vol. 5(1). P. 16.3Ibid. P. 59, 68.4является существенным ограничением практического использования методов,основанных на этом подходе.Избежать зависимости от обучающих данных позволяют методыобучения без учителя. Для их работы также нужен корпус документов, нопредварительная разметка не требуется. В рамках этого подходаобнаруживаются вероятностно-статистические закономерности текста и на ихоснове решаются ключевые подзадачи аспектно-эмоционального анализа:выявление аспектных терминов и определение их тональности.

Однако такиеметоды требуют сложной настройки на заданную предметную область.Например, метод на основе скрытого размещения Дирихле (Latent DirichletAllocation, LDA) в исходном виде не способен эффективно обнаруживатьаспектные термины, поэтому требуется его дополнительная адаптация инастройка соответствия выявляемых тем целевому набору аспектов 4 .Таким образом, актуальной является проблема разработки методов иалгоритмов аспектно-эмоционального анализа текстов на основе машинногообучения без учителя, простых в настройке и использующих минимальноеколичество априорной информации о предметной области.Степень разработанности темы исследованияИсследованиями в области автоматического анализа тональностизанимаютсяроссийскиеизарубежныеучёные:Н.

В. Лукашевич,И. И. Четвёркин, В. Г. Васильев, П. И. Браславский, П. Ю. Поляков, B. Liu,P. Turney, S. Mohammad, S. Kiritchenko, M. Chernyshevich и др. Однако рядособенностей задачи анализа тональности (сильная контекстная зависимостьвыражений, наличие в тексте иронии или сарказма и др.) не позволяет получитьвысокоточный метод для автоматического извлечения мнений.Объектом исследования являются коллекции машиночитаемыхтекстовых документов на естественном языке.Предметомисследованияявляютсяметодыиалгоритмыавтоматического анализа тональности текста.Целью диссертационной работы является разработка метода,алгоритмов и программной системы аспектно-эмоционального анализа текстовна основе машинного обучения без учителя.Для достижения поставленной цели решены следующие задачи:1.

Обзор и анализ существующих подходов и методов аспектноэмоционального анализа текста.2. Разработка алгоритма извлечения аспектных терминов заданнойпредметной области на основе небольшого начального множества образцов.3. Разработка алгоритма определения тональности, выраженной в текстепо отношению к извлечённым аспектным терминам.4. Разработка метода аспектно-эмоционального анализа.5. Разработка структуры системы аспектно-эмоционального анализатекста.4Titov I., McDonald R. A Joint Model of Text and Aspect Ratings for Sentiment Summarization // Proceedings ofAnnual Meeting of the Association for Computational Linguistics (ACL-2008). 2008. P. 308–316.56. Реализация и тестирование программной системы, позволяющейвыполнять аспектно-эмоциональный анализ текста.Научная новизна1.

Разработан алгоритм извлечения аспектных терминов. Алгоритмотличается от известных итеративным способом отбора терминов на основепространства распределённых представлений слов. По небольшому начальномумножеству терминов и корпусу неразмеченных документов алгоритм позволяетполучать тематически согласованные наборы слов, которые являютсявербальным выражением конкретных аспектов.2. Разработансловарныйалгоритмопределениятональностиизвлечённых аспектных терминов, отличающийся от известных способомвзвешивания оценочных выражений на основе взаимной информации и мерысемантической близости слов.3. На основании разработанных алгоритмов извлечения аспектныхтерминов и определения тональности, предложен метод аспектноэмоционального анализа текста, отличающийся от известных способомвычисления интегральных оценок тональности. Метод позволяет выполнятьоценку тональности по аспектам без сложной настройки и большого объёмаэкспертных знаний.Практическая значимостьРазработанная на основе предложенного метода и алгоритмовпрограммная система предназначена для выполнения анализа тональноститекста на уровне аспектов заданной сущности.

Система может бытьиспользована как самостоятельный инструмент для резюмирования мнений поаспектам исследуемой сущности на основе коллекции документов,принадлежащих конкретной предметной области. Также разработанная системаможет быть интегрирована в поисковые системы и рекомендательные сервисыс целью учета пользовательских предпочтений относительно важностиаспектов при формировании поисковой выдачи или выработке рекомендаций.Методы исследованияДля решения поставленных задач использовались методы компьютернойлингвистики, машинного обучения, теории информационного поиска, теориивероятностей и математической статистики; для разработки структуры системыи её программной реализации – унифицированный язык моделирования UML,методы структурного и объектно-ориентированного программирования.На защиту выносятся:1.

Алгоритм извлечения аспектных терминов предметной области.2. Алгоритм определения тональности аспектных терминов.3. Метод аспектно-эмоционального анализа текста.4. Структура и программная реализация системы аспектноэмоционального анализа текста.Достоверность результатов обусловлена корректностью примененияметодов обработки текстов и машинного обучения, подтвержденаэкспериментальными исследованиями программных средств, реализующих6предложенные алгоритмы и методы, а также апробацией основных положенийработы на международных и российских конференциях.Личный вклад соискателяВсе результаты, относящиеся к методам и алгоритмам автоматическогоанализа тональности текстов, получены лично автором.Внедрение результатовТеоретическиеипрактическиерезультатыдиссертационногоисследования использованы при выполнении научно-исследовательских работпо следующим проектам:1.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5160
Авторов
на СтудИзбе
439
Средний доход
с одного платного файла
Обучение Подробнее