Диссертация (1137218), страница 13

Файл №1137218 Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 13 страницаДиссертация (1137218) страница 132019-05-202019-05-20СтудИзба

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 13)

Тестовая выборка формируется из оставшегося множествапутем случайного выбора. Для каждого результата мы используем его«сниппет»,извлеченныйатакжесосоответствующийстраницы.Этотемуфрагментэксперименттекста,базируетсянапредположении, что верхние (нижние) результаты, выдаваемые Bing,так или иначе релевантны (нерелевантны) исходному запросу,несмотря на то что они могут быть неверно упорядочены.При проведении данного эксперимента было не столь важнополучить наилучшее возможное множество ответов. Основноевнимание было сосредоточено на оценке улучшения релевантности,достигаемого за счет использования расширенных деревьев.Мы поставили задачу подобрать или подготовить набор данных,который удовлетворял бы нескольким требованиям. Во-первых,представлял бы собой естественным образом разбитое на несколькоклассов множество коротких текстов, имеющих более-менее четковыраженную лингвистическую структуру.

Во-вторых, содержал быдостаточное количество реальных описаний каких-либо объектов,имеющих практическую ценность. К сожалению, найти готовыйнабор, обладающий обоими этими свойствами или хотя бы толькопервым из них, не удалось. В связи с этим мы решили использоватьопыт, накопленный в работах по исследованию и улучшению поиска[43], и использовать в качестве выборки для обучения и тестированиявыдаваемые промышленной поисковой системой результаты (первые90N) предварительно подобранных поисковых запросов.

В качествеклассов наиболее естественным было выбрать классы «релевантныисходному запросу» и «нерелеватны исходному запросу». В этойконцепции каждая поисковая выдача соответствует одной выборке.Одинаковая природа всех выборок позволяет усреднить полученныепоказатели точности и полноты по всем экспериментам. Такимобразом, повышение доверия к результатам в нашем случаедостигается за счет увеличения числа экспериментов, а не за счетувеличения размера исходной выборки.Подготовка поисковых запросов происходила в несколькоэтапов:1. Отбор названий и коротких (несколько слов) описания продуктов.2. Поиск расширенных обзоров и мнений о продуктах на основесформированных описаний.3.

Извлечение из полученных текстов максимальных по вложению иименных и глагольных групп. Этот этап необходим, посколькуоригинальные тексты дают слишком специфические запросы,приводящие к появлению малого числа дублирующих друг другарезультатов.Аналогичные шаги были сделаны для подготовки запросов набазе данных с ресурса Yahoo Answers. В итоге были выбраны порядка100 запросов для каждой из этих двух областей.Для классификации результатов поисковой выдачи по каждомуиз запросов мы использовали следующую схему. Сначала берутсяпервые 100 (или все, если результатов было меньше) результатов.Далее из этого множества в качестве обучающей выборки выделяютсяпервыеипоследние20%,которыерассматриваютсякак,91соответственно, положительные и отрицательные примеры.

Дляпроведения классификации из остальной части множества случайнымобразом выбираются K результатов, K вычисляется исходя изсоотношения 1 к 4 между тестовой и обучающей выборкой (K = 10,если результатов ровно 100).В основе такого подхода лежит несколько идей. Во-первых, мыпредполагаем,чтопервыерезультаты(этоподтверждаетсяпроведенными исследованиями в области поиска), выдаваемыепоисковым движком, так или иначе являются релевантными запросу.Они, разумеется, могут быть неправильно упорядочены, поэтому внашей схеме порядок не играет роли. Тот факт, что эти примеры неявляются«золотымнекорректными,стандартом»иявляетсяскореетакжемогутбытьчастичнопреимуществом,чемнедостатком, поскольку на реальных данных редко удается подобратьидеальную обучающую выборку.

Кроме того, такой подход позволяетдополнительноавтоматизироватьпроведениеэкспериментов,поскольку размечать приходится только тестовую выборку, котораявсегда меньше обучающей.Использование в качестве отрицательных примеров «последнихизпервых»являетсявынужденноймеройлишьотчасти.Отрицательные примеры в данном случае, как и положительные,содержат ключевые слова (возможно, не все) из исходного запроса.Однако отличие между ними состоит в том, что в положительныхпримерах встречаются фразы из исходного запроса, образующиесмысловые единицы, и обучение на деревьях как раз призваноуловить это отличие.

А использование расширенных деревьевпомогает выделить случаи, в которых исходные фразы распределенымежду несколькими предложениями в тексте.92Также необходимо отметить, что для каждой поисковой выдачипроизводилось фактически два независимых эксперимента. В одномслучае в качестве исходных данных рассматривались так называемыесниппеты (snippets или passages) – короткие фрагменты, обычноотображаемые поисковым движком непосредственно на страницепоиска и представляющие собой объединение нескольких наиболеерелевантных отрывков текста. В рамках сниппета мы делали изкаждого такого отрывка отдельное предложение и объединяли их водин абзац.

Во втором случае на базе сниппета и оригинальноготекстаснайденнойпоисковикомстраницыавтоматическиформировалась краткая выдержка (summary), содержащая наиболееблизкие к сниппету предложения со страницы.Обучение и классификация осуществлялись в автоматическомрежимесиспользованиепрограммногосредстваSVMLight(http://disi.unitn.it/moschitti/Tree-Kernel.htm [114]). Параметры былирекомендованыавторомрасширеннымидеревьямиПО.Дляработыиспользовалосьсобычнымипредставлениеи«лесдеревьев» (packed forest). Как уже отмечалось выше, ядро в этомслучае вычисляется как нормированная сумма всех функций ядер длякаждой пары деревьев леса. Оценка точности и полноты (отнесениерезультатов к релевантным/нерелевантным) производилась вручную.Таблица 3.1.

Результаты для запросов, связанных с мнением о продуктах.Обучение на текстах со страниц,%Ядра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность56,858,7Полнота75,284,6F-мера64,967,593Таблица 3.2. Результаты для запросов, связанных с мнением о продуктах.Обучение на поисковых сниппетах,%Ядра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность56,363,2Полнота78,483,1F-мера61,767Таблица 3.3.

Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers. Обучение на текстах со страниц, %Ядра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность51,750,854,4Полнота73,679,283,3F-мера60,154,662,8Таблица 3.4. Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers. Обучение на поисковых сниппетах,%Ядра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность59,562,667,9Полнота73,374,979F-мера62,564,370,7Результаты экспериментов, усредненные по всем поисковымзапросам, показывают ощутимое улучшение, достигаемое за счетиспользования расширенных деревьев. На примере Yahoo Answersвидно, что добавление только кореферентных связей дает небольшойприрост, тогда как использование и кореферентных связей, ириторических структур позволяет добиться более существеннойприбавки.

Более существенный прирост полноты по сравнению сточностьюобъясняетсятем,чтоиспользованиедискурсивнойинформации позволяет корректно классифицировать как релевантные94тексты, в которых исходные фразы распределены между несколькимипредложениям.Исходные и преобразованные запросы, тестовая выборка, атакже подробные результаты классификации доступны на ресурсахиhttp://code.google.com/p/relevance-based-on-parse-treeshttps://github.com/bgalitsky/relevance-based-on-parse-trees.3.5.2 Классификация технических документовЕщё один эксперимент, в котором проверялся предлагаемыйметод – классификация технических документов [48]. В этом случаерассматриваются документы, относящиеся к двум классам:1.

Action-plan (описание оригинальной разработки) - документ,который содержит четкое и хорошо структурированное описаниетого, как построить конкретную систему в какой-либо области.2. Meta-document (мета-описание) – документ, объясняющий, какписать документы, относящиеся к первому классу, например,инструкция, учебник, технический стандарт и т.д.Данная задача важна с практической точки зрения.

«Метадокументы», как правило, содержат общедоступную информацию имогут распространяться свободно. Описание же оригинальныхразработокявляетсясобственностьюкомпанийинеможетпередаваться и копироваться без их разрешения.Очевидно, что технические документы, относящиеся к однойобласти, будут содержать примерно один и тот же набор ключевыхслов и словосочетаний. Использование синтаксической информациитоже не дает полной картины, поскольку такого рода тексты обычнонаписаны стандартизованным языком с использованием короткихсвязанных друг с другом предложений. В то же время, разумеется,95разделениеклассовнельзясчитатьаналитическойзадачей.Разумеется, описания разработок могут содержать фрагменты метаописаний (например, как отсылка к стандарту).

И наоборот – в метадокументы могут быть включены фрагменты описаний конкретныхразработок (в качестве примеров). В связи с этим применениестатистического метода обучения, использующего лингвистическуюинформацию, представляется вполне обоснованным.Для класса «action-plan» мы сформировали набор данных из 940оригинальных документов. Для второго класса мы также подобралинабор документов с мета-описаниями на близкие инженерные темы.Эти мета-документы содержали те же ключевые слова, что иоригинальные документы.

Затем данные были разбиты на 3 группыдля проведения обучения и тестирования по методу кросс-валидации[101].Таблица 3.5. Результаты классификации технических документов.Метод«Ближайшие соседи» (на основе TF*IDF)Наивный БайесовскийЯдра на синтаксических деревьяхЯдра на расширенных деревьях (толькоанафора)Ядра на расширенных деревьях (толькоRST)Ядра на расширенных деревьях (анафора+RST)ВкачествеиспользовалсясинтаксическихТочность,%53.955.371.4Полнота,%6259.776.9F-мера,%57.67+-0.6257.42+-0.8474.05+-0.5577.881.479.56+-0.7080.180.580+-1.0383.383.683.45+-0.78альтернативныхметод, основанныйдеревьях,аметодовдлясравненияна использованиитакженесколькоядернастандартныхклассификаторов. В их число вошли метод ближайших соседей инаивный байесовский подход [100,102].

Характеристики

Тип файла

PDF-файл

Размер

2,58 Mb

Материал

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-i-algoritmy-obrabotki-tekstovyh-dannyh-na-osnove-grafovyh-diskursivnyh-modelej.rar

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

diss005-ilvovsky_AvtoRef.pdf

diss005-ilvovsky_OtzAvtoref-NIVC_MGU.pdf

diss005-ilvovsky_OtzAvtoref-VMKiK.pdf

diss005-ilvovsky_OtzAvtoref-Yandex.pdf

diss005-ilvovsky_OtzDiss-Chepovsky.pdf

diss005-ilvovsky_OtzNauchRuk.pdf

diss005-ilvovsky_OtzOffOpp-Bogatyrev.pdf

diss005-ilvovsky_OtzOffOpp-Vinogradov.pdf

diss005-ilvovsky_OtzVedOrg_IPPI.pdf

diss005-ilvovsky_SvedOffOpp-Vinogradov.pdf

diss005-ilvovsky_SvedVedOrg_IPPI.pdf

diss005-ilvovsky_Zakl-Mest-Isp.pdf

diss005-ilvovsky_ZaklPrisuzdenie.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.