Диссертация (1137241), страница 14
Текст из файла (страница 14)
Более существенный прирост полноты по сравнению сточностью объясняется тем, что использование семантическойинформации позволяет корректно классифицировать как релевантныетексты, в которых исходные фразы распределены между несколькимипредложениям.Исходные и преобразованные запросы, тестовая выборка, атакже подробные результаты классификации доступны на ресурсеhttp://code.google.com/p/relevance-based-on-parse-trees.3.7 ВыводыВданнойсемантическойглавебылоинформациипоказано,позволяеткакиспользованиеулучшитькачествоклассификации коротких текстов.
Мы провели сравнение двухвариантов обучения: Обучения на деревьях разбора для отдельных предложений, Обучения на деревьях разбора для отдельных предложений,дополненных расширенными деревьями разбора ‒ деревьями,полученныминаосновесемантическихсвязеймеждупредложениями абзаца.Было показано, что добавление новых признаков без изменениясхемыэкспериментаулучшаеткачествоклассификации.Этоулучшение колеблется в диапазоне от 2 до 8 % для текстов изнескольких областей, имеющих различную структуру. При этомважно отметить, что это улучшение и внедрение дополнительныхпризнаков не потребовали доработки самого алгоритма обучения надеревьях.95В главе 2 было продемонстрировано, что использованиеразличныхсемантическихсвязеймеждупредложениями(кореферентные связи, риторические структуры, коммуникативныедействия) позволяет добиться улучшения качества поиска в случае,когда ответ содержится в нескольких предложениях.
Оказывается,использование дополнительных связей также позволяет улучшитькачество классификации коротких текстов. При этом сам алгоритмвычисления ядра не модифицируется.Построение расширенных деревьев, рассмотренных выше,подразумевает использование проекций. Множество расширенныхдеревьев абзаца является проекцией чащи разбора. При этомнеобходимо отметить, что данный вид проекции отличается отпроекций, описанных в главе 2, которые применялись для нахождениясходства текстовых абзацев. В главе 2 проекция чащи определяласькак множество всех максимальных по вложению подграфов,являющихся деревьями.
В текущей главе рассматривался упрощенныйвариант данной проекции, подразумевающий в результирующихдеревьях не более одной семантической связи. Использование этойпроекциидопустимо,посколькуононеприводиткпотересемантической информации: все семантические связи чащи попадаютв лес деревьев, используемый при обучении. В то же времяприменениеданнойпроекциипозволяетупроститьалгоритмпостроения расширенных деревьев и снизить вычислительнуюсложность подготовки данных для обучения и классификации.Применение ядер для анализа коротких текстов являетсяальтернативой описанному в главе 2 построению узорной структурына чащах. Ядра позволяют осуществить обучение с учителем, тогда96как построение узорной структуры является ни чем иным какиерархической кластеризацией, то есть обучением без учителя.Стоит отметить, что предложенный подход может быть такжеприменен к проблеме построения запросов и обхода в самих деревьяхразбора.
Эта задача актуальна в таких системах как Tregex [97],работающих на уровне отдельных предложений. В случае расширенияобласти действий таких систем до абзацев текста за счет внедрениярасширенных деревьев полнота систем существенно возрастет, азависимостьоттогокакраспределеныинформациямеждупредложениями, напротив, снизится.Другим интересным продолжением является исследованиекачества ранжирования результатов, получающегося в результатеэкспериментов, с помощью стандартных метрик качества, таких какNDCG. В этом случае можно сравнить ранжирование с помощьюобычных и расширенных ядер с исходным ранжированием Bing, атакже с различными методами, позволяющими переупорядочиватьпоисковую выдачу на основе синтаксической и семантическойструктуры результатов.Также в качестве направления для развития исследованияможноотметитьвнедрениевсуществующийметодядер,вычисляемых на графах специального вида [98].
В этом случае станетвозможным обучение непосредственно на чащах разбора, безиспользования проекций.974. Поиск тождественных денотатов в онтологиях иформальных контекстах4.1 ВведениеОдним из типов семантических связей, использовавшихся впредыдущих главах для соединения фрагментов текста, являетсяотношение «та же сущность». Обнаружение такого рода связейявляетсяотдельной задачей, известной также под названиемвыявления тождественных денотатов [5,6,7,8].
В общем случае этапроблемавесьмасложнаитребуетпостроениясложныхсемантических моделей, а также использования дополнительных баззнаний. Однако в частном случае, когда мы имеем дело сформальнымипредварительнойописаниями,обработкипостроеннымитекстовыхсданных,помощьюоказываетсявозможным предложить достаточно эффективные методы решенияэтой задачи [2, 14, 30].Одной из наиболее универсальных и популярных моделейпредставления структурированных данных являются прикладныеонтологии.
Распространенным способом построения прикладнойонтологии является её автоматическая или полуавтоматическаягенерация из неструктурированных данных (как правило, текстов) наоснове заранее подготовленного набора правил. Однако при такомспособе построения онтологии возникает проблема появлениянескольких описаний, обозначений (денотатов) одних и тех жеобъектов реального мира. Возникновение данной проблемы врассматриваемом приложении связано с тем, что реальные источникиинформации могут существенно дублировать или перекрывать другдруга: например, во многих статьях может описываться одна и та жекомпания, человек, место и т.д.98При этом выявление тождественных денотатов непосредственнона этапе построения или дополнения онтологии (например, путемпопарного сравнения новых объектов с уже существующимиобъектами) является не слишком эффективным сразу по несколькимпричинам.
Во-первых, такой подход существенно увеличиваетнагрузку на эксперта, принимающего окончательное решение, вособенности эта нагрузка возрастает при частом обновлении данных.Во-вторых,вреальноститождественныеобъектыпоступаютнеравномерно, и имеет смысл выявлять их не при каждом обновлениионтологии, а через более продолжительные промежутки времени,определяемые особенностями предметной области.Предлагаемыйподходпозволяетэффективновыявлятьтождественные денотаты в исходных данных, представленных в видеонтологии.Разработанныйметодможетлибоавтоматическиформировать списки тождественных объектов, либо работать вкачестве рекомендательной системы для эксперта, одновременноминимизируя нагрузку на него и предоставляя ему четкие иинтуитивно понятные рекомендации по определению тождественныхописаний объектов.Задача, послужившая толчком к проведению исследования,былапоставленааналитикамикомпанииАвикомп.Основноенаправление ‒ поиск тождественных описаний людей и компаний вонтологиях,строящихсяпутемавтоматическойсемантическойобработки потока новостных текстов.
Изначально задача решаласьметодами попарного сравнения на основе расстояния Хэмминга иразличнымирешениядополнительнымибылоэвристиками,неудовлетворительнымиз-запричемкачествонизкойточности.Применение нового подхода позволило улучшить качество решения.99Прикладные онтологии, описывающие различные предметныеобласти, в особенности, социальные сети, имеют специфическиесвойства, которые учитывались при разработке алгоритма:1. Онтологии содержат достаточно большое количество объектов(десятки тысяч). Многие объекты имеют редкие или дажеуникальные значения признаков, поэтому в онтологии содержитсябольшое количество различных значений признаков.2.
Объекты содержат различное число выявленных признаков исвязей(горизонтальныхРаспределениеэтихотношений)чиселснедругимилинейное,объектами.аимеет«гиперболическую» форму (распределение Ципфа).3. Другой особенностью задачи является "неравносильность" ошибокпервого и второго рода.
Ошибка первого рода (принятие двухописаний одного объекта за разные объекты) приводит к тому, чтообъекты онтологии содержат неполную информацию об объектахреального мира. Ошибка второго рода (объявление двух различныхобъектовтождественными)приводиткболеесерьезнымпоследствиям - введению в онтологию неверной информации обобъекте.4.2 Алгоритм поиска тождественных денотатовНиже описан разработанный алгоритм поиска тождественныхденотатов в прикладной онтологии, который основан на методаханализа формальных понятий.Навходалгоритмпринимаетприкладнуюонтологию.Онтология содержит объекты разных классов, объекты могут бытьсвязаны отношениями, соответствующими их классам. Количество100выявленных признаков и связей объекта может сильно варьироваться.Некоторые объекты описывают один и тот же объект реального мира.На выходе алгоритм выдает списки объектов, которые былиидентифицированы им как тождественные.
Выявление объектов вонтологииосуществляетсянаосновеобъединениязамкнутыхмножеств объектов с помощью методов анализа формальных понятий[16].Алгоритм состоит из двух этапов. Первый этап - преобразованиеонтологии в формальный контекст. Второй этап - построениемножества формальных понятий контекста онтологии и порождениесписковтождественныхобъектов,производимоенаосновеотобранных по специальному критерию формальных понятий.Отметим,чтовторойэтапможетрассматриватьсякаксамостоятельный алгоритм поиска тождественных денотатов вформальном контексте.При этом алгоритм должен обладать высокой точностью, таккак объявление двух различных объектов тождественными считаетсяболее грубой ошибкой, чем не обнаружение денотатов какого-либообъекта.4.2.1 Преобразование онтологии в формальный контекстСначала исходные данные, представленные в виде (экземпляра)онтологии, преобразуются в так называемый многозначный контекст,задаваемый следующим образом:1.