Диссертация (1137276), страница 13
Текст из файла (страница 13)
Пополнение научной таксономии с использованиемсправочных материалов интернетаТаксономия – один из наиболее популярных и удобных инструментов дляпредставления, хранения и использования знания из некоторой предметной области [77; 78]. Автоматизация построения таксономий является важной задачейкак обработки текстов на естественном языке [79], так и информационного поиска [80]. Основной подход к автоматическом построению таксономий основанна извлечении ключевых слов и словосочетаний из больших коллекций текстови семантических отношений между ними.
По извлеченным ключевым словам исловосочетанием и семантическим отношениям восстанавливают таксономию.У этого подхода есть несколько очевидных недостатков:– Не каждая предметная область может быть представлена достаточнобольшой коллекцией текстов;– Современные методы извлечения семантических отношений далеки отсовершенства, поэтому построенные таким образом таксономии могутбыть не полными [81].Первый недостаток можно компенсировать, используя различные ресурсыИнтернета, в том числе, Интернет энциклопедию Википедия [82]. В обзоре [82]перечислены основные подходы к построению онтологий и таксономий на основе Википедии. Во-первых, существуют большие онтологии общего назначения,такие как DBPedia [83], организованные по правилам Семантического Веба.
Вовторых, существует множество меньших таксономий конкретных предметныхобластей. Создание таких онтологий требует больше предварительной работыс данными Википедии и более точного извлечения из Википедии объектов ипонятий, принадлежащих к данной предметной области. К этому направлениюотносится и описанная ниже работа по построению таксономии математическихпонятий.714.1Метод пополнения таксономии ReTAST-wМетод, названный в [84] ReTAST-w, состоит из двух шагов.
На первомшаге задается основа таксономии, два или три уровня, в ручную, основываясьна формальных текстах и определениях. Второй шаг заключается в пошаговомпополнении основы таксономии фрагментами дерева категорий и статей русскоязычной Википедии, предварительно очищенными от шума. Для соотнесениякатегорий, названий статей, таксономических тем и статей и очистки дерева категорий от шума использована мера релевантности, основанная на АСД и аппарат РСТ таблиц.
Основная идея метода пополнения таксономии заключается вследующем. После того, как из Википедии извлечены все необходимые данные,для каждой темы из основы таксономии мы ищем релевантные ей категориии статьи и пополняем тему найденными релевантными категориями и статьями.
Метод проиллюстрирован двумя экспериментами: построением таксономиитеории вероятностей и математической статистики и таксономии численных методов.В качестве источников тем для основы таксономии мы использовали номенклатурные материалы ВАК, в которых представлены верхние уровни классификации современных наук и паспорта научных специальностей ВАК из которых можно извлечь 2-3 дополнительных уровня. Однако, для построения полной и сбалансированной таксономии этих материалов недостаточно: для описания математических понятий требуется еще 2-3 уровня в таксономии. Отсюдавозникает потребность в использовании Википедии. Таким образом, возникаетзадача пополнения таксономии.
Основу таксономии, извлеченную из материалов ВАК, требуется достроить до полноценной таксономии, используя данныеизвлеченные из Википедии. Дополнительное требование к таксономии: следуязолотому стандарту таксономии ACM CCS 2012, каждой листовой теме в таксономии приписать множество уточнений – словосочетаний, объясняющих еесодержание.Задача пополнения таксономии достаточно широко освещена в литературе. Во всех работах, посвященных пополнению таксономий, возникает общийвопроса: что должно служить источником новых тем. Иногда, например в [85],предлагается использовать результаты поиска вида “А состоит из . .
. ”, “А –это . . . ”, где А – тема таксономии, которую следует достроить. Из результа72тов такого поиска достаточно просто извлечь подтемы темы А. Другой способпредложен в [86]: если таксономия описана посредством формального языка типа OWL, ее несложно пополнить темами другой таксономии, тоже описаннойна OWL. Следовательно, источником тем для пополнения могут служить нетолько коллекции текстов, но и другие таксономии или онтологии. Несколькокомпромиссным решением является использование Википедии в качестве источника новых тем [85; 87—89], поскольку Википедия содержит как неструктурированные данные, так и структурированные, причем и те, и другие подчиняютсяобщей организации.
В [90] перечислены существенные преимущества Википедии в качестве источника тем для построения и для пополнения таксономий:– Википедия постоянно обновляется, поэтому таксономии, построенныена основе Википедии легко обновлять;– Википедия мультиязычна, поэтому любой метод, разработанный дляодного языка, может быть перенесен на другой язык.В работах [85; 87—89] представлены разные подходы к построению [87; 88]или пополнения [85; 89]. В [85] в качестве источника тем использованы инфобоксы, в [87] – и тексты статей, и названия категорий, в [88] – только текстыстатей, а в [89] – только названия категорий. Мы использовали структуру дерева категорий, названия категорий, названия статей и тексты статей в качествеисточника новых тем и уточнений, и ограничивались только категориями “Теория вероятностей и математическая статистика” и “Численные методы”.Метод пополнения таксономии ReTAST-w состоит из двух частей.
На первом, неавтоматическом этапе метода ReTAST-w требуется определить предметную область таксономии, зафиксировать ее основу и выбрать соответствующуюкатегорию в Википедии, данные из которой будут использованы для пополнения таксономии. Далее мы будем использовать дерево категорий Википедиидля наращивания дерева таксономии: к каждой теме исходной таксономии мыбудем достраивать категории. При этом, будем проверять, стоит ли оставлятьв достроенной категории подкатегории, или подкатегории стоит так же достраивать к одной из тем исходной таксономии. Поскольку почти в каждой категории есть статьи, названия статей мы будем использовать в качестве листьевв новой таксономии.
Из текстов статей мы будем извлекать уточнения листьевлистьев – ключевые слова и словосочетания, которые описывают содержаниелиста. Таким образом, достроенная таксономия будем удовлетворять золотомустандарту таксономии ACM: каждый раздел в дереве будет примерно одной и73Рисунок 4.1 — Схема пополнения таксономии. В прямоугольниках находятсятемы основы таксономии, в скругленный прямоугольниках – достроенныекатегории и подкатегории Википедии. Листья достроенной таксономии –названия статей Википедии – помещены в овалы. В облачках находятсяуточнения листьев.той же глубины, у каждого узла будет примерно одно и то же количество потомком, а листья в таксономии будут снабжены уточнениями, играющими рольподразделений понятий, представленных листьями.Структура любой Википедии, в том числе, и русскоязычной, довольнозашумлена.
Строго говоря, дерево категорий является не деревом, а графом,поскольку содержит циклы. Иногда между категорий и ее подкатегорией нетникакой логической и смысловой связи, не говоря уж о связях с категориямина два или три уровня ниже. Например, категория “Убитые случайно” лежитв категории “Случайность”. Объяснение этому феномену дано в [91]: авторыВикипедии считают, что каждую статью и подкатегорию нужно помещать вкак можно большее число категорий для упрощения навигации. Таким образом, данные, извлеченные из Википедии необходимо предварительно очиститьот шума перед тем, как использовать их для пополнения таксономии. Требуется удалить цикли из дерева категорий, если они в нем есть, и оставить вдереве только такие подкатегории и статьи, которые имеют логическую и смысловую связь с родительсикми категориями.
Нам, в некотором смысле повезло, и деревья категорий “Теория вероятностей и математическая статистика”и “Численные методы” содержали только один цикл (“Машинное обучение” –“Оптимизация” – “Поисковая система” – “Машинное обучение”), который легко разрешить вручную путем удаления связи между “Поисковой системой” и74“Машинным обучением”, поэтому нам осталась только очистка этих деревьевкатегорий от шума.Основные шаги автоматического этапа метода ReTAST-w таковы:1. Извлечение дерева категорий и статей из Википедии2. Очистка дерева категорий от иррелевантных статей3.