Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 95
Текст из файла (страница 95)
Состав терминологии сопоставлен стерминологией рубрикатора УДК.Рис 24.1 представляет рабочий экран системы ведения онтологии. В левом верхнемуглу помещены понятия онтологии, в левом нижнем углу представлены текстовые входыдля понятия, на котором установлен курсор АЗУРИТ (МИНЕРАЛ) – азурит, меднаялазурь, медная синь. В правом верхнем углу показаны отношения этого понятия. Оноописывается как подкласс понятий КАРБОНАТ МЕДИ, МИНЕРАЛ МЕДИ, ПРИРОДНЫЕКАРБОНАТЫ.
Правый нижний угол экрана представляет варианты текстовых входов дляпонятия КАРБОНАТ МЕДИ. Видно, что экран отражает отношения между традиционногеологическими и химическими понятиями. Таким образом, отражение понятий,традиционно относящихся к разным наукам, в рамках единого ресурса дает возможностьиспользовать для описания отношений понятий разных наук.24.4 Изменения в описаниях понятий, полученных из Тезауруса РуТезВозможность вторичного использования однажды разработанных онтологий вдругих областях или других приложениях является важной проблемой в онтологическихисследованиях (Guarino, 1998b; Kalinichenko, Skvortsov, 2004).
Для поддержки процедуры355слияния онтологий и создания на этой основе новой онтологии разработано несколькопрограммных продуктов (McGuinnes и др., 2000; Noy, Musen, 2000).Отдельное направление исследований составляет использование онтологийверхнего уровня или общезначимых онтологий (онтологий, не ориентированных наконкретную предметную область) для разработки онтологий в конкретных предметныхобластях. В качестве такой общей онтологии при разработке предметно-ориентированныхонтологий для автоматической обработки текстов часто используется лингвистическаяонтология WordNet (Magnini, Speranza, 2002; Buitellar, Sacalenau, 2001; Vossen, 2001).Близкие по смыслу понятия общей и предметно-ориентированной лингвистическойонтологии могут состоять между собой в следующих отношениях (Magnini, Speranza,2002; Buitellar, Sacalenau, 2001; Hovy, 1998):- синонимы, то есть понятия двух онтологий могут быть склеены между собой;- понятие конкретной онтологии является видом для понятия общей онтологии;- понятия конкретной онтологии и общей онтологии являются квазисинонимами,то есть одному понятию общей онтологии соответствуют два понятия частнойонтологии, или одному понятию частной онтологии соответствуют два понятияобщей онтологии.
В случае WordNet наличие в нем двух понятий (синсетов),относящихся к одному понятий предметной онтологии, обычно связано с болеедетальной трактовкой лингвистических явлений, чем это обычно принято втерминологических ресурсах.В начале работ над онтологией ОЕНТ мы выгрузили часть Тезауруса РуТез –лингвистической онтологии в предварительную версию новой онтологии. Таким образом,фрагменты общезначимой онтологии были перемещены в другой контекст – областьестественных наук.
При этом приложение онтологий является одинаковым –информационно-поисковые задачи, такие как индексация и поиск документов,автоматическая рубрикация, поиск ответов на вопросы, поиск похожего документа и т.п.В 2006 году, через два года после начала проекта было прведено исследование, какизменились описания понятий, выгруженных из тезаруса РуТез в процессе работ надонтологией ОЕНТ.Для изучения описаний понятий, перенесенных из Тезауруса РуТез (далееонтология-прототип), мы образовали список таких понятий, которые эксперты одобрилидля включения в Онтологию по естественным наукам и технологиям, то есть снялипометку «понятие-кандидат».
Таких понятий оказалось 4540.С описаниями понятий могли произойти следующие типы изменений:- изменение названия понятия;- изменение набора текстовых входов понятия:удаление текстовых входов понятия;добавление текстовых входов понятия;- изменение отношений между понятиями онтологии-прототипа:исчезновение отношений между понятиями онтологии-прототипа;появление новых отношений между понятиями онтологии-прототипа;- введение отношений понятий онтологии-прототипа с новыми понятиями:введение отношений вверх по иерархии;введение отношений вниз по иерархии.В следующих подразделах рассмотрим наиболее интересные явления, которыеудалось выявить.24.4.1. Удаление текстовых входов понятияИзменения набора текстовых входов понятия связано в основном с двумяпричинами.356Во-первых, от понятия отсоединяются текстовые входы, носящие метафорический,образный характер, свойственные газетным текстам и неупотребляемые в научной речи,например, ВЕРБЛЮД – корабль пустыни.Во-вторых, (и таких удаленных текстовых входов большинство) часть текстовыхвходов исходного одного понятия перешло как текстовые входы к новообразованномупонятию, то есть практически понятие расщепилось на два (или более) понятий.Например, были разделены в отдельные понятия бывшие синонимы (текстовые входыодного и того же понятия): ХИМИЧЕСКАЯ РЕАКЦИЯ и ХИМИЧЕСКИЙ ПРОЦЕСС,СУДОРОГА и СПАЗМ, СОЛИ ФОСФОРНЫХ КИСЛОТ и ФОСФАТЫ и т.п.24.4.2.
Замена отношений между понятиями онтологии-прототипа наболее длинные цепочки отношенийАвторы (Hovy, 1998; Magnini, Speranza, 2002), работавшие с двумя онтологиями,одна из которых более общая, а вторая относится к конкретной предметной области,предполагали, что набор вышестоящих отношений более общей онтологии неподвергается изменениям.Однако наше сопоставление показало значимое число удаленных родовидовыхотношений между понятиями онтологии-прототипа.
Более тщательный анализ показал,что достаточно часто удаленное отношение заменяется на более длинную цепочкуотношений, состоящую из двух или трех отношений, то есть между понятиями,перешедшими из более общей онтологии, вклиниваются одно-два понятия из предметнойонтологии.Например, в Тезаурусе РуТез для понятия АДСОРБЕНТ было установленородовидовое отношение к понятию ВЕЩЕСТВО, а в новой онтологии создана цепочкапонятий АДСОРБЕНТ - СОРБЕНТ – ВЕЩЕСТВО.Отношение между понятиями БОКСИТ – ГОРНАЯ ПОРОДА заменилось нацепочку БОКСИТ – БИОГЕННАЯ ГОРНАЯ ПОРОДА – ОСАДОЧНАЯ ГОРНАЯ ПОРОДА– ГОРНАЯ ПОРОДА.Отношение между понятиями БУЙВОЛ – ЖВАЧНОЕ ЖИВОТНОЕ заменилось нацепочку БУЙВОЛ – ПОЛОРОГИЕ – ЖВАЧНОЕ ЖИВОТНОЕ и т.д.Количество таких замен одного отношения на цепочку отношений оценивается натекущий момент как более 1000 единиц, что для множества рассматриваемых понятийонтологии-прототипа (4540) представляется значительной величиной.Важно отметить, что часть из нововведенных отношений может быть перенесена ив исходную онтологию, послужить для уточнения исходных описаний.
Вместе с темзначительная часть нововведений не подлежит переносу в онтологию-прототип (см.примеры выше), поскольку введенные понятия соответствуют исключительно научнойтерминологии и практически не используются в общезначимых текстах.24.4.3. Несоответствие наивной, бытовой картины мира инаучной картины мираТезаурус РуТез предназначен для обработки общезначимых документов:информационных сообщений, нормативных документов, газетных статей.
Поэтому ондолжен отражать знания о мире, которыми обладают авторы и читатели такого видадокументов. Картина мира, представленная в тезаурусе, может отличаться от картинымира, излагаемой в рамках естественных наук.Хрестоматийным примером отличия бытовой картины мира и научной картинымира является знание о том, что кит является млекопитающим, а не рыбой (Апресян,1995).
Однако этому вопросу уделяется достаточное внимание в курсе зоологии среднейшколы. В частности, не удалось найти ни одного такого текста в текстовой коллекцииУниверситетской информационной системы РОССИЯ (www.cir.ru, более миллиона357документов), в котором бы автор считал, что кит – это рыба. Тезаурус РуТез такжеописывает китов как морских млекопитающих.Однако удалось выявить ряд несоответствий наивной картины мира,зафиксированной в Тезаурусе РуТез, и научной картиной мира.Здесь можно выделить два типа различий. Первый тип различий состоит в том, что,то, что в наивной картине мира кажется связанным простым отношением (например,родовидовым), в научной картине мира напрямую не связано.
Второй тип различий – то,что представляется несвязанным в наивной картине мира, непосредственно связано междусобой в научной картине мира.Большинство примеров несоответствий находится в сфере биологии. Так, птицаэму, которую часто называют страус эму, по биологической классификации не являетсястраусом.С другой стороны, по биологической классификации бледная поганка относится кмухоморам, а горчица и брюква к роду капуста.Наиболее запутанной ситуацией является ситуация с употреблением слова орех.Биологическая наука рассматривает орех как особый вид плода, к которым, например, неотносятся грецкие орехи. Одновременно существует «хозяйственный» (по выражениюБольшой Советской энциклопедии) взгляд на орехи – плоды деревьев и кустарников,«состоящие из сухой деревянистой оболочки и заключѐнного в ней съедобного ипитательного ядра».Кроме того, существует еще более отличающееся от научного употребление словаорех, которое включает в орехи – арахис, земляной орех.
Это растение по биологическойклассификации относится к бобовым культурам и не является деревом или кустарником.Работа с такими несоответствиями связана с двумя видами деятельности:изменение отношений между понятиями на более научно-мотивированные (в том числе ив онтологии-прототипе) и/или ввод разных понятий для разного употребления того илииного слова и описание такого слова как многозначного. Так, видимо, целесообразноиметь два понятия для плода орех – орех как плод ореховых культур (биологическаякартина мира) и орех как плод орехоплодных культур («хозяйственная» картина мира).24.4.4.