Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 21
Текст из файла (страница 21)
Решение лингвиста обычно связано с тем, насколько большой объем знанийо мире, не выводимый из компонентов словосочетаний, ассоциируется с этимсловосочетанием.Чтобы дать возможность описывать в ворднетах необходимые словосочетания, вработе (Bentivogli, Pianta, 2004) предлагается вводить специальную структуру дляпредставления свободных словосочетаний, которые авторы работы называют фразовымсинсетом (phraseset) и которая может объединять множество синонимичныхсловосочетаний.До введения таких структур в итальянском ворднете MultiWordNet приобнаружении лексических пропусков в итальянском языке по отношению к английскомуязыку заводился пустой синсет, снабженный комментарием, фразовые синсеты могут датьдополнительную важную информацию для работы с такими лексическими пропусками.Так, например, в итальянском ворднете MultiWordNet при установлении соответствияанглоязычному синсету toilet_roll (рулон туалетной бумаги, туалетный рулон) создаетсяпустой синсет, а также создается фразовый синсет.
А для англоязычного синсета dishcloth(полотенце для посуды) в MultiWordNet имеются как синсет, так и фразовый синсет:Примеры:1) Eng_synset{toilet_roll}Ita_synset{GAP}Ita_phraseset{rotolo_di_carta_igienica}772) Eng_synset{dishcloth}Ita_synset{canovaccio}Ita_phraset{strofinaccio_dei_piatti, strofinaccio_da_cucina}Для описания внутренней структуры словосочетания разработчики MultiWordNetпредлагают описывать отношение composed-of (состоять_из), которое соединяетфразовый синсет со словами-компонентами.Разработчики баскского ворднета (Agirre и др., 2006) вводят в свой ресурс покатолько фразеологические словосочетания, которые зафиксированы в толковых словарях, ипомечают введенные синсеты специальной отметкой. Для описания отношений синсетасловосочетания разработчики баскского ворднета предлагают использовать наборотношений INVOLVED, взятый из номенклатуры отношений EuroWordNet иопределяемых следующим образом: отношение INVOLVED должно использоваться дляописания аргументов сущностей 2 порядка (процессов, действий), например, какотношения involved_theme, involved_instrument и др (см.
раздел 3.2.3.).Текущая версия баскского ворднета включает 356 синтагматических синсетов.Итальянский ворднет MultiwordNet включает 1216 фразовых синсетов.Таким образом, можно констатировать, что пока некоторого единого решения, какправильно поступать с включением словосочетаний в ворднеты, не выработано.3.3.7.
Общеупотребительная лексика и терминология предметных областей втезаурусах типа WordNetРазрабатываемые ворднеты естественных языков имеют своей целью описаниеобщеупотребительного национального языка. Поэтому считается, что они должнысодержать преимущественно общую лексику, и не должны включать термины отдельныхпредметных областей.Однако в Принстонском WordNet можно обнаружить достаточно большоеколичество терминов из разных сфер деятельности. Ресурс содержит большое количествоназваний из биологической систематики (см. раздел 2.5.3.1), термины (инструменты,оборудование) из технической области, термины лингвистики и психолингвистики.Это связано с тем, что разработчики Принстонского WordNet во многомпользовались уже готовыми классификациями и не контролировали содержаниявводимых синсетов по текстовым корпусам.При разработке следующих ворднетов большое внимание уделяется обоснованиювыбора лексики, значений на основе корпусов своего языка.Предполагается, что для применения созданного ресурса типа ворднет вконкретной предметной исходный ворднет должен быть расширентерминамипредметной области, соответствующие синсеты должны быть встроены в иерархииворднета.
Причем высказывается предположение, что добавленные синсеты будутвстраиваться на нижних уровнях построенных иерархий, как бы продолжая их (Magnini,Speranza, 2002).Было создано несколько ворднетов в конкретных предметных областях: областиархитектуры (Bentivogli и др., 2004), морского судоходства (Roventini, Marinelli, 2004;Marinelli, Tiberi, Bindi 2008), в юридической области (Sagri и др., 2004), в областимедицины (Buitellar, Sacalenau, 2001), экономики (Magnini, Speranza, 2002).3.4. Сравнение модели представления знаний в информационно-поисковыхтезаурусах и тезаурусах типа WordNetРассмотрев основные принципы устройства информационно-поисковых тезаурусови тезаурусов типа WordNet, можно сделать некоторые выводы о сходстве и различиииспользуемых моделей представления знаний в этих тезаурусах.78Наиболее бросающееся в глаза различие состоит в том, что информационнопоисковые тезаурусы описывают определенную предметную область, а WordNet содержитинформацию о значениях общей лексики языка.
Однако это различие не являетсяпринципиальным, поскольку, как указывалось в предыдущем разделе, можно строитьтезаурусы типа WordNet и для конкретных предметных областей.Более значимые различия имеются в выборе единиц тезаурусов.Как мы видели в главе 1, в информационно-поисковых тезаурусах имеетсямножество ограничений на включение в тезаурус языковых единиц: дескрипторы должныбыть четко отделены по смыслу друг от друга, многозначность языковых единицпрактически не представлена, ограничивается глубина иерархий и т.д.
Это приводит квозникновению существенного расхождения между единицами тезауруса и языковымиединицами, упоминаемыми в текстах предметной области. В тезаурусах типа Wordnetтакой разницы нет: если существует слово или выражение с определенными значениями,то оно включается в тезаурус в соответствующем количестве значений.Существенно различным является подход к включению в эти два типа тезаурусовсловосочетаний. Как мы указывали в разделе 1.1.2, в информационно-поисковыхтезаурусах имеется достаточно подробный перечень правил, которыми долженруководствоваться разработчик тезауруса при вводе в тезаурус многословныхдескрипторов. Разработчики WordNet заявляют о необходимости того, чтобысловосочетание было «лексикализовано» без уточнения критериев, а это, в свою очередь,приводит к тому, что ввод новых словосочетаний в WordNet, а особенно в тезаурусы типаWordnet, создаваемые для других языков, серьезно ограничивается.Если сравнивать систему отношений в стандартных информационно-поисковыхтезаурусах и тезаурусах типа WordNet, то, прежде всего, нужно брать для сравненияотношения между синсетами существительных WordNet, поскольку дескрипторыинформационно-поисковых тезаурусов – это обычно существительные и группысуществительного.Здесь мы видим сходство в небольшой величине набора отношений стандартногоинформационно-поискового тезауруса и Принстонского WordNet, что несомненнообъясняется разнообразием описываемых сущностей.
При этом однако в набореотношений информационно-поискового тезауруса имеется отношение ассоциации,которое при всей высказанной по поводу его критике позволяет лучше описатьотношения между сущностями предметной области, чем отношение «часть-целое» и«антонимии».В последнее время в ряде работ отмечается, что и разработчики информационнопоисковых тезаурусов и разработчики ворднетов включают в свои тезаурусы болееразнообразные наборы отношений между единицами (Soergel и др., 2004, Clark и др.,2008).Заключение к главе 3Задача разработчиков новых ворднетов для своих языков может показаться болеелегкой, чем задача разработчиков первого тезауруса WordNet, поскольку модель ресурсауже известна.Однако в разработке новых ресурсов необходимо учесть критику ПринстонскогоWordNet, удачи и неудачи в прикладных экспериментах.
Поскольку было высказаномного критических замечаний, каждый разработчик должен выбрать для себя наиболеенеобходимые изменения в структуре и составе своего создаваемого ворднета, что являетсянепростой задачей.Можно заметить, что по величине ворднеты других языков значительно меньше,чем Принстонский WordNet. Частично это объясняется тем, что Принстонский WordNetвключает достаточно много специальной терминологии, особенно в области биологии(что можно видеть по количеству синсетов в домене биологии – более 20 тысяч- см.79раздел 2.5.3.1.), а также значительный блок синсетов именованных объектов – более 7.5тысяч (см.
раздел 2.5.3.2.).Разработчики новых ворднетов включают лексику именно общеупотребительногоязыка, минимизируют включение синсетов, соответствующих именованным сущностям.Также во вновь создаваемых ворднетах значительно более ограничен ввод синсетов,базирующихся на значениях словосочетаний, чем в исходном Принстонском WordNet.80ЧАСТЬ 2. ФОРМАЛЬНЫЕ И ЛИНГВИСТИЧЕСКИЕОНТОЛОГИИ81Тезаурусы и рубрикаторы как формализованные информационные ресурсыизвестны достаточно давно. В последние 15 лет стал активно обсуждаться такой типинформационных ресурсов как онтологии. Часто можно слышать такие вопросы как «Чемтезаурусы и рубрикаторы отличаются от онтологий» или «Являются ли тезаурусы ирубрикаторы онтологиями». Читая статьи о таком ресурсе как WordNet, можно встретитьссылку на него как на тезаурус или как на онтологию.