Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 18
Текст из файла (страница 18)
Часто это связано с проблемой смешения понятийтипов и понятий-ролей (подробнее см. главу 7).Указывая на смешение типов и ролей в Wordnet, Н. Гуарино (Guarino, 1998) привелследующие примеры описания из WordNet:Человек – это живое существо и каузальный агент.Яблоко – это фрукт и еда.Н.Гуарино указывает, что каждое из этой пары отношений отличается от другого:Человек всегда живое существо, но он (она) начинает играть роль каузального агентатолько в некоторых ситуациях. Та же проблема возникает для яблока, которое всегда плодрастения и в некоторых ситуациях может быть пищей: «Проблема в том , что человек ияблоко – это типы сущностей, в то время как каузальный агент и пища – это роли.»Один из аргументов в пользу различения типов и ролей в лингвистическихонтологиях – это то, что они различаются в способах наследования свойств.
WordNet неразличает эти два типа понятий и помещает их в одни и те же иерархии.65В соответствии с онтологическими подходами (см. главу 7) понятия-типы недолжны находиться в иерархиях ниже понятий-ролей. Более радикальный подходзаключается в том, чтобы разделить иерархии типов и ролей.Одна из авторов WordNet К.
Фелбаум (Fellbaum, 2002), отвечая на эту критику Н.Гуарино, заявляет, что в таких ресурсах, как WordNet, неоднородные классификацииимеют право на существование, поскольку такие ресурсы рассматриваются в настоящеевремя, прежде всего, как инструменты для компьютерной обработки текстов, а не толькокак совершенные онтологии, которые должны соответствовать строгим онтологическимпринципам.Вместе с тем важно подчеркнуть, что установление связей между синсетами,которые выполняются не в любых контекстах, а лишь при некоторых условиях, приводитк ложному срабатыванию этих связей, к неправильному выводу как раз приавтоматической обработке текстов.Используемые диагностические высказывания для установления отношений междугипонимами и гиперонимами привели к смешению и других отношений.Дело в том, что в первых версиях WordNet не делалось различий между синсетамикатегориями классов как множествами сущностей, имеющих между собой общиесвойства, например, как синсет state, nation – (государство), и примерами классов, то естьконкретных сущностей, например, синсет United States, United States of America - США(подробнее о смешении такого рода см.
раздел 6.4).По этой причине отношения между классами и отношения «пример-класс»обозначались одинаково. Такое неразличение стало предметом критики со стороныразработчиков онтологий (Gangemi и др., 2001a; Oltramari и др., 2002).Первоначально авторы WordNet не предполагали менять структуру WordNet(Miller, Hristea, 2006), поскольку считали, что WordNet – это лексический, а неонтологический ресурс. Однако со временем рост значимости онтологическихисследований, а также сходство иерархии существительных из WordNet с онтологиейстали очевидными.В результате были предприняты усилия по разметке синсетов существительныхкак примеров и как классов, а также различению таксономических отношений междуклассами, и отношениями «пример-класс» (Miller, Hristea, 2006).Для автоматизации проведения уточненной разметки было выдвинутопредположение, что синсеты-примеры должны обладать следующими тремя свойствами:- это должны быть синсеты существительных,- синсеты должны содержать слова с прописной буквы,- будучи уже конкретными сущностями, синсеты-примеры не должны иметьгипонимов.Таких синсетов оказалось 24073, причем выяснилось, что есть достаточноеколичество синсетов, удовлетворяющих этим требованиям, но при этом являющихсяобозначением классов понятий.
Поэтому авторы рассмотрели все выделенные синсеты ивручную разметили их как классы или примеры классов. В частности, выявилисьинтересные случаи классов и экземпляров, подтребовавшие отдельного рассмотрения.Основным критерием разметки было существование единственного референта длясинсета.
Так, Бетховен как композитор – это пример класса, а Бетховен как музыка(«играть Бетховена») – это класс, поскольку относится к классу музыкальныхпроизведений. Если слово имеет конкретное число денотатов (два, три и т.д., что означаетмногозначность слова), то все соответствующие синсеты размечаются как примеры, как,например, Bethlehem на Ближнем востоке и Bethlehem в Пенсильвании.Одной из проблем разметки была разметка синсетов, соответствующихестественным языкам. В частности, возник вопрос, являются ли конкретные диалектыязыка примерами класса.
Было решено, что с онтологической точки зрения языки – это непримеры классов, примерами являются конкретные речевые акты.66Сложным случаем оказалась также разметка синсетов, соответствующихсвященным текстам, таким, как Библия, Коран и другие. Для данного случая было решено,что сами синсеты священных текстов рассматриваются как классы, а их конкретныеверсии – являются их примерами.Названия конкретных денежных единиц были размечены как классы, например,синсет гонконгский доллар не является примером синсета доллар.В итоге всего 7671 синсетов были признаны синсетами-примерами. Всевыявленные отношения пример-класс были размечены специальным образом. Результатыразметки стали доступны пользователям в версии WordNet 2.1.Заключение к главе 2Тезаурус WordNet как общедоступный лингвистический ресурс большой величинывызвал огромный интерес во всем мире.Часть исследователей видит проблемы WordNet в чрезмерной простоте егоструктуры.
Однако эта простота позволила обеспечить большой объем тезауруса, что, всвою очередь, позволило организовать многочисленные эксперименты по применениюэтого ресурса в реальных приложениях автоматической обработки текстов.Результаты экспериментов позволили исследователям увидеть проблемы WordNetс точки зрения практических приложений, описать те подводные камни, которые могутподжидать разработчиков новых больших лингвистических ресурсов, предназначенныхдля автоматической обработки текстов.Именно поэтому всем исследователям, которые разрабатывают или собираютсяразрабатывать, новые лингвистические ресурсы для практических приложений внастоящее время, очень важно хорошо владеть сведениями о принципах устройстваWordNet, о возникших проблемах, об экспериментах, направленных на изучение ипреодоление этих проблем.
Кроме того, WordNet продолжает свое развитие, поскольку егоразработчики реагируют на критику, на результаты экспериментов и вводят новые типыинформации в свой ресурс, уточняют имеющиеся описания.Ценность WordNet состоит еще и в том, что формализованные отношения междузначениями слов позволяют исследователям быстро составлять свои собственные словари,списки слов и выражений для решения частных задач.Ресурсы типа WordNet разрабатываются в настоящее время для многих языковмира. При этом разработчики стараются учесть выявленные проблемы, предложить новыерешения.
Принципы реализации новых ресурсов типа WordNet мы рассмотрим вследующей главе.67Глава 3. EuroWordNet и тезаурусы типа WordNet для разных языковИдея создания тезаурусов типа WordNet (далее будем называть их ворднетами) длясвоих языков показалась привлекательной исследователям во многих странах.Разработчиков новых ворднетов можно разделить на две категории. Частьразработчиков считает, что важным делом является точное воспроизведение структуры исостава англоязычного WordNet (обычно называемого Принстонский WordNet по местуработы его авторов), поскольку предполагается, что таким образом обеспечивается болеетесная связь с англоязычным ресурсом и лексической системой английского языка.При этом подходе синсеты нового ворднета создаются на основе синсетовПринстонского WordNet, отношения между синсетами копируются.
Такая разработкарассматривается как более быстрая, легкая, порождает структуру, совместимую санглоязычным ворднетом. Часто значительная часть работы производитсяавтоматизированными методами на основе двуязычных электронных словарей (Farreres идр., 1998) Но одновременно такой ворднет может унаследовать недостатки исходноговорднета, неточности могут усилиться, могут быть перенесены чуждые создаваемомуворднету отношения. По такой модели создавались такие ворднеты как испанскийворднет, баскский ворднет, один из ворднетов итальянского языка MultiWordNet.Другие разработчики полагают, что для создания качественного ресурсасобственного языка необходимо учесть специфику его лексической системы, а такжеучесть критику и проблемы Принстонского WordNet.
При таком подходе разработчикиразвивают собственную структуру синсетов, руководствуясь общими принципамипостроения ворднетов. Такой метод использовался при создании таких ворднетов какголландский, немецкий и датский ворднеты, тезаурус русского языка RussNet (Азарова идр., 2003; Азарова и др., 2004).Для некоторых языков появляется два ресурса типа тезаурус WordNet, созданныхна основе упомянутых подходов. Например, для итальянского языка один тезаурусItalWordNet (Roventini и др., 2000) сделан в рамках проекта EuroWordNet, в котором быловведено значительное количество нововведений (см. следующий раздел), а другойMultiWordNet (Pianta и др., 2002) копирует структуру англоязычного WordNet.Также две разные программы действий провозглашают разработчики русскихворднетов (Сухоногов, Яблонский 2005; Азарова и др., 2003).В этой главе будут рассматриваться в основном те проекты, которые пытаютсятворчески развить структуру создаваемых тезаурусов, обычно ставя своей цельюулучшение их применимости в приложениях автоматической обработки текстов.3.1.