Резюме (1137513), страница 2
Текст из файла (страница 2)
Основные положения исследования и полученные результаты были представлены в следующих публикациях:• Алексеевский, Даниил Андреевич. «Применение контекстно-свободныхграмматик для извлечения онтологии из текстов коротких описаний статейбиологической тематики.» Информатика и её применения 10.1 (2016): 119128.,• IX Русская летняя школа по информационному поиску (RuSSIR 2015),Санкт-Петербург, Россия, 24–28 августа 2015.
Алексеевский Д.А., ТолдоваС.Ю. «Key noun phrases for biological fact extraction»,• The Eighth Global WordNet Conference 2016, Bucharest, Romania, January 27–30 2016. Alexeyevsky D. A., Temchenko A. V. «Word sense disambiguation inmonolingual dictionaries for building russian wordnet.»,• X Русская летняя школа по информационному поиску (RuSSIR 2016), Сара5тов, Россия, 22–26 августа 2016. Алексеевский Д.А., Трегубова М.А. «Semisupervised Relation Extraction from Monolingual Dictionary.»,• Alexeyevsky D. A.
Word sense disambiguation features for taxonomy extraction.Computación y Sistemas. Vol 23, No 3 (2018).Структура диссертации. Диссертация состоит из введения, четырёх глав, заключения и библиографии. Глава I «Построение электронных тезаурусов: мотивация, методы, источники» даёт определение основным необходимым терминам,кратко описывает историю создания тезаурусов и развития инструментов для ихсоздания, которая является мотивацией для настоящей работы, в главе ставитсязадача настоящей работы и описывается общая схема подхода. В главе II «Толковые словари как источник полуструктурированных данных» приведён краткийобзор доступных толковых словарей для русского языка, описана постановка ирешение задачи о создании корпуса толкований выбранного словаря.
В главе III«Выделение отношений» описаны эксперименты по извлечению из словарныхтолкований омонимичных тезаурусных отношений, т. е. таких тезаурусных отношений, в которых место лексических значений занимают омонимичные лексемы.Глава IV «Дизамбигуация тезаурусных отношений» посвящена двум экспериментам по автоматической дизамбигуации тезаурусных отношений. Наконец, в главе V «Заключение» подводятся итоги работы, кратко описываются её результатыи выдвигаются новые гипотезы для дальнейших исследований по теме работы.Полный объём диссертации составляет 142 страницы, включая 21 рисунок и 14таблиц. Список литературы содержит 120 наименований.Основное содержание работы***В главе I «Построение электронных тезаурусов: мотивация, методы, источники» приводится описание всех необходимых терминов, выдвигается постановкапроблемы, предметная область всей работы: тезаурусы, тезаурусные отношения,электронные тезаурусы, области их применения, методы построения; выдвигается постановка задачи, и описывается общая схема работы.6В работе под термином «тезаурус» понимается лексический справочник, в котором входом является не лексема, а смысл, и смыслы сгруппированы по схожести.
Этот определение термина соответствует англоязычной традиции именования. В главе приводится краткое описание истории термина, начиная с тезаурусаРоже и предшествующих ему античных идеографических словарей, и приведёнкраткий обзор основных применений классических тезаурусов. В то же время,работа посвящена не классическим тезаурусам, как таковым, а электронным тезаурусам, которые, хотя и являются развитием классических тезаурусов, представляют совершенно самостоятельный объект.Толчок к развитию интереса к электронным тезаурусам дал Princeton WordNet(PWN), который во многих источниках называется тезаурусом, однако сами авторы скромно именуют его лексической базой данных.
В тексте дано краткое описание PWN, истории его разработки, его архитектуре. Главными понятиями дляPWN явлюется синсет — множество синонимичных слов или словосочетаний, исвязь между двумя синсетами.PWN оказался важным инструментом для автоматической обработки текстовна естественных языках. В работе подчёркивается важность этого инструментадля ряда направлений автоматической обработки текстов на естественных языка.
В качестве иллюстрации приведены несколько работ по обработке текстов, вкоторых привлечение WordNet как семантического ресурса приводило к значимому улучшению результатов, либо и вовсе невозможно без такого ресурса. Примеры задач относятся к областям: семантической дизамбигуации, информационногопоиска, тематической классификации текстов, машинного перевода, построениядиалоговых систем, обнаружения перефразирований, автоматического реферирования, определения логической связанности двух предложений, автоматическойгенерации кроссвордов и др.Вслед за Princeton WordNet были созданы аналогичные тезаурусы для многих языков.
Особый интерес как для исследователей языка и лексической типологии, так и для прикладных задач, таких, как машинный перевод, представляетновый вид ресурсов: электронный тезаурус, для синсетов которого указаны синонимичные синсеты PWN. Вслед за появлением нескольких таких ресурсов, начали появляться комитеты, координирующие развитие таких ресурсов. Такимистали EuroWordNet, организующий взаимосвязь тезаурусов для языков Европы,7CWN, способствующий становлению тезаурусов сино-тибетских и дальневосточных языков, GWN и UWN, стремящиеся объединить все опубликованные электронные тезаурусы.В литературе несколько подходов к созданию аналогичных тезаурусов. В работе приводится описание таких подходов и указываются примеры тезаурусов,построенных с применением каждого из подходов, особый упор при этом делается на работы, связанные с русским языком.
Здесь лишь перечислим эти подходы:ручной труд лексикографов, «краудсорсинг», т.е. труд множества неквалифицированных аннотаторов, конвертация из существующих ресурсов, перевод тезаурусас другого языка, извлечение отношений из толкового словаря, извлечение отношений из не размеченного корпуса, извлечение отношений из векторных моделей. Каждый из описанных подходов являет собой некоторый компромисс междукачеством построенного тезауруса, свойствами характерных для него ошибок, инеобходимыми ресурсами для построения тезауруса.В работе показано, что извлечение тезаурусных отношений из корпуса определений из толкового словаря является одним из наиболее перспективных подходов для построения электронных тезаурусов, позволяющих строить большуючасть тезауруса с небольшим количеством ошибок применяя ограниченные ресурсы экспертов.
На материала русского языка исследования в этом направлениилишь начаты.Цель настоящей работы в том, чтобы разработать метод, который позволяет получить качественный корпус тезаурусных отношений, который может бытьположен в основу тезауруса.
Дополнительно автор исследует вопрос о том, насколько малых ресурсов как экспертных, так и электронных, достаточно для получения приемлемого результата. Создание инструмента, позволяющего создавать корпус тезаурусных отношений, обладая ограниченными ресурсами, позволит значительно расширить множество языков, для которых в свободном доступепредставлены электронные тезаурусы. Выбранный метод позволяет исследоватьв типологию организации таксономических отношений между основными понятиями у носителей разных языков.Для настоящей работы выбран подход из следующих шагов:• подготовка корпуса толкований,8• извлечение из толкований троек «смысл–отношение–слово», связывающихзаданный смысл заданным тезаурусным отношением с заданным словом,• дизамбигуация извлечённых слов, т.е.
автоматический подбор толкованиядля извлечённого слова.Результатом такого подхода являются цепочки смыслов слов, связанных тезаурусными отношениями. Для использования в качестве основы тезауруса такиецепочки требуют дополнительной проверки, объединения синонимов и объединения в единое дерево смыслов. Важно отметить, что несмотря на необходимостьдополнительной обработки такой материал значительно уменьшает количествотруда эксперта, необходимое для создания полноценного тезауруса. Кроме того,такие цепочки представляют ценность и как самостоятельный лингвистическийресурс, так как они применимы для многих целей, для которых используется полноценный электронный тезаурус. Наконец, этот ресурс применим для верификации и пополнения существующих тезаурусов.***В главе II «Толковые словари как источник полуструктурированных данных» приведён краткий обзор доступных толковых словарей для русского языка, описанапостановка и решение задачи о создании корпуса толкований выбранного словаря.В главе приведена кратко история развития российской лексикографии и приведено несколько примеров европейских лексикографических ресурсов и тенденций, интересных с точки зрения настоящей работы.
По мере развития лексикографии однородность изложения и структуры толковых словарей возрастала. С точкизрения русскоязычной лексикографии значимыми примерами можно назвать такие толковые словари: Словарь Академии Российской, толковый словарь живоговеликого русского языка В. И. Даля, толковый словарь С. И. Ожегова.
Некоторые требования новейшей лексикографии можно проиллюстрировать лишь иноязычными толковыми словарями. Например, словарь LDOCEстрого определяетминимальный набор слов, используемых в толкованиях, нумерует их смыслы иприписывает словам в толковании индексы, указывающие на номер смысла. Новейшая лексикография требует от словарей наличие электронного представления9и отделения оформления словаря от смыслового назначения его разметки. Удовлетворяющие этим требованиям словари называют машиночитаемыми.