Summary (1137510)

Файл №1137510 Summary (Методы автоматического выделения тезаурусных отношений на основе словарных толкований)Summary (1137510)2019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

National Research University Higher School of Economicsas a manuscriptDaniil Andreyevich AlexeyevskyMETHODS FOR AUTOMATIC WORDNET RELATION EXTRACTIONFROM DICTIONARY DEFINITIONSPhD Thesis Summaryfor the purpose of obtainingPhilosophy Doctor in Philology and Linguistics HSEAcademic SupervisorPhD in LinguisticsSvetlana ToldovaMoscow 2018General overview of the thesisThe thesis presents a methodology for semi-automated extraction of thesaurusrelations from a corpus of dictionary definitions. It is suggested that this methodology may beused as a tool for electronic thesauri development.

Automated relations extraction is one ofthe prioritized areas of contemporary linguistics both as an independent research field and asincorporated into the process of designing ideographic dictionaries, thesauri and ontologies.Within the scope of this work we approach automated relations extraction as a tool forbuilding electronic thesauri, which are used for numerous semantically oriented tasks in textprocessing, among which are fact extraction, text tone analysis, disambiguation,question-answering systems, etc. The aim of the present research is to develop an approachthat facilitates the extraction of relationships for building such thesauri.Electronic thesauri are based on a multitude of concepts and relations that bindconcepts and words.

We call these relations thesaurus relations. Sets of these relations areformed differently. They may be created by a lexicographer, as well as extracted fromontologies and dictionaries of different types, text corpora, or a database designed for anysemantic model. As a method for the present research we accept extracting relations from adictionary definition corpus.Thus, we define ​the subject of this thesis as a set of methods for automated andsemi-automated extraction of thesaurus relations.The data for the present work comes primarily from the Big Russian ExplanatoryDictionary (BRED) by S.A.

Kuznetsov, supported by auxiliary materials. The dictionary hasa rich structure and includes morphological, derivational, grammatical, phonetic,etymological information, three-level sense hierarchy, usage examples and quotes fromclassical literature and proverbs. The electronic version of the dictionary is produced by OCRand proofreading with very high quality (less than 1 error in 1000 words overall). The versionalso has sectioning markup of lower quality, with FPR in the range of 1~10 in 1000 tag usesfor the section tags of our interest. We developed specific preprocessor for the dictionary thatextracts word, its definition and usage examples (if any) from each article.

We call every suchtriplet word sense, and give it unique numeric ID. An article can have reference to derivedword or synonym instead of text definition. Type of the reference is not annotated in thedictionary. We preserve such references in a special slot of word sense.To successfully apply the methods proposed for extracting thesaurus relations, weneed a morphological annotation tool and a tool for the assessment of semantic proximity.Morphological markup was accomplished with Mystem tagger. Several methodologies forsemantic proximity assessment are analysed within the framework of this study: Serelexdatabase, vector models word2vec and AdaGram, of which the latter need to be trained.

Thefollowing corpora were used as golden standard datasets: RuTenTen11, RuWac, lib.ru,RuWiki.The scientific novelty of the thesis stems from the new means and methods foradding new relations to a thesaurus. The methodology proposed demands only a limitedexpert contribution and is well applicable for languages that are not supported by a largenumber of linguistic resources.At the moment of writing this paper, electronic thesauri are available for less than 200languages. Thus, the research is highly relevant for numerous languages, such as Moksha forinstance, that are not supported by electronic thesauri.The theoretical significance of the present study is defined by the development andfurther research into the set of thesaurus relations which uncovers taxonomic structure of thebasic concepts in Russian and investigates the set of linguistic features relevant for extractingthesaurus relations from explanatory dictionaries.The practical significance of the thesis consists in the designing an approach tobuilding a set of thesaurus relations, defining the set of relations for Russian and analysingthe algorшthms used for their extraction.Public demonstration of the results​.● The 9th Russian Summer School in Information Retrieval (RuSSIR 2015),Saint-Petersburg, Russia, August 24–28 2015.

Alexeyevsky D., Toldova S. “Key nounphrases for biological fact extraction”,● The Eighth Global WordNet Conference 2016, Bucharest, Romania, January 27–30 2016.Alexeyevsky D. A., Temchenko A. V. “Word sense disambiguation in monolingualdictionaries for building russian wordnet.”● The 10th Russian Summer School in Information Retrieval (RuSSIR 2016), Saratov,Russia, August 22–26 2016. Alexeyevsky D.

A., Tregubova M. A. “Semi-supervisedRelation Extraction from Monolingual Dictionary”,● The 18th International Conference on Computational Linguistics and Intelligent TextProcessing (CICLing 2017), Budapest, Hungary, april 17–23 2017. Alexeyevsky D. A.“Semi-supervised Relation Extraction from Monolingual Dictionary for RussianWordNet.”The following propositions are submitted for the defence● a new method of semi-automated thesaurus relation extraction developed within theframework of this thesis generates pairs of lexeme meanings bound with the samethesaurus relation; those are primarily hypernym and hyponym relations; using thismethodology considerably facilitates expert work;● a new method of grouping dictionary definitions proposed in the thesis enablesclassification of their structural properties.

The method is based on clusterization ofdefinitions with the use of lexico-grammatical n-gram properties;● using lexico-grammatical trigrams as clustering features increases precision in definingdefinition types, as compared to homogenous (only lexical or only POS) trigrams andunigrams;● various structural definition types defined with clusterization match different patterns forhypernym extraction. These patterns are extracted semi-automatically on the basis ofprevious expert annotation;● investigating different automated disambiguation techniques for the lexemes holdinghypernym relations with their definitions shows that the tasks in question can be solvedby standard algorithms based on Lesk methodology, as well as by semi-supervisedmachine learning (Label Propagation) and methods coming from distributional semantics.The latter outperform the others in quality.The contents of the thesisThe thesis includes an introduction, four chapters, conclusion and references.The first chapter «Building semantic networks: motivation, approach, sources»defines the basic terminologe accepted in the study, gives a brief description of the history ofthesauri develpment and the evolution of tools used for their design, with the latter being themain motivation for this work.

The chapter presents the aim of the study and an overalldescription of the accepted approach. ​Chapter two «Data» is a brief review of explanatorydictionaries available for the Russian language. It explains theoretical and practical premisesfor developing the corpus of dictionary definitions and grounds the choice of the dictionarythat serves as the main data source. In ​the third chapter ​«Relation extraction» we describeexperiments on annotating definitions of lexical units that are bound with the defined word bya thesaurus relation. ​Chapter four «Word sense disambiguation (WSD)» thoroughlydescribes two experiments on automatic disambiguation of annotated lexical units.

Theresults of the research and further discussion are presented in the ​Conclusion​.Summary of the thesis.Chapter I «Building semantic networks: motivation, approach, sources» outlinesthe terminology accepted in the thesis, reviews the previous work done within the field, putsforward the aim of the research and gives a brief overview of the proposed solutions. Thechapter also introduces the further structure of the thesis.Princeton WordNet project (Fellbaum, 2012) gave a feasible impetus to thedevelopment of electronic thesauri.

After the project was launched for English, two mainapproaches were widely exploited to create WordNet for any given language:dictionary-based concept (Brazilian Portuguese WordNet, Dias-da-Silva et al., 2002) andtranslation-based approach (see for example, Turkish WordNet, Bilgin et al., 2004). The lastone assumes that there is a correlation between synset and hyponym hierarchy in differentlanguages, even in the languages that come from distant families. Bilgin et al.

Характеристики

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6369
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее