Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 51

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 51 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 512017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 51)

2000.[5] Steven Bird и Mark Liberman. A Formal Framework for Linguistic Annotation.Speech Communication, 33:23—60, 2000.[6] Kalina Bontcheva, Diana Maynard, Valentin Tablan, и Hamish Cunningham. GATE: AUnicode-based infrastructure supporting multilingual information extraction. In ProceedingsOf Workshop On Information Extraction For Slavonic And Other Central And EasternEuropean Languages (Iesl’03), Borovets, 2003.[7] U. Callmeier, A.

Eisele, U. Sch\Јafer, и M. Siegel. The DeepThought core architecture167framework. В Proceedings of LREC, том 4, страница 1205–1208, 2004.[8] A. Copestake. Robust minimal recursion semantics. unpublished draft, 2004.[9] Ann Copestake, Dan Flickinger, Rob Malouf, Susanne Riehemann, и IvanSag. Translation using Minimal Recursion Semantics. In Proceedings Of The SixthInternational Conference On Theoretical And Methodological Issues In MachineTranslation, 1995.[10] Berthold Crysmann, Anette Frank, Bernd Kiefer, Hans-Ulrich Krieger, StefanMЈuller, GЈunter Neumann, Jakub Piskorski, Ulrich SchЈafer, Melanie Siegel, HansUszkoreit, и Feiyu Xu. An Integrated Architecture for Shallow and Deep Processing.University Of Pennsylvania, страницы 441—448, 2002.[11] Hamish Cunningham, Hamish Cunningham, Diana Maynard, Diana Maynard,Valentin Tablan, и Valentin Tablan.

JAPE: a Java Annotation Patterns Engine. 1999.[12] Hamish Cunningham, Kevin Humphreys, Robert Gaizauskas, и YorickWilks. Software Infrastructure for Natural Language Processing. 1997.[13] Witold Drozdzynski, Hans-Ulrich Krieger, Jakub Piskorski, Ulrich SchЈafer, и FeiyuXu. Shallow Processing with Unification and Typed Feature Structures — Foundations andApplications. KЈunstliche Intelligenz, 1:17–23, 2004.[14] Bernd Fischer, Ag Softwaretechnologie, и Tu Braunschweig. Resolution for FeatureLogic.

In Proceedings Of The, страницы 23—34, 1993.[15] R. Grishman. TIPSTER text phase II architecture design. В Proceedings of aworkshop on held at Vienna, Virginia: May 6-8, 1996, страница 249–305, 1996.[16] Jerry R Hobbs, John Bear, David Israel, и Mabry Tyson. FASTUS: A finite-stateprocessor for information extraction from real-world text. страницы 1172—1178, 1993.[17] Kristy Hollingshead и Brian Roark.

Pipeline Iteration. В Proceedings of the 45thAnnual Meeting of the Association of Computational Linguistics, страница 952–959,Prague, Czech Republic, июнь 2007. Association for Computational Linguistics.[18] Jochen L Leidner. Current Issues in Software Engineering for Natural LanguageProcessing. Proc. Of The Workshop On Software Engineering And Architecture OfLanguage Technology Systems (Sealts), The Joint Conf. For Human Language TechnologyAnd The Annual Meeting Of The Noth American Chapter Of The Association ForComputational Linguistics (Hlt, 8:45—50, 2003.[19] Tom Mahieu, Stefan Raeymaekers, и Stefan Raeymaekers Et Al.

Base Architecturesfor NLP.[20] Diana Maynard, Hamish Cunningham, Kalina Bontcheva, Roberta Catizone, GeorgeDemetriou, Robert Gaizauskas, Oana Hamza, Mark Hepple, и Patrick Herring. A Survey ofUses of GATE.[21] David McKelvie, Chris Brew, и Henry Thompson. Using SGML as a Basis for DataIntensive NLP.

In Proceedings Of The Fifth Conference On Applied Natural LanguageProcessing (ANLP-97, 1997.[22] Georgios Petasis, Vangelis Karkaletsis, Georgios Paliouras, Ion Androutsopoulos,и Constantine D Spyropoulos. Ellogon: A New Text Engineering Platform. In ProceedingsOf The Third International Conference On Language Resources And Evaluation (Lrec2002), Las Palmas, Canary Islands, 2002:72—78, 2002.[23] N. Rizzolo и D. Roth. Learning Based Java for Rapid Development of NLP Systems.В Proceedings of the International Conference on Language Resources and Evaluation(LREC), Valletta, Malta, 2010.[24] Ulrich SchЈafer.

Middleware for Creating and Combining Multi-dimensional NLPMarkup. IN PROCEEDINGS OF THE WORKSHOP ON MULTI-DIMENSIONAL168MARKUP IN NLP, 2006.[25] Ulrich SchЈafer. Integrating Deep and Shallow Natural Language ProcessingComponents – Representations and Hybrid Architectures. Кандидатская диссертация,Faculty of Mathematics and Computer Science, Saarland University, SaarbrЈucken,Germany, 2007. Doctoral Dissertation; also available as Vol. 22 of the SaarbrЈuckenDissertations in Computational Linguistics and Language Technology series(http://www.dfki.de/lt/diss), ISBN 978-3-933218-21-6.[26] I.

Segalovich. A fast morphological algorithm with unknown word guessing inducedby a dictionary for a web search engine. В In Proc. of MLMTA-2003, Las Vegas, 2003.[27] Stuart C Shapiro и Shane Axtell. Natural Language Tools for Information Extractionfor Soft Target Exploitation and Fusion. 2007.[28] Stuart M Shieber. An Introduction to Unification-Based Approaches to Grammar.1986.[29] Scott C Stoness. Continuous Understanding: A First Look at CAFE. 2001.[30] Remi Zajac, Mark Casper, и Nigel Sharples. An Open Distributed Architecture forReuse and Integration of Heterogeneous NLP Components.

In Proceedings Of The 5thConference On Applied Natural Language Processing (ANLP-97, 1997.[31] Копотев М. В.. Между Сциллой языкознания и Харибдой языка: орусскоязычных корпусах текстов. Труды международной конференции Диалог-2005,страницы 282–285, 2005.[32] Сокирко А. В.. Морфологические модули на сайте www.aot.ru. Трудымеждународной конференции ЋДиалог-2004. Компьютерная лингвистика иинтеллектуальные технологииЛ, страница 559, 2004.[33] Хорошевский В.Ф..

Управление знаниями и обработка ЕЯ-текстов. В ДевятаяНациональная конференция по искусственному интеллекту с международнымучастием КИИ-2004: Труды конференции. В 3-х т., т. 2, страницы 565–572. М.:Физматлит, 2004.[34] Большакова Е.И. и Носков А.А.. Программные средства анализа текста наоснове лексико-синтаксических шаблонов языка LSPL. В Программные системы иинструменты: Тематический сборник, № 11 / Под ред.

Королева Л.Н., страницы 71–73. М.: Изд. отдел факультета ВМиК МГУ; МАКС Пресс, 2010.[35] Резникова Т. И. и Копотев М. В.. Лингвистически аннотированные корпусарусского языка (обзор общедоступных ресурсов). Национальный корпус русскогоязыка: 2003—2005, страницы 31–61, 2005.169ЧАСТЬ V.АЛГОРИТМЫ КЛАССИФИКАЦИИПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ(ПЕСКОВА О.В.)Глава 1.Алгоритмы классификации с учителемАлгоритмы классификации с учителем сортируют полнотекстовые документыпо заранее известным категориям (классам). В роли учителя выступает выборкадокументов, для которых заранее известна принадлежность той или иной категории,называемая обучающим множеством.

Множество категорий,1, | | иобучающее множество документов Ω ⊂ , где,1, | | – полноемножество документов, формируют эксперты. Алгоритм классификации с учителем –алгоритм категоризации – использует обучающее множество Ω, чтобы построитьклассификатор Φ:→ истина, ложь , обеспечивающий высокую точность навсем множестве документов , используя предположение, что обучающие и новыеданные похожи. Обычно множество документов Ω делят на две части: одна часть –данные для обучения алгоритма, вторая – тестовые данные для оценки качестваполученного классификатора.Алгоритмы классификации документов называют по имени метода обучения,положенного в его основу. Далее рассмотрим наиболее известные из них, обсудивсначала представление полнотекстовых документов, которым оперируют алгоритмы.Описание каждого алгоритма сопроводим примером, в котором используетсяследующая коллекция документов:docIdСлова в документес = «Китай»китайский пекин китайскийс1китайский китайский шанхайс2китайский макаос3токио япония китайский4китайский китайский китайский токио япония?5Изначально идея такого примера была заимствована из [1], где на указаннойколлекции из 5 документов было продемонстрировано функционирование трехалгоритмов – наивного байесовского классификатора, алгоритма Роккио и алгоритмаk-ближайших соседей.

Затем этот пример вырос в сквозной пример для всехрассматриваемых здесь алгоритмов.§ 1.1.Представление данных в задачах классификации текстовОбразы полнотекстовых документов. Входными данными алгоритмаклассификации является не сама коллекция документов ",1, |"|, а$ ,##$##$ – образмножество образов каждого документа "1, |"|, где ###$% ∈ "документа∈ ". Существует несколько подходов к формированию образов,применяют тот, который соответствует модели, положенной в основу конкретногоалгоритма классификации. Образы документов в тех алгоритмах, которые мы будемрассматривать, представлены в следующем виде:а) мультимножеств терминов документов (например, наивный байесовскийклассификатор);170б) векторов в пространстве терминов (например, алгоритм Роккио, алгоритмыклассификации без учителя).Под терминами документов будем понимать все одиночные слова, встреченныев тексте хотя бы одного документа коллекции, за исключением стоп-слов, то естьраспространённых слов, не характеризующих документы по смыслу, например,предлогов, союзов и т.

п. Вдобавок, каждой встреченной форме слова, например, вразных падежах и числах, будет соответствовать один и тот же термин, например,данное слово в начальной форме. В результате получаем множество всех терминовколлекции '() , * 1, |'|.Образом документа как вектора в пространстве терминов является вектор/действительных чисел ###$% + , , … , |'| . , где каждое действительное число являетсякоординатой вектора, соответствующей конкретному термину, и равняется весутермина в данном документе. Наиболее часто используют следующий подход квычислению веса термина:012|"|(1),5(6789,‖0####$‖4:;2где (6 – частота термина в документе, то есть количество раз, которое j-ыйтермин встретился в i-ом документе; 6 – документная частота, то есть количестводокументов, в которых встретился j-ый термин; ‖5####$% ‖ – евклидова норма 5####$.% Такиеназывают нормированными весами по формуле «TF-IDF» («частота терминавеса– обратная документная частота»), 0 == 1. Они обладают следующимисвойствами: (а) имеют высокие значения, если термин часто встречается в небольшомчисле документов, тем самым усиливая отличие этих документов от других, (б)имеют низкие значения, если термин редко встречается в каком-то документе иливстречается во многих документов, тем самым снижая различие между документами.Процесс классификации документов как векторов основан на гипотезе о том, чтотематически близкие документы окажутся в пространстве терминов геометрическиблизко расположенными.

Поэтому в основе алгоритмов классификации лежитпонятие сходства или расстояния между документами в пространстве терминов.Меры сходства и различий между образами документов. В данном случаепонятия расстояния и сходства являются взаимнообратными, расстояние можно былобы называть различием.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.