Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 51
Текст из файла (страница 51)
2000.[5] Steven Bird и Mark Liberman. A Formal Framework for Linguistic Annotation.Speech Communication, 33:23—60, 2000.[6] Kalina Bontcheva, Diana Maynard, Valentin Tablan, и Hamish Cunningham. GATE: AUnicode-based infrastructure supporting multilingual information extraction. In ProceedingsOf Workshop On Information Extraction For Slavonic And Other Central And EasternEuropean Languages (Iesl’03), Borovets, 2003.[7] U. Callmeier, A.
Eisele, U. Sch\Јafer, и M. Siegel. The DeepThought core architecture167framework. В Proceedings of LREC, том 4, страница 1205–1208, 2004.[8] A. Copestake. Robust minimal recursion semantics. unpublished draft, 2004.[9] Ann Copestake, Dan Flickinger, Rob Malouf, Susanne Riehemann, и IvanSag. Translation using Minimal Recursion Semantics. In Proceedings Of The SixthInternational Conference On Theoretical And Methodological Issues In MachineTranslation, 1995.[10] Berthold Crysmann, Anette Frank, Bernd Kiefer, Hans-Ulrich Krieger, StefanMЈuller, GЈunter Neumann, Jakub Piskorski, Ulrich SchЈafer, Melanie Siegel, HansUszkoreit, и Feiyu Xu. An Integrated Architecture for Shallow and Deep Processing.University Of Pennsylvania, страницы 441—448, 2002.[11] Hamish Cunningham, Hamish Cunningham, Diana Maynard, Diana Maynard,Valentin Tablan, и Valentin Tablan.
JAPE: a Java Annotation Patterns Engine. 1999.[12] Hamish Cunningham, Kevin Humphreys, Robert Gaizauskas, и YorickWilks. Software Infrastructure for Natural Language Processing. 1997.[13] Witold Drozdzynski, Hans-Ulrich Krieger, Jakub Piskorski, Ulrich SchЈafer, и FeiyuXu. Shallow Processing with Unification and Typed Feature Structures — Foundations andApplications. KЈunstliche Intelligenz, 1:17–23, 2004.[14] Bernd Fischer, Ag Softwaretechnologie, и Tu Braunschweig. Resolution for FeatureLogic.
In Proceedings Of The, страницы 23—34, 1993.[15] R. Grishman. TIPSTER text phase II architecture design. В Proceedings of aworkshop on held at Vienna, Virginia: May 6-8, 1996, страница 249–305, 1996.[16] Jerry R Hobbs, John Bear, David Israel, и Mabry Tyson. FASTUS: A finite-stateprocessor for information extraction from real-world text. страницы 1172—1178, 1993.[17] Kristy Hollingshead и Brian Roark.
Pipeline Iteration. В Proceedings of the 45thAnnual Meeting of the Association of Computational Linguistics, страница 952–959,Prague, Czech Republic, июнь 2007. Association for Computational Linguistics.[18] Jochen L Leidner. Current Issues in Software Engineering for Natural LanguageProcessing. Proc. Of The Workshop On Software Engineering And Architecture OfLanguage Technology Systems (Sealts), The Joint Conf. For Human Language TechnologyAnd The Annual Meeting Of The Noth American Chapter Of The Association ForComputational Linguistics (Hlt, 8:45—50, 2003.[19] Tom Mahieu, Stefan Raeymaekers, и Stefan Raeymaekers Et Al.
Base Architecturesfor NLP.[20] Diana Maynard, Hamish Cunningham, Kalina Bontcheva, Roberta Catizone, GeorgeDemetriou, Robert Gaizauskas, Oana Hamza, Mark Hepple, и Patrick Herring. A Survey ofUses of GATE.[21] David McKelvie, Chris Brew, и Henry Thompson. Using SGML as a Basis for DataIntensive NLP.
In Proceedings Of The Fifth Conference On Applied Natural LanguageProcessing (ANLP-97, 1997.[22] Georgios Petasis, Vangelis Karkaletsis, Georgios Paliouras, Ion Androutsopoulos,и Constantine D Spyropoulos. Ellogon: A New Text Engineering Platform. In ProceedingsOf The Third International Conference On Language Resources And Evaluation (Lrec2002), Las Palmas, Canary Islands, 2002:72—78, 2002.[23] N. Rizzolo и D. Roth. Learning Based Java for Rapid Development of NLP Systems.В Proceedings of the International Conference on Language Resources and Evaluation(LREC), Valletta, Malta, 2010.[24] Ulrich SchЈafer.
Middleware for Creating and Combining Multi-dimensional NLPMarkup. IN PROCEEDINGS OF THE WORKSHOP ON MULTI-DIMENSIONAL168MARKUP IN NLP, 2006.[25] Ulrich SchЈafer. Integrating Deep and Shallow Natural Language ProcessingComponents – Representations and Hybrid Architectures. Кандидатская диссертация,Faculty of Mathematics and Computer Science, Saarland University, SaarbrЈucken,Germany, 2007. Doctoral Dissertation; also available as Vol. 22 of the SaarbrЈuckenDissertations in Computational Linguistics and Language Technology series(http://www.dfki.de/lt/diss), ISBN 978-3-933218-21-6.[26] I.
Segalovich. A fast morphological algorithm with unknown word guessing inducedby a dictionary for a web search engine. В In Proc. of MLMTA-2003, Las Vegas, 2003.[27] Stuart C Shapiro и Shane Axtell. Natural Language Tools for Information Extractionfor Soft Target Exploitation and Fusion. 2007.[28] Stuart M Shieber. An Introduction to Unification-Based Approaches to Grammar.1986.[29] Scott C Stoness. Continuous Understanding: A First Look at CAFE. 2001.[30] Remi Zajac, Mark Casper, и Nigel Sharples. An Open Distributed Architecture forReuse and Integration of Heterogeneous NLP Components.
In Proceedings Of The 5thConference On Applied Natural Language Processing (ANLP-97, 1997.[31] Копотев М. В.. Между Сциллой языкознания и Харибдой языка: орусскоязычных корпусах текстов. Труды международной конференции Диалог-2005,страницы 282–285, 2005.[32] Сокирко А. В.. Морфологические модули на сайте www.aot.ru. Трудымеждународной конференции ЋДиалог-2004. Компьютерная лингвистика иинтеллектуальные технологииЛ, страница 559, 2004.[33] Хорошевский В.Ф..
Управление знаниями и обработка ЕЯ-текстов. В ДевятаяНациональная конференция по искусственному интеллекту с международнымучастием КИИ-2004: Труды конференции. В 3-х т., т. 2, страницы 565–572. М.:Физматлит, 2004.[34] Большакова Е.И. и Носков А.А.. Программные средства анализа текста наоснове лексико-синтаксических шаблонов языка LSPL. В Программные системы иинструменты: Тематический сборник, № 11 / Под ред.
Королева Л.Н., страницы 71–73. М.: Изд. отдел факультета ВМиК МГУ; МАКС Пресс, 2010.[35] Резникова Т. И. и Копотев М. В.. Лингвистически аннотированные корпусарусского языка (обзор общедоступных ресурсов). Национальный корпус русскогоязыка: 2003—2005, страницы 31–61, 2005.169ЧАСТЬ V.АЛГОРИТМЫ КЛАССИФИКАЦИИПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ(ПЕСКОВА О.В.)Глава 1.Алгоритмы классификации с учителемАлгоритмы классификации с учителем сортируют полнотекстовые документыпо заранее известным категориям (классам). В роли учителя выступает выборкадокументов, для которых заранее известна принадлежность той или иной категории,называемая обучающим множеством.
Множество категорий,1, | | иобучающее множество документов Ω ⊂ , где,1, | | – полноемножество документов, формируют эксперты. Алгоритм классификации с учителем –алгоритм категоризации – использует обучающее множество Ω, чтобы построитьклассификатор Φ:→ истина, ложь , обеспечивающий высокую точность навсем множестве документов , используя предположение, что обучающие и новыеданные похожи. Обычно множество документов Ω делят на две части: одна часть –данные для обучения алгоритма, вторая – тестовые данные для оценки качестваполученного классификатора.Алгоритмы классификации документов называют по имени метода обучения,положенного в его основу. Далее рассмотрим наиболее известные из них, обсудивсначала представление полнотекстовых документов, которым оперируют алгоритмы.Описание каждого алгоритма сопроводим примером, в котором используетсяследующая коллекция документов:docIdСлова в документес = «Китай»китайский пекин китайскийс1китайский китайский шанхайс2китайский макаос3токио япония китайский4китайский китайский китайский токио япония?5Изначально идея такого примера была заимствована из [1], где на указаннойколлекции из 5 документов было продемонстрировано функционирование трехалгоритмов – наивного байесовского классификатора, алгоритма Роккио и алгоритмаk-ближайших соседей.
Затем этот пример вырос в сквозной пример для всехрассматриваемых здесь алгоритмов.§ 1.1.Представление данных в задачах классификации текстовОбразы полнотекстовых документов. Входными данными алгоритмаклассификации является не сама коллекция документов ",1, |"|, а$ ,##$##$ – образмножество образов каждого документа "1, |"|, где ###$% ∈ "документа∈ ". Существует несколько подходов к формированию образов,применяют тот, который соответствует модели, положенной в основу конкретногоалгоритма классификации. Образы документов в тех алгоритмах, которые мы будемрассматривать, представлены в следующем виде:а) мультимножеств терминов документов (например, наивный байесовскийклассификатор);170б) векторов в пространстве терминов (например, алгоритм Роккио, алгоритмыклассификации без учителя).Под терминами документов будем понимать все одиночные слова, встреченныев тексте хотя бы одного документа коллекции, за исключением стоп-слов, то естьраспространённых слов, не характеризующих документы по смыслу, например,предлогов, союзов и т.
п. Вдобавок, каждой встреченной форме слова, например, вразных падежах и числах, будет соответствовать один и тот же термин, например,данное слово в начальной форме. В результате получаем множество всех терминовколлекции '() , * 1, |'|.Образом документа как вектора в пространстве терминов является вектор/действительных чисел ###$% + , , … , |'| . , где каждое действительное число являетсякоординатой вектора, соответствующей конкретному термину, и равняется весутермина в данном документе. Наиболее часто используют следующий подход квычислению веса термина:012|"|(1),5(6789,‖0####$‖4:;2где (6 – частота термина в документе, то есть количество раз, которое j-ыйтермин встретился в i-ом документе; 6 – документная частота, то есть количестводокументов, в которых встретился j-ый термин; ‖5####$% ‖ – евклидова норма 5####$.% Такиеназывают нормированными весами по формуле «TF-IDF» («частота терминавеса– обратная документная частота»), 0 == 1. Они обладают следующимисвойствами: (а) имеют высокие значения, если термин часто встречается в небольшомчисле документов, тем самым усиливая отличие этих документов от других, (б)имеют низкие значения, если термин редко встречается в каком-то документе иливстречается во многих документов, тем самым снижая различие между документами.Процесс классификации документов как векторов основан на гипотезе о том, чтотематически близкие документы окажутся в пространстве терминов геометрическиблизко расположенными.
Поэтому в основе алгоритмов классификации лежитпонятие сходства или расстояния между документами в пространстве терминов.Меры сходства и различий между образами документов. В данном случаепонятия расстояния и сходства являются взаимнообратными, расстояние можно былобы называть различием.