Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 51
Текст из файла (страница 51)
Компоненты взаимодействуют с центральным серверомнапрямую с использованием программного интерфейса на Java или удаленно на базеCORBA. Кроме того, компоненты система поддерживает подключение и отключениекомпонентов в процессе выполнения.Поскольку взаимодействие с центральным сервером осуществляется пофиксированному протоколу, его реализация может быть заменена в соответствии снуждами приложения. В частности, предоставляется три основных версиицентрального сервера использующие для хранения данных файловую систему,специальное объектное хранилище или реляционную базу данных. В последнемслучае центральный сервер предоставляет возможности для транзакционноговзаимодействия.166UIMAСистема UIMA (http://uima.apache.org/) разрабатывается с 2004 года понастоящее время.
Для представления данных используется модель TIPSTER.Обработка документов осуществляется последовательно, каждый компонентдобавляет аннотации в представление документа.Для аннотаций определяется система типов, обеспечивающая проверкусовместимости аннотаций между различными компонентами. В случае несовпадениясистем типов, отображение между ними может быть произведено путем реализациисоответствующего компонента.Система UIMA доступна для свободного использования и может быть загруженас сайта системы.OpenPipelineСистема OpenPipeline (http://www.openpipeline.org/) предоставляет возможностидля автоматизированной обработки документов в серверном приложении. Длясистемы задается расписание выполнения работ, каждая из которых состоит изполучения данных из какого-либо источника и последовательного примененияопределенных этапов преобразования.Система реализована как серверное J2EE-приложение.TESLAСистемаTESLA(http://tesla.spinfo.uni-koeln.de/index.html)предоставляетудобный графический интерфейс на базе среды разработки Eclipse для построенияприложений естественно-языковой обработки.
Компоненты в системе связываютсяканалами в ориентированный граф.Система имеет клиент-серверную архитектуру - графический интерфейсвыступает в роли клиента и сам не выполняет задач по обработке текстов, а передаетих серверу.Список литературы[1] Enrique Alfonseca, Antonio Moreno-s, JosДe MarДa Guirao, и Maria Ruizcasado. The wraetlic NLP suite. 2006.[2] Pranav Anand, David Anderson, John Burger, John Griffith, Marc Light, Scott Mardis,и Alex Morgan.
Qanda and the Catalyst Architecture. 2002.[3] F. Bilhaut и A. Widl\Јocher. LinguaStream: an integrated environment forcomputational linguistics experimentation. В Proceedings of the Eleventh Conference of theEuropean Chapter of the Association for Computational Linguistics: Posters &Demonstrations, страница 95–98, 2006.[4] Steven Bird, David Day, John Garofolo, John Henderson, Christophe Laprun, и MarkLiberman. ATLAS: A Flexible and Extensible Architecture for Linguistic Annotation.
2000.[5] Steven Bird и Mark Liberman. A Formal Framework for Linguistic Annotation.Speech Communication, 33:23—60, 2000.[6] Kalina Bontcheva, Diana Maynard, Valentin Tablan, и Hamish Cunningham. GATE: AUnicode-based infrastructure supporting multilingual information extraction. In ProceedingsOf Workshop On Information Extraction For Slavonic And Other Central And EasternEuropean Languages (Iesl’03), Borovets, 2003.[7] U. Callmeier, A. Eisele, U. Sch\Јafer, и M. Siegel.
The DeepThought core architecture167framework. В Proceedings of LREC, том 4, страница 1205–1208, 2004.[8] A. Copestake. Robust minimal recursion semantics. unpublished draft, 2004.[9] Ann Copestake, Dan Flickinger, Rob Malouf, Susanne Riehemann, и IvanSag. Translation using Minimal Recursion Semantics. In Proceedings Of The SixthInternational Conference On Theoretical And Methodological Issues In MachineTranslation, 1995.[10] Berthold Crysmann, Anette Frank, Bernd Kiefer, Hans-Ulrich Krieger, StefanMЈuller, GЈunter Neumann, Jakub Piskorski, Ulrich SchЈafer, Melanie Siegel, HansUszkoreit, и Feiyu Xu. An Integrated Architecture for Shallow and Deep Processing.University Of Pennsylvania, страницы 441—448, 2002.[11] Hamish Cunningham, Hamish Cunningham, Diana Maynard, Diana Maynard,Valentin Tablan, и Valentin Tablan.
JAPE: a Java Annotation Patterns Engine. 1999.[12] Hamish Cunningham, Kevin Humphreys, Robert Gaizauskas, и YorickWilks. Software Infrastructure for Natural Language Processing. 1997.[13] Witold Drozdzynski, Hans-Ulrich Krieger, Jakub Piskorski, Ulrich SchЈafer, и FeiyuXu. Shallow Processing with Unification and Typed Feature Structures — Foundations andApplications. KЈunstliche Intelligenz, 1:17–23, 2004.[14] Bernd Fischer, Ag Softwaretechnologie, и Tu Braunschweig. Resolution for FeatureLogic.
In Proceedings Of The, страницы 23—34, 1993.[15] R. Grishman. TIPSTER text phase II architecture design. В Proceedings of aworkshop on held at Vienna, Virginia: May 6-8, 1996, страница 249–305, 1996.[16] Jerry R Hobbs, John Bear, David Israel, и Mabry Tyson.
FASTUS: A finite-stateprocessor for information extraction from real-world text. страницы 1172—1178, 1993.[17] Kristy Hollingshead и Brian Roark. Pipeline Iteration. В Proceedings of the 45thAnnual Meeting of the Association of Computational Linguistics, страница 952–959,Prague, Czech Republic, июнь 2007. Association for Computational Linguistics.[18] Jochen L Leidner. Current Issues in Software Engineering for Natural LanguageProcessing.
Proc. Of The Workshop On Software Engineering And Architecture OfLanguage Technology Systems (Sealts), The Joint Conf. For Human Language TechnologyAnd The Annual Meeting Of The Noth American Chapter Of The Association ForComputational Linguistics (Hlt, 8:45—50, 2003.[19] Tom Mahieu, Stefan Raeymaekers, и Stefan Raeymaekers Et Al. Base Architecturesfor NLP.[20] Diana Maynard, Hamish Cunningham, Kalina Bontcheva, Roberta Catizone, GeorgeDemetriou, Robert Gaizauskas, Oana Hamza, Mark Hepple, и Patrick Herring.
A Survey ofUses of GATE.[21] David McKelvie, Chris Brew, и Henry Thompson. Using SGML as a Basis for DataIntensive NLP. In Proceedings Of The Fifth Conference On Applied Natural LanguageProcessing (ANLP-97, 1997.[22] Georgios Petasis, Vangelis Karkaletsis, Georgios Paliouras, Ion Androutsopoulos,и Constantine D Spyropoulos.
Ellogon: A New Text Engineering Platform. In ProceedingsOf The Third International Conference On Language Resources And Evaluation (Lrec2002), Las Palmas, Canary Islands, 2002:72—78, 2002.[23] N. Rizzolo и D. Roth. Learning Based Java for Rapid Development of NLP Systems.В Proceedings of the International Conference on Language Resources and Evaluation(LREC), Valletta, Malta, 2010.[24] Ulrich SchЈafer. Middleware for Creating and Combining Multi-dimensional NLPMarkup. IN PROCEEDINGS OF THE WORKSHOP ON MULTI-DIMENSIONAL168MARKUP IN NLP, 2006.[25] Ulrich SchЈafer. Integrating Deep and Shallow Natural Language ProcessingComponents – Representations and Hybrid Architectures. Кандидатская диссертация,Faculty of Mathematics and Computer Science, Saarland University, SaarbrЈucken,Germany, 2007.
Doctoral Dissertation; also available as Vol. 22 of the SaarbrЈuckenDissertations in Computational Linguistics and Language Technology series(http://www.dfki.de/lt/diss), ISBN 978-3-933218-21-6.[26] I. Segalovich. A fast morphological algorithm with unknown word guessing inducedby a dictionary for a web search engine.
В In Proc. of MLMTA-2003, Las Vegas, 2003.[27] Stuart C Shapiro и Shane Axtell. Natural Language Tools for Information Extractionfor Soft Target Exploitation and Fusion. 2007.[28] Stuart M Shieber. An Introduction to Unification-Based Approaches to Grammar.1986.[29] Scott C Stoness. Continuous Understanding: A First Look at CAFE. 2001.[30] Remi Zajac, Mark Casper, и Nigel Sharples. An Open Distributed Architecture forReuse and Integration of Heterogeneous NLP Components.
In Proceedings Of The 5thConference On Applied Natural Language Processing (ANLP-97, 1997.[31] Копотев М. В.. Между Сциллой языкознания и Харибдой языка: орусскоязычных корпусах текстов. Труды международной конференции Диалог-2005,страницы 282–285, 2005.[32] Сокирко А. В.. Морфологические модули на сайте www.aot.ru. Трудымеждународной конференции ЋДиалог-2004. Компьютерная лингвистика иинтеллектуальные технологииЛ, страница 559, 2004.[33] Хорошевский В.Ф..
Управление знаниями и обработка ЕЯ-текстов. В ДевятаяНациональная конференция по искусственному интеллекту с международнымучастием КИИ-2004: Труды конференции. В 3-х т., т. 2, страницы 565–572. М.:Физматлит, 2004.[34] Большакова Е.И. и Носков А.А.. Программные средства анализа текста наоснове лексико-синтаксических шаблонов языка LSPL.
В Программные системы иинструменты: Тематический сборник, № 11 / Под ред. Королева Л.Н., страницы 71–73. М.: Изд. отдел факультета ВМиК МГУ; МАКС Пресс, 2010.[35] Резникова Т. И. и Копотев М. В.. Лингвистически аннотированные корпусарусского языка (обзор общедоступных ресурсов). Национальный корпус русскогоязыка: 2003—2005, страницы 31–61, 2005.169ЧАСТЬ V.АЛГОРИТМЫ КЛАССИФИКАЦИИПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ(ПЕСКОВА О.В.)Глава 1.Алгоритмы классификации с учителемАлгоритмы классификации с учителем сортируют полнотекстовые документыпо заранее известным категориям (классам). В роли учителя выступает выборкадокументов, для которых заранее известна принадлежность той или иной категории,называемая обучающим множеством.
Множество категорий,1, | | иобучающее множество документов Ω ⊂ , где,1, | | – полноемножество документов, формируют эксперты. Алгоритм классификации с учителем –алгоритм категоризации – использует обучающее множество Ω, чтобы построитьклассификатор Φ:→ истина, ложь , обеспечивающий высокую точность навсем множестве документов , используя предположение, что обучающие и новыеданные похожи. Обычно множество документов Ω делят на две части: одна часть –данные для обучения алгоритма, вторая – тестовые данные для оценки качестваполученного классификатора.Алгоритмы классификации документов называют по имени метода обучения,положенного в его основу. Далее рассмотрим наиболее известные из них, обсудивсначала представление полнотекстовых документов, которым оперируют алгоритмы.Описание каждого алгоритма сопроводим примером, в котором используетсяследующая коллекция документов:docIdСлова в документес = «Китай»китайский пекин китайскийс1китайский китайский шанхайс2китайский макаос3токио япония китайский4китайский китайский китайский токио япония?5Изначально идея такого примера была заимствована из [1], где на указаннойколлекции из 5 документов было продемонстрировано функционирование трехалгоритмов – наивного байесовского классификатора, алгоритма Роккио и алгоритмаk-ближайших соседей.
Затем этот пример вырос в сквозной пример для всехрассматриваемых здесь алгоритмов.§ 1.1.Представление данных в задачах классификации текстовОбразы полнотекстовых документов. Входными данными алгоритмаклассификации является не сама коллекция документов ",1, |"|, а$ ,##$##$ – образмножество образов каждого документа "1, |"|, где ###$% ∈ "документа∈ ". Существует несколько подходов к формированию образов,применяют тот, который соответствует модели, положенной в основу конкретногоалгоритма классификации. Образы документов в тех алгоритмах, которые мы будемрассматривать, представлены в следующем виде:а) мультимножеств терминов документов (например, наивный байесовскийклассификатор);170б) векторов в пространстве терминов (например, алгоритм Роккио, алгоритмыклассификации без учителя).Под терминами документов будем понимать все одиночные слова, встреченныев тексте хотя бы одного документа коллекции, за исключением стоп-слов, то естьраспространённых слов, не характеризующих документы по смыслу, например,предлогов, союзов и т.