Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 50

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 50 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 502017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 50)

При этом рассмотрениеизвлечения информации как подзадачи понимания текста и применение систем,предназначенных для понимания текстов приводило к относительно низкомукачеству результатов при низкой эффективности обработки.Для преодоления этой проблемы авторами было предложено использовать дляизвлечения информации более простой регулярный формализм вместо обычноиспользуемых контекстно-свободных с тем, чтобы увеличить эффективность работысистемы.Работа системы FASTUS состояла из четырех этапов:1. Обнаружение ключевых слов, свидетельствующих о наличии в предложенияхрелевантной информации;2.

Выделение именных групп, глагольных групп и важных классов слов, такихкак предлоги, союзы, и т.п;3. Выделение необходимой информации по шаблонам. Шаблоны для выделенияпредставлялись в виде конечных автоматов, где переходы соответствовалиключевым словам или словосочетаниям заданного типа, выделенным напредыдущем этапе.

При этом в шаблонах использовались конструкции,позволяющие выделять более сложные языковые конструкции (например,сложные именные группы) для представления более полной информации врезультирующей структуре.4. Структуры, выделенные для одного и того же предложения сливались в однудля получения наиболее полной информации об описываемом событии.Проведенные эксперименты показали эффективность выбранного подхода дляизвлечения информации.163CAFECистема CAFE [29] (Cascading, Asynchonous, Feedback Envrionment)разрабатывалась в 2001 году и предназначалась для решения задач распознаванияречи.CAFE интересна в первую очередь принципами взаимодействия компонентов,основанных на идеях так называемого Ћнепрерывного пониманияЛ, в которомкомпоненты, обрабатывающие данные не дожидаются полных результатовпредыдущего этапа, а производят анализ параллельно, при этом предоставляякомпонентам предыдущего информацию, корректирующую их функционирование.Традиционно взаимодействие компонентов, составляющих систему строится наоснове предоставления каждым компонентом единственного наилучшего результатаанализа на основе информации на своем уровне.

Однако, во многих случаях выборразличных вариантов на определенном уровне анализа не может быть осуществлентолько на основе информации этого уровня, а требует использования информации сболее глубоких уровней анализа текста.Для решения этой проблемы в CAFE используется следующая мождельвзаимодействия между компонентами, реализующими анализ на различных уровнях:Каждый компонент предоставляет следующему уровню результаты своегоанализа постепенно, по мере их получения не дожидаясь окончания обработкивсего документа или предложения; Соответственно, информацию отпредыдущего уровня компонент также получает постепенно и может возникатьситуация в которой новой информации еще не поступило;Компонент передает на следующий уровень несколько наилучших вариантованализа на своем уровне, при этом в случае отсутствии информации отпредыдущего уровня компонент может продолжать передавать следующемууровню оставшиеся варианты для текущей порции данных;Компонент передает на предыдущий уровень информацию об оценкеполученных вариантов анализа, что позволяет скорректировать направлениеанализа на предыдущем этапе.Таким образом в системе CAFE во-первых достигается больший уровеньпараллелизма работы компонентов, а во-вторых существует обратная связь междуэтапами, которая помогает скорректировать получаемые результаты.LinguaStreamСистема LinguaStream [3] разработана в 2003 году и основывается наиспользовании декларативного описания процесса обработки, который может бытьпредставлен в виде графа.Приложение разабатывается путем выбора компонентов, каждый из которыхимеет набор параметров, входов и выходов и их соединении.

Платформа основана наиспользовании XML и может обрабатывать любой XML-файл, сохраняя егоизначальную структуру.В платформе используются декларативные механизмы описания процессаобработки.Система использует идею, согласно которой различные модели анализадополняют друг друга, и, соответственно, не отдает предпочтения какому-либо изних. Для обеспечения совместимости между различными компонентами используетсяунифицированное представление разметки и аннотаций в виде наборов признаков(feature sets).164Важным аспектом является возможность использования различныхминимальных единиц на различных этапах анализа.

Когда какая-либо модель требуетналичия минимальной единицы анализа (например, лексемы), то эта единица можетбыть определна локально, только для соответствующего компонента. Кроме того,каждый компонент отмечает какие элементы разметки он обрабатывает. Описанныевозможности позволяют определить различные точки зрения на обратываемыйдокумент для кажого этапа.Каждое приложение может быть переиспользовано в качестве компонента длясоздания более сложного процесса обработки.Помимо компонентов, выполняющих конкретные задачи обработки текста,платформа включает компоненты, представляющие различные формализмыреализации задач обработки, например:Унификационных грамматик (на базе Prolog);Преобразований с конечным числом состояний;Грамматик, основанных на ограничениях;Регулярных выражений.Learning Based JavaСистема Learning Based Java [23] представляет средства для интеграции иобучения различных статистических компонентов.В основе системы лежит представление задачи анализа текста в виде поисканабора выходных данных, максимизирующего некоторые оценочные функции и приэтом удовлетворяющего заданным ограничениям.Приложение в системе представляется как набор моделей, описывающихпризнаки, передаваемые на вход статистической модели.

В качестве примерарассмотрим простую модель, осуществляющую выделение в качестве признаковмножества слов новостной статьи:/** This feature generating classifier "senses" all the* words in the document that begin with an alphabet* letter. The result is a bag-of-words representation* of the document. */discrete% BagOfWords(Post post) <- {for (int i = 0; i < post.bodySize(); ++i)for (int j = 0; j < post.lineSize(i); ++j) {String word = post.getBodyWord(i, j);if (word.length() > 0 &&word.substring(0, 1).matches("[A-Za-z]"))sense word;}}/** The label of the document. */discrete NewsgroupLabel(Post post) <{ return post.getNewsgroup(); }165В приложении задается используемый компонент машинного обучения имодели, признаки из которых используются для обучения и распознавания объектов:/** Here, we train averaged Perceptron for many* rounds of the training data. **/discrete NewsgroupClassifierAP(Post post) <learn NewsgroupLabelusing BagOfWordsfrom new NewsgroupParser("data/20news.train.shuffled")40 roundswith SparseNetworkLearner {SparseAveragedPerceptron.Parameters p =new SparseAveragedPerceptron.Parameters();p.learningRate = .1;p.thickness = 3;baseLTU = new SparseAveragedPerceptron(p);}progressOutput 20000testFrom new NewsgroupParser("data/20news.test")end§ 5.5.Прочие системыCorelliСистема Corelli [30] была разработана в 1996 году и предназначена дляинтеграции распределенных лингвистических компонентов, реализованных наразличных языках.В системе используется модель данных проекта TIPSTER, при этом типпредставляемой информации не ограничивается.

Для решения проблемсовместимости в системе предоставляется библиотека, осуществляющаяпреобразование данных.Система состоит из центрального сервера, реализованного на Java, которыйотвечает за хранение документов и сопутствующей лингвистической информации иразличных обрабатывающих компонентов, которые получают необходимые данныеот сервера документов. Компоненты взаимодействуют с центральным серверомнапрямую с использованием программного интерфейса на Java или удаленно на базеCORBA.

Кроме того, компоненты система поддерживает подключение и отключениекомпонентов в процессе выполнения.Поскольку взаимодействие с центральным сервером осуществляется пофиксированному протоколу, его реализация может быть заменена в соответствии снуждами приложения. В частности, предоставляется три основных версиицентрального сервера использующие для хранения данных файловую систему,специальное объектное хранилище или реляционную базу данных. В последнемслучае центральный сервер предоставляет возможности для транзакционноговзаимодействия.166UIMAСистема UIMA (http://uima.apache.org/) разрабатывается с 2004 года понастоящее время.

Для представления данных используется модель TIPSTER.Обработка документов осуществляется последовательно, каждый компонентдобавляет аннотации в представление документа.Для аннотаций определяется система типов, обеспечивающая проверкусовместимости аннотаций между различными компонентами. В случае несовпадениясистем типов, отображение между ними может быть произведено путем реализациисоответствующего компонента.Система UIMA доступна для свободного использования и может быть загруженас сайта системы.OpenPipelineСистема OpenPipeline (http://www.openpipeline.org/) предоставляет возможностидля автоматизированной обработки документов в серверном приложении. Длясистемы задается расписание выполнения работ, каждая из которых состоит изполучения данных из какого-либо источника и последовательного примененияопределенных этапов преобразования.Система реализована как серверное J2EE-приложение.TESLAСистемаTESLA(http://tesla.spinfo.uni-koeln.de/index.html)предоставляетудобный графический интерфейс на базе среды разработки Eclipse для построенияприложений естественно-языковой обработки.

Компоненты в системе связываютсяканалами в ориентированный граф.Система имеет клиент-серверную архитектуру - графический интерфейсвыступает в роли клиента и сам не выполняет задач по обработке текстов, а передаетих серверу.Список литературы[1] Enrique Alfonseca, Antonio Moreno-s, JosДe MarДa Guirao, и Maria Ruizcasado. The wraetlic NLP suite.

2006.[2] Pranav Anand, David Anderson, John Burger, John Griffith, Marc Light, Scott Mardis,и Alex Morgan. Qanda and the Catalyst Architecture. 2002.[3] F. Bilhaut и A. Widl\Јocher. LinguaStream: an integrated environment forcomputational linguistics experimentation. В Proceedings of the Eleventh Conference of theEuropean Chapter of the Association for Computational Linguistics: Posters &Demonstrations, страница 95–98, 2006.[4] Steven Bird, David Day, John Garofolo, John Henderson, Christophe Laprun, и MarkLiberman. ATLAS: A Flexible and Extensible Architecture for Linguistic Annotation.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.