Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 49

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 49 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 492017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 49)

Исходная система Qanda впоследствии послужилапрототипом для разработки других систем на базе архитектуры.Основными причинами для разработки архитектуры послужил тот факт, чтосуществующие системы плохо масштабировались при росте объемов обрабатываемойинформации и требований к скорости ее обработки.Для представления данных Catalyst использует модель, основанную нааннотациях TIPSTER.Важным отличием системы Catalyst от других, является использованиеконцепции потоков данных для интеграции компонентов. Каждый компонентсоединяется с другими каналами, по которым передаются аннотации, упорядоченныев соответствии с их позициями в документе (а для совпадающих позиций - по типаманнотаций).Каждый компонент объявляет какие типы аннотаций необходимы ему дляобработки и какие аннотации он генерирует на выходе.

Такая информация позволяетне передавать между компонентами аннотации, которые не будут использован изначительно уменьшить кол-во информации, передаваемой по каналам, что важно припостроении хорошо масштабируемых распределенных системы.Такой подход к интеграции компонентов имеет ряд преимуществ:Многие ошибки, связанные с неправильной организацией приложения могутбыть выявлены на этапе сборки;Отсутствуют накладные расходы на преобразование разметки в какой-либостандартный формат (например, на базе XML);Разработчики компонентов могут работать непосредственно с аннотациями, ане с разметкой в каком-либо формате;Система может работать как на одной машине, так и распределенно.Компоненты могут быть реплицированы для увеличения производительности;Код компонентов упрощается поскольку в них не требуется проверка данныхна корректность (она выполняется на этапе сборки приложения).Поскольку отладка и мониторинг распределенной системы может представлятьзначительные сложности Catalyst предоставляет возможности для распределенногологирования и мониторинга.

Использование распределенного логирования позволяетсобирать информацию со всех или указанных процессов в системе. Собраннаяинформация включает события начала и завершения обработки, пользовательскиесообщения, сообщения об ошибках и т.п. Логирование может быть включено призапуске системы или в процессе ее функционирования. Система мониторингапозволяет отслеживать конфигурацию и состояние приложения, включая потокипередаваемых данных в процессе его функционирования.

Предоставляетсяинформация об активных компонентах, потоках данных, количестве буферизованныхсообщений и т.п.160Работа с Catalyst состоит из написаний компонентов для фреймворка и сборкеприложений из компонентов. Catalyst разработан так, чтобы в первую очередьупростить вторую задачу - сборка приложения представляет из себя размещениекомпонентов и соединение их каналами.Компоненты для фреймворка могут быть разработаны непосредственно сиспользованием модели аннотаций или представлять из себя обертки вокруг ужесуществующих компонентов.§ 5.3.Системы интеграции поверхностной и глубокой обработкиSProUTСистема SProUT [13; 25] (Shallow Processing with Unification and Typed FeatureStructures) была разработана для задач поверхностной обработки текста в 2002-2004годах.

Мотивацией для разработки системы послужила необходимость в системе,которая позволяла бы гибко интегрировать различных обрабатывающих компонентови в то же время представляла бы хорошее соотношение между производительностьюи выразительностью используемого формализма.Идеей системы было объединение формализмов конечных преобразователей,для которых существуют эффективные алгоритмы, и унификационных грамматик,позволяющих естественным образом выражать синтаксические и семантическиеограничения. В качестве средства для такого объединения использовалась машина сконечным числом состояний, работающая над типизированными структурамипризнаков.

Таким образом правила преобразований в правой части содержатрегулярное выражения над структурами признаков, а правая часть представляетвыходную структуру признаков. При этом ограничения на равенство признаковзаменяются их унифицируемостью.Описанный формализм был расширен путем добавления функциональныхоператоров и возможности вызова дополнительных правил в процессе сопоставления.Функциональные операторы позволяют расширять формализм путем подключенияновых функций, используемых для вычисления значений в результирующейструктуре. Использование вызова дополнительных правил позволяет вызывать влевой части правил сопоставление других правил (или, возможно, того же самогоправила) тем самым расширяя выразительность формализма до контекстносвободного ценой небольшого снижения эффективности сопоставления (посколькутакой вызов приводит к порождению нового процесса сопоставления).Ядро системы состоит из четырех основных компонентов - инструментария дляобработки конечных машин, компилятора регулярных выражений, интерпретатораформализма XTDL и пакета типизированных структур признаков.

С использованиемэтих компонентов разработаны переиспользуемые компоненты для обработкилингвистической информации. Компоненты легко интегрируются внутри системыпоскольку имеют унифицированное представление данных в виде типизированныхструктур признаков.161Компоненты осуществляют обработку последовательно, но возможна болеесложная конфигурация путем использования специально разработанного языкаописания процесса обработки.WhiteboardСистема Whiteboard [10; 25] была разработана в 2000-2002 годах и предполагалавозможность интеграции лингвистических компонентов для поверхностной иглубокой обработки текста.Такая интеграция компонентов для поверхностного и глубокого анализапроблематична в связи с различиями в их производительности и точности.

Одно извозможных решений состоит в том, чтобы выполнять анализ параллельно, используярезультаты глубокого анализа при их наличии. Однако, для больших наборов данныхтакой подход приводит к рассинхронизации работы компонентов. Авторы системыпредложили решение, основанное на анализе данных с использованием компонентовповерхностного анализа для определения участков, которые необходимо обработать спомощью компонентнов глубокого анализа.

Кроме того, использование результатовповерхностного анализа на таких участках может быть использовано в качестведополнительной эвристики для компонентов глубокого анализа, увеличиваяпроизводительность их работы.Для представления лингвистической информации на поверхностном уровне всистеме используется XML-разметка. При этом более сложные структуры, которые немогут быть выражены в XML хранятся отдельно и доступны компонентам,выполняющим глубокую обработку. Это позволяет, с одной стороны компонентамповерхностного анализа работать с хорошо известным представлением, акомпонентам глубокого анализа не быть ограниченными этим представлением.Heart of GoldАрхитектура Heart of Gold [7; 24; 25] была разработана в 2004-2005 как развитиеWhiteboard исправляющее ряд ее основных недостатков.

Задача архитектуры состоитв том, чтобы сохранить преимущества поверхностной обработки текста (в первуюочередь устойчивость и эффективность), но при этом увеличить точность и глубинуанализа в тех местах, где это необходимо.В качестве единого формата для представления данных выбран RMRS. Длякомпонентов, которые используют другие представления, основанные на XML,применяется преобразование данных, описываемое на языке XSLT.Платформа работает как медиатор между приложениями и наборомкомпонентов. Приложения посылают запросы об анализе документов центральномумодулю, который рассылает запросы различным компонентам и затем осуществляетслияние результатов их обработки. При этом, результаты запросов сохраняются в базеданных, что позволяет избежать повторной обработки при получении тех жезапросов. Параметры запросов указывают на анализируемый документ, участок втексте, который необходимо проанализировать, а также необходимую глубинуанализа.В соответствии с идеей, заложенной в систему результат обработки каждогокомпонента представляет из себя недоспецифицированную семантическуюинформацию, которая может быть углублена в процессе дальнейшей обработки.

Всоответствии с этим, стратегия обработки запроса состоит в том, чтобы обработатьзапрос с помощью всех компонентов начиная с минимальной глубины до заданной в162запросе, откатываясь к результату работы предыдущего компонента в случае, есликакой-либо компонент не обработал запрос. Для возможности последующего анализаусловий при которых был получен тот или иной результат, вместе с ним сохраняетсяметаинформация о переданых параметрах, времени обработки запроса и т.п.Ядро системы написано на Java, однако компоненты и приложения могут бытьнаписаны на любых языках и осуществлять взаимодействие с ядром через протоколXML-RPC.§ 5.4.Системы, развивающие отдельные аспекты обработки текстаЗдесь представлены другие системы, осуществляющие обработку текстов наестественном языке так или иначе интересные идеями, заложенными в них.FastusСистема Fastus [16] была разработана в 1994 как средство для эффективного иточного извлечения информации из текстов и интересна в первую очередь тем, чтоявлялась одной из первых систем, использующих регулярные шаблоны для решениязадач извлечения информации.При разработке системы были учтены такие особенности извлеченияинформации из текстов, как релевантность только небольшой части анализируемоготекста, необходимость отображения информации в заранее определенноеотносительно простроен представление и незначительность многих аспектов,связанных со значением и целью написания текста.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.