Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 32

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 32 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 322017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 32)

Классификация означает отнесение каждого документа копределенному классу с заранее известными параметрами, а кластеризация –разбиение множества документов на кластеры, т.е. подмножества тематическиблизких документов. Для решения этих задач применяются методы машинногообучения, в связи с чем эти прикладные задачи называют Text Mining и относят кнаучному направлению, известному как Data Mining, или интеллектуальный анализданных [27].Очень близка к классификации задача рубрицирования текста – его отнесение кодной из заранее известных тематических рубрик (обычно рубрики образуютиерархическое дерево тематик).Задача классификации получает все большее распространение, она решается,например, при распознавании спама, а сравнительно новое приложение –классификация SMS-сообщений в мобильных устройствах.

Новое и актуальноенаправление исследований для общей задачи информационного поиска –многоязыковой поиск по документам.Еще одна относительно новая задача, связанная с информационным поиском –формирование ответов на вопросы (Question Answering) [9]. Эта задача решаетсяпутем определения типа вопроса, поиском текстов, потенциально содержащих ответна этот вопрос, и извлечением ответа из этих текстов.Совершенно иное прикладное направление, которое развивается хотя имедленно, но устойчиво – это автоматизация подготовки и редактированиятекстов на ЕЯ. Одним из первых приложений в этом направлении были программыавтоматической определения переносов слов и программы орфографическойпроверки текста (спеллеры, или автокорректоры). Несмотря на кажущуюся простотузадачи переносов, ее корректное решение для многих ЕЯ (например, английского)требует знания морфемной структуры слов соответствующего языка, а значит,соответствующего словаря.Проверка орфографии уже давно реализована в коммерческих системах иопирается на соответствующий словарь и модель морфологии.

Используется такженеполная модель синтаксиса, на основе которой выявляются достаточно частотныевсе синтаксические ошибки (например, ошибки согласования слов). В то же время вавтокорректорах не реализовано пока выявление более сложных ошибок, к примеру,неправильное употребление предлогов. Не обнаруживаются и многие лексическиеошибки, в частности, ошибки, возникающие в результате опечаток или неверногоиспользования схожих слов (например, весовой вместо весомый). В современныхисследованиях КЛ предлагаются методы автоматизированного выявления иисправления подобных ошибок, а также некоторых других видов стилистических101ошибок [25, 29]. В этих методах используется статистика встречаемости слов исловосочетаний.Близкой к поддержке подготовки текстов прикладной задачей является обучениеестественному языку, в рамках этого направления часто разрабатываютсякомпьютерные системы обучения языку – английскому, русскому и др.

(подобныесистемы можно найти в Интернете). Обычно эти системы поддерживают изучениеотдельных аспектов языка (морфологии, лексики, синтаксиса) и опираются насоответствующие модели, например, модель морфологии.Что касается изучения лексики, то для этого также используются электронныеаналоги текстовых словарей (в которых по сути нет языковых моделей). Однакоразрабатываются также многофукциональные компьютерные словари, не имеющиетекстовых аналогов и ориентированные на широкий круг пользователей – например,словарь русских словосочетаний Кросслексика [28]. Эта система охватывает широкийкруг лексики – слов и допустимых их словосочетаний, а также предоставляет справкипо моделям управления слов, синонимам, антонимам и другим смысловымкоррелятам слов, что явно полезно не только для тех, кто изучает русский язык, но иносителям языка.Следующее прикладное направление, которое стоит упомянуть – этоавтоматическая генерация текстов на ЕЯ [2].

В принципе, эту задачу можно считатьподзадачей уже рассмотренной выше задачи машинного перевода, однако в рамкахнаправления есть ряд специфических задач. Такой задачей является многоязыковаягенерация, т.е. автоматическое построение на нескольких языках специальныхдокументов – патентных формул, инструкций по эксплуатации технических изделийили программных систем, исходя из их спецификации на формальном языке. Длярешения этой задачи применяются довольно подробные модели языка.Все более актуальная прикладная задача, часто относимая к направлению TextMining – это извлечение информации из текстов, или Information Extraction [8], чтотребуется при решении задач экономической и производственной аналитики. Дляэтого осуществляется выделение в тесте ЕЯ определенных объектов – именованныхсущностей (имен, персоналий, географических названий), их отношений и связанныхс ними событий.

Как правило, это реализуется на основе частичного синтаксическогоанализа текста, позволяющего выполнять обработку потоков новостей отинформационных агентств. Поскольку задача достаточно сложна не толькотеоретически, но и технологически, создание значимых систем извлеченияинформации из текстов осуществимо в рамках коммерческих компаний [44].К направлению Text Mining относятся и две другие близкие задачи – выделениемнений (Opinion Mining) и оценка тональности текстов (Sentiment Analysis),привлекающие внимание все большего числа исследователей. В первой задачепроисходит поиск (в блогах, форумах, интернет-магазинах и пр.) мненийпользователей о товарах и других объектах, а также производится анализ этихмнений. Вторая задача близка к классической задаче контент-анализа текстовмассовой коммуникации, в ней оценивается общая тональность высказываний.Еще одно приложение, которое стоит упомянуть – поддержка диалога спользователем на ЕЯ в рамках какой-либо информационной программной системы.Наиболее часто эта задача решалась для специализированных баз данных – в этомслучае язык запросов достаточно ограничен (лексически и грамматически), чтопозволяет использовать упрощенные модели языка.

Запросы к базе,102сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняетсяпоиск нужной информации и строится соответствующая фраза ответа.В качестве последнего в нашем перечне приложений КЛ (но не по важности)укажем распознавание и синтез звучащей речи. Неизбежно возникающие в этихзадачах ошибки распознавания исправляются автоматическими методами на основесловарей и лингвистических знаний о морфологии. В этой области также применятсямашинное обучение.Глава 7.ЗаключениеКомпьютерная лингвистика демонстрирует вполне осязаемые результаты вразличных приложениях по автоматической обработке текстов на ЕЯ.

Дальнейшее ееразвитие зависит как от появления новых приложений, так и независимой разработкиразличных моделей языка, в которых пока не решены многие проблемы. Наиболеепроработанными являются модели морфологического анализа и синтеза. Моделисинтаксиса еще не доведены до уровня устойчиво и эффективно работающихмодулей, несмотря на большое число предложенных формализмов и методов. Ещеменее изучены и формализованы модели уровня семантики и прагматики, хотяавтоматическая обработка дискурса уже требуется в ряде приложений. Отметим, чтоуже существующие инструменты самой компьютерной лингвистики, использованиемашинного обучения и корпусов текстов, может существенно продвинуть решениеэтих проблем.Список использованной литературы1. Baeza-Yates, R.

and Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley,1999.2. Bateman, J., Zock M. Natural Language Generation. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р.304.3. Biber, D., Conrad S., and Reppen D. Corpus Linguistics. Investigating LanguageStructure and Use. Cambridge University Press, Cambridge, 1998.4. Bolshakov, I.A., Gelbukh A. Computational Linguistics. Models, Resources,Applications.

Mexico, IPN, 2004.5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical MachineTranslation. // Computational Linguistics, Vol. 19(2): 263-311. 1993.6. Carroll J R. Parsing. In: The Oxford Handbook of Computational Linguistics. Mitkov R.(ed.). Oxford University Press, 2003, р. 233-248.7.

Chomsky, N. Syntactic Structures. The Hague: Mouton, 1957.8. Grishman R. Information extraction. In: The Oxford Handbook of ComputationalLinguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 545-559.9. Harabagiu, S., Moldovan D. Question Answering. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 560-582.10.

Hearst, M.A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.)WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, p.131-151.11. Hirst, G. Ontology and the Lexicon. In.: Handbook on Ontologies in NiformationSystems. Berlin, Springer, 2003.12. Jacquemin C., Bourigault D. Term extraction and automatic indexing // Mitkov R.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее