Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 33

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 33 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 332020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 33)

Обычно эти системы поддерживают изучениеотдельных аспектов языка (морфологии, лексики, синтаксиса) и опираются насоответствующие модели, например, модель морфологии.Что касается изучения лексики, то для этого также используются электронныеаналоги текстовых словарей (в которых по сути нет языковых моделей). Однакоразрабатываются также многофукциональные компьютерные словари, не имеющиетекстовых аналогов и ориентированные на широкий круг пользователей – например,словарь русских словосочетаний Кросслексика [28]. Эта система охватывает широкийкруг лексики – слов и допустимых их словосочетаний, а также предоставляет справкипо моделям управления слов, синонимам, антонимам и другим смысловымкоррелятам слов, что явно полезно не только для тех, кто изучает русский язык, но иносителям языка.Следующее прикладное направление, которое стоит упомянуть – этоавтоматическая генерация текстов на ЕЯ [2].

В принципе, эту задачу можно считатьподзадачей уже рассмотренной выше задачи машинного перевода, однако в рамкахнаправления есть ряд специфических задач. Такой задачей является многоязыковаягенерация, т.е. автоматическое построение на нескольких языках специальныхдокументов – патентных формул, инструкций по эксплуатации технических изделийили программных систем, исходя из их спецификации на формальном языке. Длярешения этой задачи применяются довольно подробные модели языка.Все более актуальная прикладная задача, часто относимая к направлению TextMining – это извлечение информации из текстов, или Information Extraction [8], чтотребуется при решении задач экономической и производственной аналитики.

Дляэтого осуществляется выделение в тесте ЕЯ определенных объектов – именованныхсущностей (имен, персоналий, географических названий), их отношений и связанныхс ними событий. Как правило, это реализуется на основе частичного синтаксическогоанализа текста, позволяющего выполнять обработку потоков новостей отинформационных агентств. Поскольку задача достаточно сложна не толькотеоретически, но и технологически, создание значимых систем извлеченияинформации из текстов осуществимо в рамках коммерческих компаний [44].К направлению Text Mining относятся и две другие близкие задачи – выделениемнений (Opinion Mining) и оценка тональности текстов (Sentiment Analysis),привлекающие внимание все большего числа исследователей.

В первой задачепроисходит поиск (в блогах, форумах, интернет-магазинах и пр.) мненийпользователей о товарах и других объектах, а также производится анализ этихмнений. Вторая задача близка к классической задаче контент-анализа текстовмассовой коммуникации, в ней оценивается общая тональность высказываний.Еще одно приложение, которое стоит упомянуть – поддержка диалога спользователем на ЕЯ в рамках какой-либо информационной программной системы.Наиболее часто эта задача решалась для специализированных баз данных – в этомслучае язык запросов достаточно ограничен (лексически и грамматически), чтопозволяет использовать упрощенные модели языка. Запросы к базе,102сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняетсяпоиск нужной информации и строится соответствующая фраза ответа.В качестве последнего в нашем перечне приложений КЛ (но не по важности)укажем распознавание и синтез звучащей речи.

Неизбежно возникающие в этихзадачах ошибки распознавания исправляются автоматическими методами на основесловарей и лингвистических знаний о морфологии. В этой области также применятсямашинное обучение.Глава 7.ЗаключениеКомпьютерная лингвистика демонстрирует вполне осязаемые результаты вразличных приложениях по автоматической обработке текстов на ЕЯ.

Дальнейшее ееразвитие зависит как от появления новых приложений, так и независимой разработкиразличных моделей языка, в которых пока не решены многие проблемы. Наиболеепроработанными являются модели морфологического анализа и синтеза. Моделисинтаксиса еще не доведены до уровня устойчиво и эффективно работающихмодулей, несмотря на большое число предложенных формализмов и методов. Ещеменее изучены и формализованы модели уровня семантики и прагматики, хотяавтоматическая обработка дискурса уже требуется в ряде приложений.

Отметим, чтоуже существующие инструменты самой компьютерной лингвистики, использованиемашинного обучения и корпусов текстов, может существенно продвинуть решениеэтих проблем.Список использованной литературы1. Baeza-Yates, R. and Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley,1999.2. Bateman, J., Zock M.

Natural Language Generation. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р.304.3. Biber, D., Conrad S., and Reppen D. Corpus Linguistics. Investigating LanguageStructure and Use. Cambridge University Press, Cambridge, 1998.4. Bolshakov, I.A., Gelbukh A. Computational Linguistics.

Models, Resources,Applications. Mexico, IPN, 2004.5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical MachineTranslation. // Computational Linguistics, Vol. 19(2): 263-311. 1993.6. Carroll J R. Parsing. In: The Oxford Handbook of Computational Linguistics. Mitkov R.(ed.). Oxford University Press, 2003, р. 233-248.7. Chomsky, N. Syntactic Structures. The Hague: Mouton, 1957.8. Grishman R.

Information extraction. In: The Oxford Handbook of ComputationalLinguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 545-559.9. Harabagiu, S., Moldovan D. Question Answering. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 560-582.10. Hearst, M.A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.)WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, p.131-151.11. Hirst, G. Ontology and the Lexicon.

In.: Handbook on Ontologies in NiformationSystems. Berlin, Springer, 2003.12. Jacquemin C., Bourigault D. Term extraction and automatic indexing // Mitkov R. (ed.):Handbook of Computational Linguistics. Oxford University Press, 2003. р. 599-615.10313. Kilgarriff, A., G. Grefenstette. Introduction to the Special Issue on the Web as Corpus.Computational linguistics, V.

29, No. 3, 2003, p. 333-347.14. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing.MIT Press, 1999.15. Matsumoto Y. Lexical Knowledge Acquisition. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 395-413.16. The Oxford Handbook on Computational Linguistics. R.

Mitkov (Ed.). OxfordUniversity Press, 2005.17. Oakes, M., Paice C. D. Term extraction for automatic abstracting. Recent Advances inComputational Terminology. D. Bourigault, C. Jacquemin and M. L'Homme (Eds),John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.18. Pedersen, T. A decision tree of bigrams is an accurate predictor of word senses. Proc. 2ndAnnual Meeting of NAC ACL, Pittsburgh, PA, 2001, p. 79-86.19.

Samuelsson C. Statistical Methods. In: The Oxford Handbook of ComputationalLinguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 358-375.20. Salton, G. Automatic Text Processing: the Transformation, Analysis, and Retrieval ofInformation by Computer. Reading, MA: Addison-Wesley, 1988.21. Somers, H. Machine Translation: Latest Developments. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 512-528.22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer,1999.

385 p.23. Woods W.A. Transition Network Grammers forNatural language Analysis/Communications of the ACM, V. 13, 1970, N 10, p. 591-606.24. Word Net: an Electronic Lexical Database. /Edit. by Christiane Fellbaum. Cambridge,MIT Press, 1998.25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic CollocationSuggestion in Academic Writing // Proceedings of the ACL 2010 Conference ShortPapers, 2010.26. Апресян Ю.Д.

и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука,1989.27. Барсегян А.А. и др. Технологии анализа данных: Data Mining, Visual Mining, TextMining, OLAP – 2-e изд. – СПб.: БХВ-Петербург, 2008.28. Большаков, И.А. КроссЛексика – большой электронный словарь сочетаний исмысловых связей русских слов. // Комп.

лингвистика и интеллект. технологии:Труды межд. Конф. «Диалог 2009». Вып. 8 (15) М.: РГГУ, 2009, с.. 45-50.29. Большакова Е.И.,Большаков И.А.Автоматическоеобнаружениеиавтоматизированное исправление русских малапропизмов // НТИ. Сер. 2, № 5,2007, с.27-40.30. Ван Дейк Т.А., Кинч В. Стратегия понимания связного текста.// Новое взарубежной лингвистике. Вып. XXIII– М., Прогресс, 1988, с. 153-211.31. Васильев В. Г., Кривенко М.

П. Методы автоматизированной обработки текстов. –М.: ИПИ РАН, 2008.32. Виноград Т. Программа, понимающая естественный язык – М., мир, 1976.33. ГладкийА.В.Синтаксическиеструктурыестественногоязыкававтоматизированных системах общения. – М., Наука, 1985.34. Гусев, В.Д., Саломатина Н.В. Электронный словарь паронимов: версия 2. // НТИ,Сер. 2, № 7, 2001, с.

26-33.35. Захаров В.П. Веб-пространство как языковой корпус// Компьютерная лингвистика104и интеллектуальные технологии: Труды Межд. конференции Диалог ‘2005 / Подред. И.М. Кобозевой, А.С. Нариньяни, В.П.Селегея – М.: Наука, 2005, с. 166-171.36. Касевич В.Б. Элементы общей лингвистики. — М., Наука, 1977.37. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы:Учебное пособие – М.: Академия, 2006.38. Лингвистический энциклопедический словарь /Под ред. В.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.