Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 33
Текст из файла (страница 33)
Обычно эти системы поддерживают изучениеотдельных аспектов языка (морфологии, лексики, синтаксиса) и опираются насоответствующие модели, например, модель морфологии.Что касается изучения лексики, то для этого также используются электронныеаналоги текстовых словарей (в которых по сути нет языковых моделей). Однакоразрабатываются также многофукциональные компьютерные словари, не имеющиетекстовых аналогов и ориентированные на широкий круг пользователей – например,словарь русских словосочетаний Кросслексика [28]. Эта система охватывает широкийкруг лексики – слов и допустимых их словосочетаний, а также предоставляет справкипо моделям управления слов, синонимам, антонимам и другим смысловымкоррелятам слов, что явно полезно не только для тех, кто изучает русский язык, но иносителям языка.Следующее прикладное направление, которое стоит упомянуть – этоавтоматическая генерация текстов на ЕЯ [2].
В принципе, эту задачу можно считатьподзадачей уже рассмотренной выше задачи машинного перевода, однако в рамкахнаправления есть ряд специфических задач. Такой задачей является многоязыковаягенерация, т.е. автоматическое построение на нескольких языках специальныхдокументов – патентных формул, инструкций по эксплуатации технических изделийили программных систем, исходя из их спецификации на формальном языке. Длярешения этой задачи применяются довольно подробные модели языка.Все более актуальная прикладная задача, часто относимая к направлению TextMining – это извлечение информации из текстов, или Information Extraction [8], чтотребуется при решении задач экономической и производственной аналитики.
Дляэтого осуществляется выделение в тесте ЕЯ определенных объектов – именованныхсущностей (имен, персоналий, географических названий), их отношений и связанныхс ними событий. Как правило, это реализуется на основе частичного синтаксическогоанализа текста, позволяющего выполнять обработку потоков новостей отинформационных агентств. Поскольку задача достаточно сложна не толькотеоретически, но и технологически, создание значимых систем извлеченияинформации из текстов осуществимо в рамках коммерческих компаний [44].К направлению Text Mining относятся и две другие близкие задачи – выделениемнений (Opinion Mining) и оценка тональности текстов (Sentiment Analysis),привлекающие внимание все большего числа исследователей.
В первой задачепроисходит поиск (в блогах, форумах, интернет-магазинах и пр.) мненийпользователей о товарах и других объектах, а также производится анализ этихмнений. Вторая задача близка к классической задаче контент-анализа текстовмассовой коммуникации, в ней оценивается общая тональность высказываний.Еще одно приложение, которое стоит упомянуть – поддержка диалога спользователем на ЕЯ в рамках какой-либо информационной программной системы.Наиболее часто эта задача решалась для специализированных баз данных – в этомслучае язык запросов достаточно ограничен (лексически и грамматически), чтопозволяет использовать упрощенные модели языка. Запросы к базе,102сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняетсяпоиск нужной информации и строится соответствующая фраза ответа.В качестве последнего в нашем перечне приложений КЛ (но не по важности)укажем распознавание и синтез звучащей речи.
Неизбежно возникающие в этихзадачах ошибки распознавания исправляются автоматическими методами на основесловарей и лингвистических знаний о морфологии. В этой области также применятсямашинное обучение.Глава 7.ЗаключениеКомпьютерная лингвистика демонстрирует вполне осязаемые результаты вразличных приложениях по автоматической обработке текстов на ЕЯ.
Дальнейшее ееразвитие зависит как от появления новых приложений, так и независимой разработкиразличных моделей языка, в которых пока не решены многие проблемы. Наиболеепроработанными являются модели морфологического анализа и синтеза. Моделисинтаксиса еще не доведены до уровня устойчиво и эффективно работающихмодулей, несмотря на большое число предложенных формализмов и методов. Ещеменее изучены и формализованы модели уровня семантики и прагматики, хотяавтоматическая обработка дискурса уже требуется в ряде приложений.
Отметим, чтоуже существующие инструменты самой компьютерной лингвистики, использованиемашинного обучения и корпусов текстов, может существенно продвинуть решениеэтих проблем.Список использованной литературы1. Baeza-Yates, R. and Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley,1999.2. Bateman, J., Zock M.
Natural Language Generation. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р.304.3. Biber, D., Conrad S., and Reppen D. Corpus Linguistics. Investigating LanguageStructure and Use. Cambridge University Press, Cambridge, 1998.4. Bolshakov, I.A., Gelbukh A. Computational Linguistics.
Models, Resources,Applications. Mexico, IPN, 2004.5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical MachineTranslation. // Computational Linguistics, Vol. 19(2): 263-311. 1993.6. Carroll J R. Parsing. In: The Oxford Handbook of Computational Linguistics. Mitkov R.(ed.). Oxford University Press, 2003, р. 233-248.7. Chomsky, N. Syntactic Structures. The Hague: Mouton, 1957.8. Grishman R.
Information extraction. In: The Oxford Handbook of ComputationalLinguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 545-559.9. Harabagiu, S., Moldovan D. Question Answering. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 560-582.10. Hearst, M.A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.)WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, p.131-151.11. Hirst, G. Ontology and the Lexicon.
In.: Handbook on Ontologies in NiformationSystems. Berlin, Springer, 2003.12. Jacquemin C., Bourigault D. Term extraction and automatic indexing // Mitkov R. (ed.):Handbook of Computational Linguistics. Oxford University Press, 2003. р. 599-615.10313. Kilgarriff, A., G. Grefenstette. Introduction to the Special Issue on the Web as Corpus.Computational linguistics, V.
29, No. 3, 2003, p. 333-347.14. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing.MIT Press, 1999.15. Matsumoto Y. Lexical Knowledge Acquisition. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 395-413.16. The Oxford Handbook on Computational Linguistics. R.
Mitkov (Ed.). OxfordUniversity Press, 2005.17. Oakes, M., Paice C. D. Term extraction for automatic abstracting. Recent Advances inComputational Terminology. D. Bourigault, C. Jacquemin and M. L'Homme (Eds),John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.18. Pedersen, T. A decision tree of bigrams is an accurate predictor of word senses. Proc. 2ndAnnual Meeting of NAC ACL, Pittsburgh, PA, 2001, p. 79-86.19.
Samuelsson C. Statistical Methods. In: The Oxford Handbook of ComputationalLinguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 358-375.20. Salton, G. Automatic Text Processing: the Transformation, Analysis, and Retrieval ofInformation by Computer. Reading, MA: Addison-Wesley, 1988.21. Somers, H. Machine Translation: Latest Developments. In: The Oxford Handbook ofComputational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 512-528.22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer,1999.
385 p.23. Woods W.A. Transition Network Grammers forNatural language Analysis/Communications of the ACM, V. 13, 1970, N 10, p. 591-606.24. Word Net: an Electronic Lexical Database. /Edit. by Christiane Fellbaum. Cambridge,MIT Press, 1998.25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic CollocationSuggestion in Academic Writing // Proceedings of the ACL 2010 Conference ShortPapers, 2010.26. Апресян Ю.Д.
и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука,1989.27. Барсегян А.А. и др. Технологии анализа данных: Data Mining, Visual Mining, TextMining, OLAP – 2-e изд. – СПб.: БХВ-Петербург, 2008.28. Большаков, И.А. КроссЛексика – большой электронный словарь сочетаний исмысловых связей русских слов. // Комп.
лингвистика и интеллект. технологии:Труды межд. Конф. «Диалог 2009». Вып. 8 (15) М.: РГГУ, 2009, с.. 45-50.29. Большакова Е.И.,Большаков И.А.Автоматическоеобнаружениеиавтоматизированное исправление русских малапропизмов // НТИ. Сер. 2, № 5,2007, с.27-40.30. Ван Дейк Т.А., Кинч В. Стратегия понимания связного текста.// Новое взарубежной лингвистике. Вып. XXIII– М., Прогресс, 1988, с. 153-211.31. Васильев В. Г., Кривенко М.
П. Методы автоматизированной обработки текстов. –М.: ИПИ РАН, 2008.32. Виноград Т. Программа, понимающая естественный язык – М., мир, 1976.33. ГладкийА.В.Синтаксическиеструктурыестественногоязыкававтоматизированных системах общения. – М., Наука, 1985.34. Гусев, В.Д., Саломатина Н.В. Электронный словарь паронимов: версия 2. // НТИ,Сер. 2, № 7, 2001, с.
26-33.35. Захаров В.П. Веб-пространство как языковой корпус// Компьютерная лингвистика104и интеллектуальные технологии: Труды Межд. конференции Диалог ‘2005 / Подред. И.М. Кобозевой, А.С. Нариньяни, В.П.Селегея – М.: Наука, 2005, с. 166-171.36. Касевич В.Б. Элементы общей лингвистики. — М., Наука, 1977.37. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы:Учебное пособие – М.: Академия, 2006.38. Лингвистический энциклопедический словарь /Под ред. В.