Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 29
Текст из файла (страница 29)
2011 С. 206-209.163. Савина А.В., Ягунова Е.В. Исследование коллокаций с помощью экспериментов синформантами // Труды международной конференции “Корпусная лингвистика – 2011” – СПб., 2011(в печати)164. Янко Т. Е. Коммуникативные стратегии русской речи – М., 200189ЧАСТЬ II.КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: МЕТОДЫ,РЕСУРСЫ, ПРИЛОЖЕНИЯ(БОЛЬШАКОВА Е.И.)Глава 1.ВведениеТермин компьютерная лингвистика (КЛ) в последние годы все чаще встречаетсяв связи с разработкой различных прикладных программных систем, в том числе –коммерческих программных продуктов. Связано это бурным ростом в обществетекстовой информации, в том числе в сети Интернет, и необходимостьюавтоматической обработки текстов на естественном языке (ЕЯ). Указанноеобстоятельство стимулирует развитие компьютерной лингвистики как области наукии разработку новых информационных и лингвистических технологий.В рамках компьютерной лингвистики, существующей уже более 50 лет (иизвестной также под названиями машинная лингвистика, автоматическаяобработка текстов на ЕЯ) предложено много перспективных методов и идей, нодалеко не все они еще нашли свое выражение в программных продуктах,используемых на практике.
Наша цель – охарактеризовать специфику этой областиисследований, сформулировать ее основные задачи, указать ее связи с другиминауками, дать краткий обзор основных подходов и используемых ресурсов, а такжекратко охарактеризовать существующие приложения КЛ. Для более подробногоознакомления с этими вопросам можно рекомендовать книги [4, 16, 37].Глава 2.Задачи компьютерной лингвистикиКомпьютерная лингвистика возникла на стыке таких наук, как лингвистика,математика, информатика (Computer Science) и искусственный интеллект. Истоки КЛвосходят к исследованиям известного американского ученого Н. Хомского в областиформализации структуры естественного языка [7]; ее развитие опирается нарезультаты в области общей лингвистики (языкознания) [36].
Языкознание изучаетобщие законы естественного языка – его структуру и функционирование, и включаеттакие области:Фонология – изучает звуки речи и правила их соединения при формировании речи;Морфология – занимается внутренней структурой и внешней формой слов речи,включая части речи и их категории;Синтаксис – изучает структуру предложений, правила сочетаемости и порядкаследования слов в предложении, а также общие его свойства как единицы языка.Семантика и прагматика – тесно связанные области: семантика занимаетсясмыслом слов, предложений и других единиц речи, а прагматика – особенностямивыражения этого смысла в связи с конкретными целями общения;Лексикография описывает лексикон конкретного ЕЯ – его отдельные слова и ихграмматические свойства, а также методы создания словарей.Результаты Н. Хомского, полученные на стыке лингвистики и математики,заложили основу для теории формальных языков и грамматик (часто называемыхгенеративными, или порождающими грамматиками).
Эта теория относится ныне кматематической лингвистике и применяется для обработки не столько ЕЯ, ноискусственных языков, в первую очередь – языков программирования. По своемухарактеру это вполне математическая дисциплина.90К математической лингвистике относят также и квантитативную лингвистику,изучающую частотные характеристики языка – слов, их комбинаций, синтаксическихконструкций и т.п., При этом используется математические методы статистики, такчто можно назвать этот раздел науки статистической лингвистикой [14].КЛ тесно связана и с такой междисциплинарной научной областью, какискусственный интеллект (ИИ) [40], в рамках которого разрабатываютсякомпьютерные модели отдельных интеллектуальных функций.
Одна из первыхработающих программ в области ИИ и КЛ – это известная программа Т. Винограда,которая понимала простейшие приказы человека по изменению мира кубиков,сформулированные на ограниченном подмножестве ЕЯ [32]. Отметим, что несмотряна очевидное пересечение исследований в области КЛ и ИИ (поскольку владениеязыком относится к интеллектуальным функциям), ИИ не поглощает всю КЛ,поскольку она имеет свой теоретический базис и методологию. Общим для указанныхнаук является компьютерное моделирование как основной метод и итоговая цельисследований.Таким образом, задача КЛ может быть сформулирована как разработкакомпьютерных программ для автоматической обработки текстов на ЕЯ. И хотя приэтом обработка понимается достаточно широко, далеко не все виды обработки могутбытьназванылингвистическими,асоответствующиепроцессоры–лингвистическими.
Лингвистический процессор должен использовать ту или инуюформальную модель языка (пусть даже очень простую), а значит, быть так или иначеязыково-зависимым (т.е. зависеть от конкретного ЕЯ). Так, например, текстовыйредактор Microsoft Word может быть назван лингвистическим (хотя бы потому, чтоиспользует словари), а редактор NotePad – нет.Сложность задач КЛ связана с тем, что ЕЯ – сложная многоуровневая системазнаков, возникшая для обмена информацией между людьми, выработанная в процессепрактической деятельности человека, и постоянно изменяющаяся в связи с этойдеятельностью [36, 38]. Другая сложность разработки методов КЛ (и сложностьизучения ЕЯ в рамках языкознания) связана с многообразием естественных языков,существенными отличиями их лексики, морфологии, синтаксиса, разные языкипредоставляют разные способы выражения одного и того же смысла.Глава 3.Особенности системы ЕЯ: уровни и связиОбъектом лингвистических процессоров являются тексты ЕЯ.
Под текстамипонимаются любые образцы речи – устной и письменной, любого жанра, но восновном КЛ рассматривает письменные тексты. Текст имеет одномерную, линейнуюструктуру, а также несет определенный смысл, язык же выступает как средствопреобразования передаваемого смысла в тексты (синтез речи) и наоборот (анализречи). Текст составлен из более мелких единиц, и возможно несколько способовразбиения (членения) текста на единицы, относящихся к разным уровням.Общепризнано существование следующих уровней [36, 38]:• уровень предложений (высказываний) – синтаксический уровень;• уровень слов (словоформ – слов в определенной грамматической форме,например, столом, дружбы) – морфологический уровень;• уровень фонем (отдельных звуков, с помощью которых формируются иразличаются слова) – фонологический уровень.91Фонологический уровень выделяется для устной речи, для письменных текстовв языках с алфавитным способом записи (в частности, в европейских языках) онсоответствует уровню символов (т.к.
фонемы примерно соответствуют буквамалфавита).Уровни, по сути, есть подсистемы общей системы ЕЯ (взаимосвязанные, но вдостаточной степени автономные), и в них самих могут быть выделены подсистемы[36]. Так, морфологический уровень включает также подуровень морфем. Морфема –это минимальная значащая часть слова (корень, приставка, суффикс, окончание,постфикс).Отметим, что единицы всех перечисленных уровней, кроме фонологического,являются знаками в смысле семиотики (общей науки о знаках), поскольку имеютзначение (а отдельно взятая фонема или буква смысла не имеет).
Иерархия уровнейпроявляется в том, что более высокий уровень в большой степени обуславливаеторганизацию нижележащего уровня – так, синтаксическая структура предложения взначительной мере определяет, какие должны быть выбраны словоформы.Вопрос о количестве уровней и их перечне до сих пор остается открытым влингвистике.
Как отдельный может быть выделен лексический уровень – уровеньлексем. Лексема – это слово как совокупность всех его конкретных грамматическихформ (к примеру, лексему стол образуют формы стол, стола, столу, столом). Втексте встречаются словоформы (лексемы в определенной форме), а в словаре ЕЯ –лексемы, точнее, в словаре записывается каноническая словоформа лексемы,называемая также леммой (например, для существительных это форма именительногопадежа единственного числа: стол).Относительно синтаксического уровня может быть выделен подуровеньсловосочетаний – синтаксически связанных групп слов (купил книгу, новый год), инадуровень сложного синтаксического целого, которому примерно соответствуетабзац текста.