Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 5
Описание файла
PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
It belongs to the cognitivesciences and overlaps with the field of artificial intelligence (AI), abranch of computer science aiming at computational models ofhuman cognition. Computational linguistics has applied andtheoretical components.Соколова Е.Г.автор словарной статьиНужны ли комментарии? Как видите, то, что в англоязычной традициисвязываетиобъединяет«компьютернуюлингвистику»вединуюмеждисциплинарную область, в отечественной науке часто оказываетсяпредставленным на двух противоположных полюсах. Поэтому нам всегда приходится«во первых строках» определить, что мы (лично, в данной работе и т.д.) понимаемпод «компьютерной лингвистикой».
Конечно, в наших лекциях мы будем склонятьсяк «определению 1». Особо обращаю внимание читателя на то, что «Computationallinguistics has applied and theoretical components», именно «вычислительная» теория(модель) является для меня ведущим аспектом, а прикладной аспект в идеальномслучае является естественным результатом этой модели.Когда и зачем нужны лингвисты? Лингвисты несколько лучше представляютсебе «физическую» природу объекта моделирования. Языковая система уникальна втом смысле, что она полностью не починяется законам ни естественнонаучного, нигуманитарного познания.
Язык многие рассматривают как творение человека, но это всущественной степени заблуждение. Пожалуй, так никогда не скажет лингвист. Язык15– объект принципиально особого свойства. Он сосуществует в природе совместно счеловеком (ср. разнообразные варианты рассмотрения гипотезы лингвистическойотносительности, т.е. степени взаимообусловленности человека, языка и социума(цивилизации).
Для моделирования языковой системы используются инструментымоделирования, пришедшие из физики, из экономики (и/или социологии), изфизиологии, из философии и семиотики (теории о знаках). Лингвистика – хорошаялингвистика – должна уметь оценить рассматриваемый объект во всех этихплоскостях (быть междисциплинарной), конечно, если лингвистика – действительнонаука о языке.
Вернее сказать, это наука о языке (языковой системе) и тексте, формахи способах функционирования этой системы. Может ли на начальном этапе – этапепостановки задачи – компьютерная лингвистика обойтись без лингвиста? Вряд ли.Может ли хотя бы на начальном этапе лингвист обойтись без инструментариясмежных дисциплин? Безусловно, нет.Возможны ли чисто вычислительные методики оценки эффективности работымодели (в конкретной ее реализации для реализации конкретных задач в соответствиис требованиями технического задания)? На наш взгляд, скорее «нет», чем «да». Этиметодики могут дать результаты экспресс-анализа. Однако окончательное слово, нанаш взгляд, остается за лингвистом: лингвистическим анализом результатов илингвистическим экспериментом.
Забегая вперед, зададимся вопросом: лишает лилингвиста работы все большее применение методов статистического анализа? И сразуже ответим: нет. В современном информационном мире лингвистика расширяетсферу своих интересов. Статистические закономерности функционирования языка – итекста – и раньше были (должны были быть) предметом лингвистики. Сейчас онистановятся все более и более значимыми, также как и анализ тех единиц, которыевыделяются на основании этих статистических закономерностей. Наряду сединичными текстами, которыми и раньше занимались лингвисты, объектомлингвистики становятся и коллекции текстов, и информационные потоки как объектынового информационного пространства (см. подробнее главу 2 и 4).Попробую сформулировать свое собственное ощущение от измененияпарадигмы лингвистики, во всяком случае – компьютерной лингвистики7:- изменился главный объект исследования, перестроилась перспектива –компьютерная лингвистика могла (должна) была поставить во главу углаисследование информационных объектов, как минимум, текстов;- компьютернаялингвистикаоказаласьмаксимальновключеннойвэкспериментальную парадигму;- компьютерная лингвистика стала максимально междисциплинарной;- компьютерная лингвистика стала предъявлять повышенные требования к знаниямв области математического моделирования, теории сложных систем ипсихофизиологии (обработке информации у человека);- у компьютерной лингвистики появились новые объекты изучения (коллекции,кластеры и т.д.) и новые экспериментальные возможности (возможностисовременных информационных технологий).Это произошло по следам Круглого стола по проблемам автоматического извлечения лингвистическойинформации («Лингвистика без лингвистов?»).
Вед. Наталья Лукашевич на конференции «Диалог-2011»http://www.dialog-21.ru/dialog2011/materials.asp?id=159065, во время которого я вдруг почувствовала себя непрототипическим лингвистом и захотела дополнительно сформулировать свои представления о «современномлингвисте».716Глава 2.Слово — коллокация – синтаксические конструкции –текст. Единица анализа и контекст.Во второй и третьей и четвертой главах мы рассмотрим не только общиеподходы, но приведем конкретные примеры и те данные, которые были получены входе наших экспериментов с информантами и/или вычислительных экспериментов.Ключевым для этих глав является представление о вариативности инеединственности. Каждый текст (и шире – информационный лингвистическийобъект) обладает неединственной структурой. В зависимости от задачи анализа(человеком и/или автоматом) должна выбираться (и далее – извлекаться)требуемая структура.
Вариативность (и сам по себе набор вариантов) всущественной степени зависят от тех параметров, которые мы уже началиобсуждать в первой главе: функционального стиля, жанра (подстиля), предметнойобласти и т.д.§ 2.1.Инвентарные и конструктивные единицы. Понятие «текущегословаря»Основными вопросами, рассматриваемыми в этом параграфе, является двавопросаo об единицах анализа текста;o о понятии «текущего словаря», учитывающего максимальную подстройку подособенности конкретного текста (в дальнейшем – информационноголингвистического объекта).В качестве единицы анализа (письменного) текста в работах используются, преждевсего, такие стандартные единицы, как лексема и словоформа. Когда и какая из этихединиц важнее – решать исследователю, и выбор задается целью и задачами работы.Впрочем, отметим, что роль словоформы как основной единицы восприятия (анализа)текста подтверждается психолингвистическими экспериментами (особенно длязвучащей речи)8.
Для звучащего текста в качестве основной единицы первичногоанализа используются фонетические слова. Однако приведем немного теории.«Положение о слове как единице словаря означает, что именно словампринадлежит роль тех базовых элементов, которые образуют язык как систему. Всамом деле: язык есть система, система — это элементы, связанные определеннымиотношениями (словарь) и функционирующие в соответствии с определеннымиправилами (грамматикой) для выполнения некоторой задачи, и элементамиоказываются, прежде всего, именно слова. Все остальные виды единиц языкасуществуют либо в отвлечении от слов, которое осуществляется непосредственно илиопосредованно (на нескольких уровнях), либо в результате соединения слов поправилам. И лишь слова непосредственно образуют тот инвентарь, который служитисточником всего в языке и речевой деятельности. Именно поэтому, несмотря намногочисленные и постоянно повторяющиеся попытки «упразднить» слово, оноЭкспериментальная проверка гипотезы о том, что основной единицей перцептивного словаря являетсясловоформа, осуществлялась с помощью нескольких серий свободного устно-устного ассоциативногоэксперимента (эксперименты осуществлялись мной [158] и в рамках диссертационного исследования(Бочкарева 2006)).
Стимулами для такого эксперимента служили словоформы (в словарной и несловарныхформах) и предложно-падежные конструкции. Результаты эксперимента дают основания утверждать, что вусловиях дефицита времени испытуемые непосредственно переходили от словоформы как стимула ксловоформе как реакции, минуя дополнительную процедуру лемматизации.817сохраняет свои позиции в языкознании до сегодняшнего дня» [108: 819-820]. Введемвслед за В.Б.Касевичем понятие инвентарных и конструктивных единиц языка [108].Круг проблем возникает для языков наподобие русского с развитой и морфологией инеоднозначностью парадигм. Слово как единица словаря и как единица морфологиине всегда совпадают. Что является инвентарной единицей: словоформа или лексема?Уменьшительные существительные вроде домик, кошечка несомненно являютсясловами по любым морфологическим критериям, но являются ли они инвентарнымиили создаются по мере надобности в процессе порождения текста с помощьюпростейших правил и единиц, принадлежащих грамматике? В общем случае ихследует отнести к конструктивным, но существуют подъязыки (ребенка илиобращенный к ребенку), для которых это правило, возможно, не выполняется.
И,конечно, то, что эти единицы являются конструктивными при порождении текста, незначит, что они выступают в этом же качестве при анализе текста. При построениидинамической языковой системы для анализа текста нам может быть гораздоразумнее (и выгоднее) отнести эти единицы к инвентарным.К инвентарным единицам относят также единицы, размерностью больше, чемслово. Инвентарными единицами являются безусловные фразеологизмы (например,бить баклуши). Однако степень фразеологизации и идиоматизации в языке можетбыть разной.
Поэтому правильнее было бы сказать, что фразеологизмы и идиомырасположены на шкале от инвентарных к конструктивным единицам. Кроме тогобольшую проблему представляют составные слова: «в отличие от» в современномязыке является инвентарной единицей, но состоит из трех пробельных слов(текстоформ). Каждый прикладник на своей шкуре испытал всю сложность инеоднозначность решения задачи разделения на слова (графематического анализа ипарсинга).