Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 13
Описание файла
PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр PDF-файла онлайн
Текст 13 страницы из PDF
Материал конференции «Корпусная лингвистика»лексемные биграммыРУССКИЙ ЯЗЫКсловоформные биграммырусского языкарусский языккорпус текстовкорпуса текстовнационального корпусанациональный корпусчасти речичастей речианглийского языкакорпус русскогокорпуса русскогомашинного переводасемантической разметкипредметной областилексических единицпараллельных текстовКОРПУС ТЕКСТНАЦИОНАЛЬНЫЙ КОРПУСЧАСТЬ РЕЧЬАНГЛИЙСКИЙ ЯЗЫККОРПУС РУССКИЙМАШИННЫЙ ПЕРЕВОДСЕМАНТИЧЕСКИЙ РАЗМЕТКАПРЕДМЕТНЫЙ ОБЛАСТЬЛЕКСИЧЕСКИЙ ЕДИНИЦАПАРАЛЛЕЛЬНЫЙ ТЕКСТСопоставление списков терминологических биграмм, общих для всех (илиподавляющегобольшинства)текстов(t-score-биграмм-коллокаций)рассматриваемых коллекций, приводит нас к следующим выводам:1. Тематика конференции Диалог настолько широка, что на основании общихтерминологических сочетаний мы могли бы сделать вывод лишь о том, что, какправило, в качестве основного материала исследований выступает русский язык, атакже, что в текстах коллекции уделяется внимание предметной области.2.
Представляемые на «Корпусной конференции» исследования чаще всегоориентированы на русский язык или английский язык. В качестве материала (и/илиобъекта исследования) в большинстве работ выступает корпус текстов, чтолексическим единицам (частям речи, семантической разметке лексических единиц)уделяется особое внимание. Что многие исследования ориентированы на решениевопросов машинного перевода и связаны с текстами заранее заданной предметнойобласти.
Таким образом, наши выводы согласуются с традиционной тематикойкорпусных исследований, что отражено в наборе «общих» терминологическихсочетаний.Причем именно биграммы (а не триграммы и далее n-граммы) дают на нашемматериале наиболее информационно насыщенную картину. Впрочем, возможно, чтоодна из причин этого лежит в сравнительно небольшом корпусе материаловконференции «Корпусная лингвистика (см. раздел 2.1).По-видимому, чем выше однородность коллекции, тем более информативнымокажется набор подобных t-score-биграмм-коллокаций для описания коллекции какцелостногоинформационногопотока(обзорматематическихмоделейинформационных потоков см., напр., в [124], о некоторых методах работы синформационными потоками в русле лингвистики текста см. в [87]).Вместо заключенияМы постарались обсудить типы коллокаций и конструкций, а главное – разныелингвистические типы шкал «от слова к коллокации и от коллокации к конструкции»,которые формируются на основании (1) соотнесенности единицы с «инвентарностью(словарем) vs.
конструктивностью (грамматикой)» и (2) с их функционированием втексте/коллекции, т.е. с «номинативностью vs. предикативностью». Каждая из этихшкал характеризуется нечеткими границами явно выраженной динамической42природы. Положения данной классификации представляются набором гипотез, содной стороны, уже верифицированных, а с другой – требующих дальнейшейверификации с учетом все большего числа параметров (прежде всего, контекстноориентированных параметров). В последнем параграфе четвертой главы проэксперимент на службе анализа текстов мы обсудим возможность введениядополнительных шкал, позволяющих «подключить» интуицию носителей языка(информантов и/или экспертов) и оценить степень целостности интересующих насединиц.Наборы рассматриваемых единиц (коллокаций и/или конструкций)характеризуют интересующие нас коллекции, эти наборы можно назвать сверткамиколлекций по заданным принципам.
Именно поэтому мы в своих исследованиях (идаже в примерах) довольно широко варьируем коллекции: с точки зренияпредставленного функционального стиля, а чаще – гораздо более дробно: с точкизрения тематики, стилевых характеристик (обычно гораздо более точных, чем классфункционального стиля), степени однородности по каждому из этих признаков и т.д.Один из заданных принципов – это статистическая мера и методика обработкиполученных списков.
Главный заданный принцип заключается в подборе коллекции.Сначала подбирая, а потом описывая коллекцию и/или набор коллекций – черезсвертку – мы обеспечиваем адекватный контекст для решения задач вычислительногоэксперимента: контекст коллекции (а в результате отчасти и текстовый контекст).43Глава 3.Семантическая и информационная структуры прианализе текстов и/или коллекций.Основные элементы этих структурВ третьей главе мы рассмотрим теоретические подходы и приведем примеры,которые были получены в ходе наших экспериментов по изучению текстов, преждевсего, экспериментов с информантами. Как уже было сказано, ключевым для главыявляется представление о вариативности и неединственности структур текста,извлекаемых при его восприятии (анализе).
Часть экспериментов с информантамипредставляла собой восприятие звучащего текста, однако некоторые результатыэтих экспериментов могут быть небезынтересны для наших лекций. Основннойакцент в этой главе делается на исследовании текста.§ 3.1.Текст. Общие положенияОпределим основные характеристики текста, существенные для исследованиятекста в контексте речевой коммуникации (порождения и восприятия речи):o развернутость, или «последовательность знаковых единиц» (например, [131]);o отдельнооформленность [130];o связность и цельность (например, [130]).Развернутость соотносится с вопросом о размерности и уровне иерархии такойединицы, как текст, структурными составляющими которого являются слова,синтагмы, фразы, сверхфразовые единства.Для нас текст – основная конструктивная единица языка и, как уже былосказано, базовый лингвистический контекст, в котором реализуются единицы болеенизких уровней (слово, коллокация, синтагма, высказывание (фраза), сверхфразовоеединство и композиционный фрагмент).
Конструктивность и базовость текстакажется очевидной, однако в очередной раз сошлемся на краткую и авторитетнуюформулировку В.Б.Касевича: «будучи целостной единицей, текст обнаруживает поотношению к своим структурным компонентам (сверхфразовым единствам/абзацам,высказываниям, тем более – словам) свойство неаддитивности: характеристикитекста невыводимы полностью из признаков его составляющих; в первую очередь,передаваемое текстом значение несводимо к сумме значений компонентов» [114].Отдельнооформленность предполагает, с одной стороны, наличие сигналовначала и конца, а с другой – представление о фреймах: знании носителей языка оструктуре текстов разных функциональных стилей (текстовой и коммуникативнойкомпетенции) [153].
Выделяют «внешнюю» и «внутреннюю» (смысловую) связность.И. Беллерт определяет связный текст как «такую последовательность высказыванийS1,…,Sn, в которой семантическая интерпретация высказывания Si (при 2<i<n) зависитот интерпретации высказываний в последовательности S1,…,Si-1» [90: 172]. Можносказать, что в основе связности и цельности текста – взаимосвязанность ивзаимообусловленность его структурных составляющих.
Связность реализуется какпространственная (контактно расположенные структурные составляющие),«логическая» и ассоциативная (см., например, [119]).Цельность и связность текста являются важными, но сложно формализуемымихарактеристиками текста. Цельность обычно определяют как наличие единой темы(предметной области, набора ситуаций). Свойство связности (когерентности)44относится к структурной организации текста. При этом различают смысловую(тематическую) и синтаксическую связность (см., например, [130]).
Средиформализуемых средств смысловой связности рассматривают, например, связующиеслова (союзы, слова с темпоральными и причинно-следственными значениями) имеханизмы референции и кореференции (повторяющиеся в тексте слова, другие видыповторной номинации). Синтаксическая связность текста – и высказываний какструктурных составляющих текста – выражается, прежде всего, через семантикосинтаксическую структурированность этих единиц.Исследователи связности текста пользуются разной терминологией.
Впоследних исследованиях все чаще разделяют когезию и когерентность (например,см. [120]). Когезия – связь элементов текста, при которых интерепретация однихэлементов зависит от других [120]. Когерентность соотносима с прагматическойстороной, она выводит нас за пределы текста в коммуникативную ситуацию испирается на базу знаний адресата. Когерентность в наибольшей степени связана спрезумпцией осмысленности и реализаций (смысловых) ожиданий адресата.
Однако вреальных моделях понимания текста носителем языка четко разграничить эти дваразных вида связности бывает невозможно29.В процедурах речевой деятельности цельность и связность реализуются черезмеханизмы контекстной предсказуемости. Естественно допустить, что если мывозьмем в пределах текста произвольную точку, отвечающую границе между некимиязыковыми единицами, то характеристики ее правого непосредственного «соседа»будут далеко не случайными. По-видимому, в дополнение к другим структурнымхарактеристикам текст может быть описан как взаимодействие метафорическипонимаемых «кривых сил связей между словами» – или между более сложнымиединицами текста, где некоторые позиции будут оказывать сильное воздействие нато, что может появиться справа, а другие будут предсказывать своихнепосредственных «соседей» достаточно слабо.
Множественность таких кривыхопределяется множеством признаков и параметров, по которым осуществляетсясвязывание. Природа этих связей/предсказуемостей может быть различногопроисхождения:(1) связаннойслексическойисемантическойсочетаемостью/несочетаемостью, (2) определяющейся правилами синтаксиса,(3) соотносимой с информационной значимостью, (4) задаваемой коммуникативнойситуацией вообще и задачей коммуникации в частности.