Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 13

PDF-файл Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 13 Системы автоматизированного проектирования (САПР) (13021): Книга - 11 семестр (3 семестр магистратуры)Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Системы автоматизированного проектирования2017-12-21СтудИзба

Описание файла

PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.

Просмотр PDF-файла онлайн

Текст 13 страницы из PDF

Материал конференции «Корпусная лингвистика»лексемные биграммыРУССКИЙ ЯЗЫКсловоформные биграммырусского языкарусский языккорпус текстовкорпуса текстовнационального корпусанациональный корпусчасти речичастей речианглийского языкакорпус русскогокорпуса русскогомашинного переводасемантической разметкипредметной областилексических единицпараллельных текстовКОРПУС ТЕКСТНАЦИОНАЛЬНЫЙ КОРПУСЧАСТЬ РЕЧЬАНГЛИЙСКИЙ ЯЗЫККОРПУС РУССКИЙМАШИННЫЙ ПЕРЕВОДСЕМАНТИЧЕСКИЙ РАЗМЕТКАПРЕДМЕТНЫЙ ОБЛАСТЬЛЕКСИЧЕСКИЙ ЕДИНИЦАПАРАЛЛЕЛЬНЫЙ ТЕКСТСопоставление списков терминологических биграмм, общих для всех (илиподавляющегобольшинства)текстов(t-score-биграмм-коллокаций)рассматриваемых коллекций, приводит нас к следующим выводам:1. Тематика конференции Диалог настолько широка, что на основании общихтерминологических сочетаний мы могли бы сделать вывод лишь о том, что, какправило, в качестве основного материала исследований выступает русский язык, атакже, что в текстах коллекции уделяется внимание предметной области.2.

Представляемые на «Корпусной конференции» исследования чаще всегоориентированы на русский язык или английский язык. В качестве материала (и/илиобъекта исследования) в большинстве работ выступает корпус текстов, чтолексическим единицам (частям речи, семантической разметке лексических единиц)уделяется особое внимание. Что многие исследования ориентированы на решениевопросов машинного перевода и связаны с текстами заранее заданной предметнойобласти.

Таким образом, наши выводы согласуются с традиционной тематикойкорпусных исследований, что отражено в наборе «общих» терминологическихсочетаний.Причем именно биграммы (а не триграммы и далее n-граммы) дают на нашемматериале наиболее информационно насыщенную картину. Впрочем, возможно, чтоодна из причин этого лежит в сравнительно небольшом корпусе материаловконференции «Корпусная лингвистика (см. раздел 2.1).По-видимому, чем выше однородность коллекции, тем более информативнымокажется набор подобных t-score-биграмм-коллокаций для описания коллекции какцелостногоинформационногопотока(обзорматематическихмоделейинформационных потоков см., напр., в [124], о некоторых методах работы синформационными потоками в русле лингвистики текста см. в [87]).Вместо заключенияМы постарались обсудить типы коллокаций и конструкций, а главное – разныелингвистические типы шкал «от слова к коллокации и от коллокации к конструкции»,которые формируются на основании (1) соотнесенности единицы с «инвентарностью(словарем) vs.

конструктивностью (грамматикой)» и (2) с их функционированием втексте/коллекции, т.е. с «номинативностью vs. предикативностью». Каждая из этихшкал характеризуется нечеткими границами явно выраженной динамической42природы. Положения данной классификации представляются набором гипотез, содной стороны, уже верифицированных, а с другой – требующих дальнейшейверификации с учетом все большего числа параметров (прежде всего, контекстноориентированных параметров). В последнем параграфе четвертой главы проэксперимент на службе анализа текстов мы обсудим возможность введениядополнительных шкал, позволяющих «подключить» интуицию носителей языка(информантов и/или экспертов) и оценить степень целостности интересующих насединиц.Наборы рассматриваемых единиц (коллокаций и/или конструкций)характеризуют интересующие нас коллекции, эти наборы можно назвать сверткамиколлекций по заданным принципам.

Именно поэтому мы в своих исследованиях (идаже в примерах) довольно широко варьируем коллекции: с точки зренияпредставленного функционального стиля, а чаще – гораздо более дробно: с точкизрения тематики, стилевых характеристик (обычно гораздо более точных, чем классфункционального стиля), степени однородности по каждому из этих признаков и т.д.Один из заданных принципов – это статистическая мера и методика обработкиполученных списков.

Главный заданный принцип заключается в подборе коллекции.Сначала подбирая, а потом описывая коллекцию и/или набор коллекций – черезсвертку – мы обеспечиваем адекватный контекст для решения задач вычислительногоэксперимента: контекст коллекции (а в результате отчасти и текстовый контекст).43Глава 3.Семантическая и информационная структуры прианализе текстов и/или коллекций.Основные элементы этих структурВ третьей главе мы рассмотрим теоретические подходы и приведем примеры,которые были получены в ходе наших экспериментов по изучению текстов, преждевсего, экспериментов с информантами. Как уже было сказано, ключевым для главыявляется представление о вариативности и неединственности структур текста,извлекаемых при его восприятии (анализе).

Часть экспериментов с информантамипредставляла собой восприятие звучащего текста, однако некоторые результатыэтих экспериментов могут быть небезынтересны для наших лекций. Основннойакцент в этой главе делается на исследовании текста.§ 3.1.Текст. Общие положенияОпределим основные характеристики текста, существенные для исследованиятекста в контексте речевой коммуникации (порождения и восприятия речи):o развернутость, или «последовательность знаковых единиц» (например, [131]);o отдельнооформленность [130];o связность и цельность (например, [130]).Развернутость соотносится с вопросом о размерности и уровне иерархии такойединицы, как текст, структурными составляющими которого являются слова,синтагмы, фразы, сверхфразовые единства.Для нас текст – основная конструктивная единица языка и, как уже былосказано, базовый лингвистический контекст, в котором реализуются единицы болеенизких уровней (слово, коллокация, синтагма, высказывание (фраза), сверхфразовоеединство и композиционный фрагмент).

Конструктивность и базовость текстакажется очевидной, однако в очередной раз сошлемся на краткую и авторитетнуюформулировку В.Б.Касевича: «будучи целостной единицей, текст обнаруживает поотношению к своим структурным компонентам (сверхфразовым единствам/абзацам,высказываниям, тем более – словам) свойство неаддитивности: характеристикитекста невыводимы полностью из признаков его составляющих; в первую очередь,передаваемое текстом значение несводимо к сумме значений компонентов» [114].Отдельнооформленность предполагает, с одной стороны, наличие сигналовначала и конца, а с другой – представление о фреймах: знании носителей языка оструктуре текстов разных функциональных стилей (текстовой и коммуникативнойкомпетенции) [153].

Выделяют «внешнюю» и «внутреннюю» (смысловую) связность.И. Беллерт определяет связный текст как «такую последовательность высказыванийS1,…,Sn, в которой семантическая интерпретация высказывания Si (при 2<i<n) зависитот интерпретации высказываний в последовательности S1,…,Si-1» [90: 172]. Можносказать, что в основе связности и цельности текста – взаимосвязанность ивзаимообусловленность его структурных составляющих.

Связность реализуется какпространственная (контактно расположенные структурные составляющие),«логическая» и ассоциативная (см., например, [119]).Цельность и связность текста являются важными, но сложно формализуемымихарактеристиками текста. Цельность обычно определяют как наличие единой темы(предметной области, набора ситуаций). Свойство связности (когерентности)44относится к структурной организации текста. При этом различают смысловую(тематическую) и синтаксическую связность (см., например, [130]).

Средиформализуемых средств смысловой связности рассматривают, например, связующиеслова (союзы, слова с темпоральными и причинно-следственными значениями) имеханизмы референции и кореференции (повторяющиеся в тексте слова, другие видыповторной номинации). Синтаксическая связность текста – и высказываний какструктурных составляющих текста – выражается, прежде всего, через семантикосинтаксическую структурированность этих единиц.Исследователи связности текста пользуются разной терминологией.

Впоследних исследованиях все чаще разделяют когезию и когерентность (например,см. [120]). Когезия – связь элементов текста, при которых интерепретация однихэлементов зависит от других [120]. Когерентность соотносима с прагматическойстороной, она выводит нас за пределы текста в коммуникативную ситуацию испирается на базу знаний адресата. Когерентность в наибольшей степени связана спрезумпцией осмысленности и реализаций (смысловых) ожиданий адресата.

Однако вреальных моделях понимания текста носителем языка четко разграничить эти дваразных вида связности бывает невозможно29.В процедурах речевой деятельности цельность и связность реализуются черезмеханизмы контекстной предсказуемости. Естественно допустить, что если мывозьмем в пределах текста произвольную точку, отвечающую границе между некимиязыковыми единицами, то характеристики ее правого непосредственного «соседа»будут далеко не случайными. По-видимому, в дополнение к другим структурнымхарактеристикам текст может быть описан как взаимодействие метафорическипонимаемых «кривых сил связей между словами» – или между более сложнымиединицами текста, где некоторые позиции будут оказывать сильное воздействие нато, что может появиться справа, а другие будут предсказывать своихнепосредственных «соседей» достаточно слабо.

Множественность таких кривыхопределяется множеством признаков и параметров, по которым осуществляетсясвязывание. Природа этих связей/предсказуемостей может быть различногопроисхождения:(1) связаннойслексическойисемантическойсочетаемостью/несочетаемостью, (2) определяющейся правилами синтаксиса,(3) соотносимой с информационной значимостью, (4) задаваемой коммуникативнойситуацией вообще и задачей коммуникации в частности.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
426
Средний доход
с одного платного файла
Обучение Подробнее