Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 7

PDF-файл Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 7 Системы автоматизированного проектирования (САПР) (13021): Книга - 11 семестр (3 семестр магистратуры)Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Системы автоматизированного проектирования2017-12-21СтудИзба

Описание файла

PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.

Просмотр PDF-файла онлайн

Текст 7 страницы из PDF

Положение о том,что в тексте сосуществуют сегменты полного и неполного типа произнесения, изкоторых только первые могут распознаваться за счет анализа фонетическиххарактеристик, впервые было сформулировано в [97]. Прочие сегменты могутинтерпретироваться только в результате контекстной предсказуемости, то естьпредсказываться на основании знания контекста.

Соотношение сегментов полного инеполного типа произнесения в рамках текста определяется самыми разнымихарактеристиками, прежде всего – функциональным стилем текста. Очевидно,однако, что даже подготовленное дикторское чтение содержит большое количествосегментов неполного типа произнесения (слогов, слов, возможно, синтагм и дажефраз), восстанавливающихся на основании присущей тексту избыточности.Возможно, наиболее иллюстративным примером функционированияизбыточности при восприятии звучащего текста является роль морфонологическихявлений (см. [107: 266–267, 280–282]). Так, например, большая частьморфологических характеристик слова может приходиться на безударные сегменты(слоги), тогда – в силу сегментной редукции – собственно морфологическаяинформация не может быть извлечена из соответствующего сегмента слова, но лишьна основании более широкого контекста.

В этом случае, по-видимому, на первыйплан могут выступать интегральные характеристики фонетического слова (ФС),которое наряду со знаменательной словоформой может включать и служебные слова(напр., предлоги в предложно-падежных конструкциях). В особенной степенисказанное следует учитывать при исследовании восприятия на материале русскогоязыка, т.к. для него характерны свободный порядок слов, морфологическаясложность, подвижное разноместное ударение и высокая степень сегментнойредукции.Примером текста без информационной избыточности является текст программы, написанный на одном изязыков программирования.1121С другой стороны, человек, как известно, не в состоянии проводитьпофонемное декодирование слов звучащего текста в силу ограничений своейпсихофизиологической организации (памяти и быстродействия).

В результате этихограничений и благодаря возможностям контекстной предсказуемости в процедурахвосприятия текста человек оперирует сравнительно большими единицами: какминимум, словами, а чаще – коллокациями и конструкциями, т.е.последовательностью таких слов, совместная встречаемость которых существеннопревышает случайный уровень. В условиях благоприятной коммуникативнойситуации и знания предметной области (и/или стиля) – когда уровень избыточноститекста превышает некий средний, необходимый для восприятия – такого родаоперативные единицы могут приобретать еще больший формат: синтагм и целыхфраз.Увеличение формата подобных единиц может значительно увеличиватьскорость восприятия и понимания (см., например, Грановская 1974).

Поэтомуувеличение формата характеризует восприятие и звучащего, и письменного текста.Мы – владеющие письменным языком – не читаем не только побуквенно, но дажепословно (кроме исключительных ситуаций). Однако значительное укрупнениеединиц (и ускорение восприятия) возможно лишь в определенных коммуникативныхситуациях.

Эти ситуации могут задаваться задачей коммуникации извлечь основнойсмысл и, как уже было сказано, благоприятной коммуникативной ситуацией,позволяющей максимально включать процедуры контекстной предсказуемости.Избыточность – это свойство, неотъемлемое от естественного текста (и любогоестественного языка), однако существенно зависящее от функционального стиля.Напомним основные функциональные стили, расположенные на шкале «степеньинформационной насыщенности» (в порядке возрастания): литературнохудожественный, новостной, научный и официально-деловой. Какой текст будетболее требователен к условиям «readability»: литературно-художественный илиофициально-деловой? Ответ очевиден.

Прагматически задача успешностивосстановления структуры и смысла текста закона значительно важнее задачивосстановления смысла художественного текста. На самом деле речь идет не столькоо восстановлении, сколько об однозначном восстановлении структуры и смыслатекста закона. В противном случае каждый из нас – носителей официальногоделового языка – вправе понимать один и тот же текст закона по-своему.Успешность восстановления зависит от типа и степени компрессии текста, чтоопределяется условиями коммуникации.

К сожалению, в русском языке нетэквивалента термину «readability», однако само явление несомненно присутствует. Вданном случае речь идет о «readability» в зависимости от тех или иных параметров(см. главу 3).Любой естественный текст характеризуется компрессией как результатомэллиптирования некоторого количества информации. Эллиптирование можетпроисходить на самых разных уровнях – от фонетического до смыслового.Эллиптирование говорящим тех или иных смысловых фрагментов зависит откоммуникативной ситуации, прежде всего – функционального стиля текста и отсоответствия «баз знаний» говорящего и слушающего (адресанта и адресата): еслислушающий знает предметную область, владеет темой разговора, то говорящий (всилу закона экономии усилий), как правило, опускает ту информацию, которая может22быть восстановлена слушающим на основании этого знания.

Таким образом,восстановление компрессированного текста адресатом в процессе восприятияоказываетсяобязательнымкомпонентом,обеспечивающимуспешностькоммуникации. «Требуемая» адресату информация восстанавливается на основанииконтекста12.§ 2.3.Единица анализа и контекст. Коллокации и конструкции.При восприятии и порождении (анализе и синтезе) текста неизбежноиспользуются единицы разного масштаба, разной степени связанности и разныхуровней иерархии. Эти единицы «задаются» характеристиками языка и контекста,предпочтение тех иных единиц имеет ярко выраженную вероятностную природу. Вкачестве такого рода оперативных единиц могут выступать как синтаксические, так илексические единицы (под последними понимаются разнообразные обороты,единицы, эквивалентные слову и т.д. – см., напр., [143] и словарь оборотовwww.ruscorpora.ru/obgrams.html).Однако начнем с попытки разобраться в вопросах терминологии.В современной лингвистике, ориентированной, с одной стороны, нафункциональность и антропоцентричность описания, а с другой стороны – навозможности корпусной лингвистики, уже практически очевидна необходимостьиспользования основных положений грамматики конструкций и близких к нейнаучных направлений.

Подход «GxC» (грамматики конструкций) началразрабатываться с 1970х годов и чрезвычайно популярен в разных направленияхсовременной лингвистики: [23; 24; 34; 37; 38; 65] и многие другие; подробнуюбиблиографию см. в http://constructiongrammar.org/.Так что же такое «конструкция»? Кажется, стало уже традицией опираться на тесвойства конструкций, которые были указаны Филмором [26]. Сформулируемосновные (во всяком случае для наших исследований) признаки:• конструкции состоят из «родительских» и «дочерних» элементов,отношения между которыми могут различаться по степени жесткости;• конструкции могут определять не только синтаксические, но илексические, семантические, прагматические параметры;• в конструкцию могут быть включены лексические единицы;• конструкции могут (и в некоторых случаях должны) бытьидиоматичными, тогда семантика конструкции как целого будет ширесемантики составляющих элементов.Множество таким образом определяемых конструкций очень неоднородно: онибудут различаться степенью и типом идиоматичности, жесткостью изакрепленностью определенных лексем (классов лексем).При широком понимании такого подхода любая синтаксическая единицаявляется конструкцией, статус такой единицы-конструкции зависит отклассификации по названным параметрам.Мы понимаем контекст широко: от того контекста, который не выходит за пределы текста, до контекстаколлекции (базы текстов) или коммуникативной ситуации.

«Требуемая» информация заключена в кавычки, т.к.адресат может приписывать тексту тот смысл, который не был ему присущ (в силу сильного желания носителяязыка или ошибки обработки у автомата).1223Однако наиболее важным с точки зрения функциональности конструкцииявляется ее положение в дихотомиях лексикон vs. синтаксис, инвентарные vs.конструктивные единицы (по В.Б.Касевичу [108]), номинации vs. предикативныеединицы. Эти дихотомии (шкалы) функционально близки, но все же они нетождественны. Наиболее «типовые» (на наш взгляд) конструкции оказываются,прежде всего, синтаксическими и предикативными единицами, возможно, ониявляются конструктивными, но высокочастотными единицами.

Степень жесткостиотношений между компонентами конструкции может существенно различаться.В предельном случае мы имеем дело с ориентацией на радикальный вариантграмматики конструкций У.Крофта (Radical Construction Grammar), отрицающийкомпозициональность конструкций, т.е. не конструкции конструируются изэлементов более низких уровней иерархии (напр., слов), а слова могут вычленяться врезультате последующих процедур обработки из целостной конструкции [15; 16].Другой вариант грамматики конструкций у Филлмора, реализующего проект«Конструктикон» как продолжение идей и принципов лексикографического проектаFrameNet на материале корпуса предложений с разметкой конструкций [25]. Филлморвводит свою терминологию и – главное – схему описания конструкций: «Constructionsare the rules that license ‘new’ linguistic signs based on other linguistic signs.

Thestructures licensed by one or more constructions are called CONSTRUCTS, following theterminology of Sign-based Construction Grammar. A construction can be describedformally, in Attribute-Value Matrix form, or informally in prose, but annotation must be ofconstructs: each annotation captures the properties of a particular construct with respect to aparticular construction that licenses it»13 [25: 9]. В его проекте делается попытка скореесблизить синтаксис и лексикон: «There were numerous reasons for trying to articulate alexicon with a constructicon: serious work in lexical description was unable to escape theneed to appeal to features of grammar that go beyond the basic structures that defineordinary valence satisfaction…»14 [там же: 47].В рамках парадигмы корпусных и когнитивных исследований нас интересуетизучение лексико-грамматических явлений (вернее было бы даже сказать:лексических и морфолого-синтаксических явлений) при восприятии и порождении(анализе и синтезе) текста.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5193
Авторов
на СтудИзбе
434
Средний доход
с одного платного файла
Обучение Подробнее