Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 30

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 30 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 302017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 30)

Аналогичная модель на базе статистики отдельныхслов и их совместной встречаемости в текстах (биграмм, триграмм слов)применяется, например, для разрешения лексической неоднозначности [18] илиопределения части речи слова (в языках типа английского).Отметим, что возможны структурно-статистические модели, в которых припредставлении отдельных уровней ЕЯ учитывается та или иная статистика – слов,синтаксических конструкций и т.п.В ЛП модульного типа на каждом этапе анализа или синтеза текста используетсясоответствующая модель (морфологии, синтасиса и т.п.).Существующие в КЛ морфологические модели анализа словоформ различаютсяв основном по следующим параметрам:• результату работы – лемма или основа с набором морфологических характеристик(род, число, падеж, вид, лицо и т.п.) заданной словоформы;• методу анализа – с опорой на словарь словоформ языка или на словарь основ,либо же бессловарный метод;• возможности обработки словоформы лексемы, не включенной в словарь.При морфологическом синтезе исходными данными являются лексема иконкретные морфологические характеристики запрашиваемой словоформы даннойлексемы, возможен и запрос на синтез всех форм заданной лексемы.

Результат какморфологического анализа, так и синтеза в общем случае неоднозначен.Для моделирования синтаксиса в рамках КЛ предложено большое числоразных идей и методов, отличающихся способом описания синтаксиса языка,способом использования этой информации при анализе или синтезе предложения ЕЯ,а также способом представления синтаксической структуры предложения [6]. Весьмаусловно можно выделить три основных подхода к созданию моделей: генеративныйподход, восходящий к идеям Хомского [7], подход, восходящий к идеям И. Мельчукаи представленный моделью «Смысл⇔Текст» [42], а также подход, в рамках которогоделаются те или иные попытки преодолеть ограничения первых двух подходов, вчастности, теория синтаксических групп [33].В рамках генеративного подхода синтаксический анализ производится, какправило, на основе формальной контекстно-свободной грамматики, описывающейфразовую структуру предложения, или же на основе некоторого расширенияконтекстно-свободной грамматики.

Эти грамматики исходят из последовательноголинейного членения предложения на фразы (синтаксические конструкции, например,именные группы) и отражают поэтому одновременно как его синтаксическую, так илинейную структуры. Полученная в результате анализа иерархическаясинтаксическая структура предложения ЕЯ описывается деревом составляющих, влистьях которого находятся слова предложения,поддеревья соответствуют95входящим в предложение синтаксическим конструкциям (фразам), а дуги выражаютотношения вложения конструкций.К рассматриваемому подходу могут быть отнесены сетевые грамматики,представляющие собой одновременно аппарат для описания системы языка и длязадания процедуры анализа предложений на основе понятия конечного автомата,например, расширенная сеть переходов ATN [23].В рамках второго подхода для представления синтаксической структурыпредложения используется более наглядный и распространенный способ – деревьязависимостей.

В узлах дерева расположены слова предложения (в корне обычноглагол-сказуемое), а каждая дуга дерева, связывающая пару узлов, интерпретируетсякак синтаксическая подчинительная связь между ними, причем направление связисоответствует направлению данной дуги. Поскольку при этом синтаксические связислов и порядок слов в предложении отделены, то на основе деревьев подчинениямогут быть описаны разорванные и непроективные конструкции [36], достаточночасто возникающие в языках со свободным порядком слов.Деревья составляющих больше подходят для описания языков в жесткимпорядком слов, представление с их помощью разорванных и непроективныхконструкций требует расширения используемого грамматического формализма. Затов рамках этого подхода более естественно описываются конструкции снеподчинительными отношениями.

В то же время общая трудность для обоихподходов – представление однородных членов предложения.Синтаксические модели во всех подходах пытаются учесть ограничения,накладываемые на соединение языковых единиц в речи, при этом так или иначеиспользуется понятие валентности [38]. Валентность – это способность слова илидругой единицы языка присоединять другие единицы определенным синтаксическимспособом; актант – это слово или синтаксическая конструкция, заполняющая этувалентность. Например, русский глагол передать имеет три основные валентности,которыеможновыразитьследующимивопросительнымисловами:кто? кому? что? В рамках генеративного подхода валентности слов (прежде всего,глаголов) описываются преимущественно в виде специальных фреймов(subcategorization frames) [4], а в рамках подхода, основанного на деревьяхзависимостей – как модели управления.Модели семантики языка наименее проработаны в рамках КЛ.

Длясемантического анализа предложений были предложены так называемые падежныеграмматики и семантические падежи (валентности), на базе которых семантикапредложения описывается как через связи главного слова (глагола) с егосемантическими актантами, т.е. через семантические падежи [4]. Например, глаголпередать описывается семантическими падежами дающего (агенса), адресата иобъекта передачи.Для представления семантики всего текста обычно используются два логическиэквивалентных формализма (оба они детально описаны в рамках ИИ [40]):• Формулы исчисления предикатов, выражающих свойства, состояния, процессы,действия и отношения;• Семантические сети – размеченные графы, в которых вершины соответствуютпонятиям, а вершины – отношениям между ними.Что касается моделей прагматики и дискурса, позволяющих обрабатывать нетолько отдельные предложения, но и текст в целом, то в основном для их построения96используются идеи Ван Дейка [30].

Одна из редких и удачных моделей – модельдискурсивного синтеза связных текстов [41]. В подобных моделях должныучитываться анафорические ссылки и другие явления уровня дискурса.Завершая характеристику моделей языка в рамках КЛ, остановимся чутьподробнее на теории лингвистических моделей «Смысл⇔Текст» [42], и в рамкахкоторой появилось много плодотворных идей, опередивших свое время и актуальныхдо сих пор.В соответствии с этой теорией ЕЯ рассматривается как особого родапреобразователь, выполняющий переработку заданных смыслов в соответствующиеим тексты и заданных текстов в соответствующие им смыслы.

Под смысломпонимается инвариант всех синонимичных преобразований текста. Содержаниесвязного фрагмента речи без расчленения на фразы и словоформы отображается ввиде специального семантического представления, состоящего из двух компонент:семантического графа и сведений о коммуникативной организации смысла.Как отличительные особенности теории следует указать:o ориентацию на синтез текстов (способность порождать правильные текстырассматривается как основной критерий языковой компетенции);o многоуровневый, модульный характер модели, причем основные уровни языкаразделяются на поверхностный и глубинный уровень: различаются, к примеру,глубинный (семантизированный) и поверхностный («чистый») синтаксис, а такжеповерхностно-морфологический и глубинно-морфологический уровни;o интегральный характер модели языка; сохранение информации, представленнойна каждом уровне, соответствующим модулем, выполняющими переход с этогоуровня на следующий;o специальные средства описания синтактики (правил соединения единиц) накаждом из уровней; для описания лексической сочетаемости был предложен наборлексических функций, при помощи которых сформулированы правиласинтаксического перифразирования;o упор на словарь, а не на грамматику; в словаре хранится информация,относящаяся к разным уровням языка; в частности, для синтаксического анализаиспользуются модели управления слов, описывающие их синтаксические исемантические валентности.Эта теория и модель языка нашли свое воплощение в системе машинногоперевода ЭТАП [26].Глава 5.Лингвистические ресурсыРазработка лингвистических процессоров требует соответствующегопредставления лингвистической информации об обрабатываемом ЕЯ.

Этаинформация отображается в разнообразных компьютерных словарях и грамматиках.Словари являются наиболее традиционной формой представления лексическойинформации; они различаются своими единицами (обычно слова илисловосочетания), структурой, охватом лексики (словари терминов конкретнойпроблемной области, словари общей лексики и т.п.).

Единица словаря называетсясловарной статьей, в ней представляется информация о лексеме. Лексическиеомонимы обычно представляются в разных словарных статьях.Наиболее распространены в КЛ морфологические словари, используемые дляморфологического анализа, в их словарной статье представлена морфологическая97информация о соответствующем слове – часть речи, словоизменительный класс (дляфлективных языков), перечень значений слова и т.п.

В зависимости от организациилингвистического процессора в словарь может быть добавлена и грамматическаяинформация, например, модели управления слова.Существуют словари, в которых представлена и более широкая информация ословах. Например, лингвистическая модель «Смысл⇔Текст» существенно опираетсяна толково-комбинаторный словарь, в словарной статье которого помимоморфологической, синтаксической и семантической информации (синтаксические исемантические валентности) представлены сведения о лексической сочетаемостиэтого слова.В ряде лингвистических процессоров используются словари синонимов.Сравнительно новый вид словарей – словари паронимов, т.е. внешне схожих слов,различающихся по смыслу, например, чужой и чуждый, правка и справка [34].Еще один вид лексических ресурсов – базы словосочетаний, в которыеотбираются наиболее типичные словосочетания конкретного языка.

Такая базасловосочетаний русского языка (около миллиона единиц) составляет ядро системыКроссЛексика [28].Более сложными видами лексических ресурсов являются тезаурусы ионтологии. Тезаурус – это семантический словарь, т.е. словарь, в которомпредставлены смысловые связи слов – синонимические, отношения род-вид (иногданазываемые отношением выше-ниже), часть-целое, ассоциации. Распространениетезаурусов связано с решением задач информационного поиска [39].С понятием тезауруса тесно связано понятие онтологии [11]. Онтология – наборпонятий, сущностей определенной области знаний, ориентированный намногократное использование для различных задач.Онтологии могут создаваться набазе существующей в языке лексики – в этом случае они называютсялингвистическими.Подобной лингвистической онтологией считается система WordNet [24] –большой лексический ресурс, в котором собраны слова английского языка:существительные, прилагательные, глаголы и наречия, и представлены их смысловыесвязи нескольких типов.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6439
Авторов
на СтудИзбе
306
Средний доход
с одного платного файла
Обучение Подробнее