Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 31

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 31 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 312020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 31)

Полученная в результате анализа иерархическаясинтаксическая структура предложения ЕЯ описывается деревом составляющих, влистьях которого находятся слова предложения,поддеревья соответствуют95входящим в предложение синтаксическим конструкциям (фразам), а дуги выражаютотношения вложения конструкций.К рассматриваемому подходу могут быть отнесены сетевые грамматики,представляющие собой одновременно аппарат для описания системы языка и длязадания процедуры анализа предложений на основе понятия конечного автомата,например, расширенная сеть переходов ATN [23].В рамках второго подхода для представления синтаксической структурыпредложения используется более наглядный и распространенный способ – деревьязависимостей.

В узлах дерева расположены слова предложения (в корне обычноглагол-сказуемое), а каждая дуга дерева, связывающая пару узлов, интерпретируетсякак синтаксическая подчинительная связь между ними, причем направление связисоответствует направлению данной дуги. Поскольку при этом синтаксические связислов и порядок слов в предложении отделены, то на основе деревьев подчинениямогут быть описаны разорванные и непроективные конструкции [36], достаточночасто возникающие в языках со свободным порядком слов.Деревья составляющих больше подходят для описания языков в жесткимпорядком слов, представление с их помощью разорванных и непроективныхконструкций требует расширения используемого грамматического формализма.

Затов рамках этого подхода более естественно описываются конструкции снеподчинительными отношениями. В то же время общая трудность для обоихподходов – представление однородных членов предложения.Синтаксические модели во всех подходах пытаются учесть ограничения,накладываемые на соединение языковых единиц в речи, при этом так или иначеиспользуется понятие валентности [38]. Валентность – это способность слова илидругой единицы языка присоединять другие единицы определенным синтаксическимспособом; актант – это слово или синтаксическая конструкция, заполняющая этувалентность.

Например, русский глагол передать имеет три основные валентности,которыеможновыразитьследующимивопросительнымисловами:кто? кому? что? В рамках генеративного подхода валентности слов (прежде всего,глаголов) описываются преимущественно в виде специальных фреймов(subcategorization frames) [4], а в рамках подхода, основанного на деревьяхзависимостей – как модели управления.Модели семантики языка наименее проработаны в рамках КЛ. Длясемантического анализа предложений были предложены так называемые падежныеграмматики и семантические падежи (валентности), на базе которых семантикапредложения описывается как через связи главного слова (глагола) с егосемантическими актантами, т.е. через семантические падежи [4]. Например, глаголпередать описывается семантическими падежами дающего (агенса), адресата иобъекта передачи.Для представления семантики всего текста обычно используются два логическиэквивалентных формализма (оба они детально описаны в рамках ИИ [40]):• Формулы исчисления предикатов, выражающих свойства, состояния, процессы,действия и отношения;• Семантические сети – размеченные графы, в которых вершины соответствуютпонятиям, а вершины – отношениям между ними.Что касается моделей прагматики и дискурса, позволяющих обрабатывать нетолько отдельные предложения, но и текст в целом, то в основном для их построения96используются идеи Ван Дейка [30].

Одна из редких и удачных моделей – модельдискурсивного синтеза связных текстов [41]. В подобных моделях должныучитываться анафорические ссылки и другие явления уровня дискурса.Завершая характеристику моделей языка в рамках КЛ, остановимся чутьподробнее на теории лингвистических моделей «Смысл⇔Текст» [42], и в рамкахкоторой появилось много плодотворных идей, опередивших свое время и актуальныхдо сих пор.В соответствии с этой теорией ЕЯ рассматривается как особого родапреобразователь, выполняющий переработку заданных смыслов в соответствующиеим тексты и заданных текстов в соответствующие им смыслы.

Под смысломпонимается инвариант всех синонимичных преобразований текста. Содержаниесвязного фрагмента речи без расчленения на фразы и словоформы отображается ввиде специального семантического представления, состоящего из двух компонент:семантического графа и сведений о коммуникативной организации смысла.Как отличительные особенности теории следует указать:o ориентацию на синтез текстов (способность порождать правильные текстырассматривается как основной критерий языковой компетенции);o многоуровневый, модульный характер модели, причем основные уровни языкаразделяются на поверхностный и глубинный уровень: различаются, к примеру,глубинный (семантизированный) и поверхностный («чистый») синтаксис, а такжеповерхностно-морфологический и глубинно-морфологический уровни;o интегральный характер модели языка; сохранение информации, представленнойна каждом уровне, соответствующим модулем, выполняющими переход с этогоуровня на следующий;o специальные средства описания синтактики (правил соединения единиц) накаждом из уровней; для описания лексической сочетаемости был предложен наборлексических функций, при помощи которых сформулированы правиласинтаксического перифразирования;o упор на словарь, а не на грамматику; в словаре хранится информация,относящаяся к разным уровням языка; в частности, для синтаксического анализаиспользуются модели управления слов, описывающие их синтаксические исемантические валентности.Эта теория и модель языка нашли свое воплощение в системе машинногоперевода ЭТАП [26].Глава 5.Лингвистические ресурсыРазработка лингвистических процессоров требует соответствующегопредставления лингвистической информации об обрабатываемом ЕЯ.

Этаинформация отображается в разнообразных компьютерных словарях и грамматиках.Словари являются наиболее традиционной формой представления лексическойинформации; они различаются своими единицами (обычно слова илисловосочетания), структурой, охватом лексики (словари терминов конкретнойпроблемной области, словари общей лексики и т.п.). Единица словаря называетсясловарной статьей, в ней представляется информация о лексеме.

Лексическиеомонимы обычно представляются в разных словарных статьях.Наиболее распространены в КЛ морфологические словари, используемые дляморфологического анализа, в их словарной статье представлена морфологическая97информация о соответствующем слове – часть речи, словоизменительный класс (дляфлективных языков), перечень значений слова и т.п. В зависимости от организациилингвистического процессора в словарь может быть добавлена и грамматическаяинформация, например, модели управления слова.Существуют словари, в которых представлена и более широкая информация ословах.

Например, лингвистическая модель «Смысл⇔Текст» существенно опираетсяна толково-комбинаторный словарь, в словарной статье которого помимоморфологической, синтаксической и семантической информации (синтаксические исемантические валентности) представлены сведения о лексической сочетаемостиэтого слова.В ряде лингвистических процессоров используются словари синонимов.Сравнительно новый вид словарей – словари паронимов, т.е.

внешне схожих слов,различающихся по смыслу, например, чужой и чуждый, правка и справка [34].Еще один вид лексических ресурсов – базы словосочетаний, в которыеотбираются наиболее типичные словосочетания конкретного языка. Такая базасловосочетаний русского языка (около миллиона единиц) составляет ядро системыКроссЛексика [28].Более сложными видами лексических ресурсов являются тезаурусы ионтологии. Тезаурус – это семантический словарь, т.е.

словарь, в которомпредставлены смысловые связи слов – синонимические, отношения род-вид (иногданазываемые отношением выше-ниже), часть-целое, ассоциации. Распространениетезаурусов связано с решением задач информационного поиска [39].С понятием тезауруса тесно связано понятие онтологии [11]. Онтология – наборпонятий, сущностей определенной области знаний, ориентированный намногократное использование для различных задач.Онтологии могут создаваться набазе существующей в языке лексики – в этом случае они называютсялингвистическими.Подобной лингвистической онтологией считается система WordNet [24] –большой лексический ресурс, в котором собраны слова английского языка:существительные, прилагательные, глаголы и наречия, и представлены их смысловыесвязи нескольких типов.

Для каждой из указанных частей речи слова сгруппированыв группы синонимов (синсеты), между которыми установлены отношенияантонимии, гипонимии (отношение род-вид), меронимии (отношение часть-целое).Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения родвид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формируетобщую онтологию – систему основных понятий о мире.По схеме английского WordNet были построены аналогичные лексическиересурсы для других европейских языков, объединенные под общим названиемEuroWordNet.Совершенно другой вид лингвистических ресурсов – это грамматики ЕЯ, типкоторых зависит от используемой в процессоре модели синтаксиса. В первомприближении грамматика представляет собой набор правил, выражающих общиесинтаксические свойства слов и групп слов.

Общее число правил грамматики такжезависит от модели синтаксиса, изменяясь от нескольких десятков до несколькихсотен. По существу, здесь проявляется такая проблема, как соотношение в моделиязыка грамматики и лексики: чем больше информации представлено в словаре, темкороче может быть грамматика и наоборот.98Отметим, что построение компьютерных словарей, тезаурусов и грамматик –объемная и трудоемкая работа, иногда даже более трудоемкая, чем разработкалингвистической модели и соответствующего процессора.

Поэтому одной изподчиненных задач КЛ является автоматизация построения лингвистическихресурсов [10, 15].Компьютерные словари часто формируются конвертацией обычных текстовыхсловарей, однако нередко для их построения требуется гораздо более сложная икропотливая работа. Обычно это бывает при построении словарей и тезаурусов длябыстро развивающися научных областей – молекулярной биологии, информатики идр. Исходным материалом для извлечения необходимой лингвистическойинформации могут быть коллекции и корпуса текстов.Корпус текстов – это коллекция текстов, собранная по определенномупринципу представительности (по жанру, авторской принадлежности и т.п.), вкоторой все тексты размечены, т.е.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.