Главная » Просмотр файлов » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 30

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 30 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 302020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 30)

Сложное синтаксическое целое, или сверхфразовое единство – этопоследовательность предложений (высказываний), объединенных смыслом илексико-грамматическими средствами [38]. К таким средствам относятся в первуюочередь лексические повторы и анафорические ссылки – ссылки на предшествующиеслова текста, реализуемые при помощи местоимений и местоименных слов (они,этот и т.д.).Можно также говорить еще об одном уровне – уровне дискурса, под которымпонимается связный текст в его коммуникативной направленности. Под дискурсомпонимается последовательность взаимосвязанных друг с другом предложений текста,обладающая определенной смысловой целостностью, за счет чего он выполняетопределенную прагматическую задачу [45].

Во многих типах связных текстовпроявляется традиционная схематическая (дискурсивная) структура, организующая ихобщее содержание, например, определенную структуру имеют описания сложныхтехнических систем, патентные формулы, научные статьи, деловые письма и др.Отдельным является вопрос об уровне семантики. В принципе, онаприсутствует всюду, где есть знаковые единицы языка (морфемы, слова,предложения). Однако наличие именно уровня зависит от существования некоторогоуниверсального набора семантических единиц, при помощи которых можно было бывыразить смысл любого высказывания.

Подтверждением самостоятельности уровнясемантики считается то, что человек обычно запоминает смысл высказывания, а не92его конкретную языковую форму. Элементарные единицы этого уровня называютсясемами, и в ряде исследований считается, что таких единиц в ЕЯ не более 2 тысяч.Если сравнивать ЕЯ и искусственные языки, в частности, языкипрограммирования, которые наиболее близки к ЕЯ по выполняемымлингвистическим функциям и успешно обрабатываются автоматически, то в первуюочередь следует указать следующие их отличия, связанные с тем, что искусственныеязыки есть результат целенаправленной деятельности человека, а ЕЯ – продуктдолгого исторического, и в определенной степени стихийного развития.1) Открытость системы ЕЯ: язык постоянно изменяется (это не очень заметно впределах нескольких лет, но ощутимо по прошествии одного-двух десятилетий).Изменения касаются не только словарного запаса языка (новые слова и новыесмыслы старых), но также его синтаксического и фонетического уровней.Следствие открытости – принципиальная невозможность единожды описатьконкретный ЕЯ и построить соответствующий лингвистический процессор.Необходимо пополнение знаний о языке на всех его уровнях, а, следовательно, КЛдолжна разрабатывать средства автоматизации пополнения этих знаний.2) Нестандартная сочетаемость (синтактика) единиц на каждом уровне ЕЯ.

Вчастности, если в искусственных языках синтаксическая сочетаемость знаковдиктуется их семантикой, то в ЕЯ соединение слов на уровне предложений лишьчастично может быть описана законами грамматики. В любом языке достаточнобольшое количество грамматически правильных сочетаний реально неупотребляется, например, в русском языке правильным сочетанием являетсякрепкий чай, но не тяжелый чай (как в английском heavy tea). Тем самым, КЛдолжна вырабатывать представления нестандартной сочетаемости единиц языка.3) Большая системность ЕЯ, т.е. в нем больше число уровней, четче границы междуними, а также более выражена ассиметрия связи между единицами языка ивыражаемыми ими смыслами, проявляющаяся на всех уровнях языковой системы.Под ассиметрией понимаются нарушения регулярности этих связей, чтовыражается в таких явлениях как полисемия (многозначность) – наличие у однойединицы языка нескольких связанных между собой значений (например,полисемия слов, например: земля – суша, почва, конкретная планета); синонимия –полное или частичное совпадение значений разных единиц (например, синонимияслов: негодяй и подлец), омонимия – совпадение по форме двух разных по смыслуединиц.

Таким образом, КЛ должна иметь средства решения проблемнеоднозначности, связанной с этими явлениями.Добавим, что омонимия существенно проявляется на всех уровнях ЕЯ, укажемнекоторые ее виды:• Лексическая омонимия означает одинаково звучащие и пишущиеся слова, неимеющие общих элементов смысла, например, рожа – лицо и вид болезни.• Морфологическая омонимия – совпадение форм одного и того же слова (лексемы),например, словоформа круг соответствует именительному и винительномупадежам.• Лексико-морфологическая омонимия (наиболее частый вид) возникает присовпадении словоформ двух разных лексем, например, стих – глагол вединственном числе мужского рода и существительное в единственном числе,именительном падеже),93• Синтаксическая омонимия означает неоднозначность синтаксической структуры,что приводит к нескольким интерпретациям: Студенты из Львова поехали в Киев,Flying planes can be dangerous (известный пример Хомского) и др.Глава 4.Моделирование в компьютерной лингвистикеРазработка лингвистического процессора (ЛП) предполагает описаниелингвистических свойств обрабатываемого текста ЕЯ, и это описание организуетсякак модель языка.

Как и при моделировании в математике и программировании, подмоделью понимается некоторая система, отображающая ряд существенных свойствмоделируемого явления (т.е. ЕЯ) и обладающая поэтому структурным илифункциональным подобием.Используемые в КЛ модели языка обычно строятся на основе теорий,создаваемых лингвистами путем изучения различных текстов и на основе своейлингвистической интуиции (интроспекции). В чем же специфика именно моделейКЛ? Можно выделить следующие их особенности [4]:• Формальность и, в конечном счете, алгоритмизируемость;• Функциональность (цель моделирования – воспроизведение функций языка как«черного ящика», без построения точной модели синтеза и анализа речичеловеком);• Общность модели, т.е.

учет ею довольно большого множества текстов;• Экспериментальная обоснованность, предполагающая тестирование модели наразных текстах;• Опора на словари как обязательную составляющую модели.Сложность ЕЯ, его описания и обработки ведет к разбиению этого процесса наотдельные этапы, соответствующие уровням языка, Большинство современных ЛПотносятся к модульному типу, при котором каждому уровню лингвистическогоанализа или синтеза соответствует отдельный модуль процессора.

В частности, вслучае анализа текста отдельные модули ЛП выполняют:Графематический анализ, т.е. выделение в тексте словоформ (переход от символовк словам);Морфологический анализ – переход от словоформ к их леммам (словарнымформам лексем) или основам (ядерным частям слова, за вычетомсловоизменительных морфем);Синтаксический анализ, т.е. выявление грамматической структуры предложенийтекста;Семантический и прагматический анализ, при котором определяется смысл фраз исоответствующая реакция системы, в рамках которой работает ЛП.Возможны разные схемы взаимодействия указанных модулей (последовательнаяработа или параллельный перемежающийся анализ), однако отдельные уровни –морфология, синтаксис и семантика все же обрабатываются разными механизмами.Таким образом, ЛП можно рассматривать как многоэтапный преобразователь,переводящий в случае анализа текста каждое его предложение во внутреннеепредставление его смысла и наоборот в случае синтеза.

Соответствующая модельязыка может называться структурной.Хотя полные модели КЛ требуют учета всех основных уровней языка и наличиясоответствующих модулей, при решении некоторых прикладных задач можнообойтись без представления в ЛП отдельных уровней. К примеру, в ранних94экспериментальных программах КЛ, обрабатываемые тексты относились к оченьузким проблемным областям (с ограниченным набором слов и строгим их порядком),так что для распознавания слов можно было использовать их начальные буквы,опуская этапы морфологического и синтаксического анализа.Еще одним примером редуцированной модели, ныне достаточно частоиспользуемой, является языковая модель частотности символов и их сочетаний(биграмм, триграмм и пр.) в текстах конкретного ЕЯ [19].

Такая статистическаямодель отображает лингвистическую информацию на уровне символов (букв) текста,и ее достаточно, например, для выявления опечаток в тексте или для распознаванияего языковой принадлежности. Аналогичная модель на базе статистики отдельныхслов и их совместной встречаемости в текстах (биграмм, триграмм слов)применяется, например, для разрешения лексической неоднозначности [18] илиопределения части речи слова (в языках типа английского).Отметим, что возможны структурно-статистические модели, в которых припредставлении отдельных уровней ЕЯ учитывается та или иная статистика – слов,синтаксических конструкций и т.п.В ЛП модульного типа на каждом этапе анализа или синтеза текста используетсясоответствующая модель (морфологии, синтасиса и т.п.).Существующие в КЛ морфологические модели анализа словоформ различаютсяв основном по следующим параметрам:• результату работы – лемма или основа с набором морфологических характеристик(род, число, падеж, вид, лицо и т.п.) заданной словоформы;• методу анализа – с опорой на словарь словоформ языка или на словарь основ,либо же бессловарный метод;• возможности обработки словоформы лексемы, не включенной в словарь.При морфологическом синтезе исходными данными являются лексема иконкретные морфологические характеристики запрашиваемой словоформы даннойлексемы, возможен и запрос на синтез всех форм заданной лексемы.

Результат какморфологического анализа, так и синтеза в общем случае неоднозначен.Для моделирования синтаксиса в рамках КЛ предложено большое числоразных идей и методов, отличающихся способом описания синтаксиса языка,способом использования этой информации при анализе или синтезе предложения ЕЯ,а также способом представления синтаксической структуры предложения [6]. Весьмаусловно можно выделить три основных подхода к созданию моделей: генеративныйподход, восходящий к идеям Хомского [7], подход, восходящий к идеям И.

Мельчукаи представленный моделью «Смысл⇔Текст» [42], а также подход, в рамках которогоделаются те или иные попытки преодолеть ограничения первых двух подходов, вчастности, теория синтаксических групп [33].В рамках генеративного подхода синтаксический анализ производится, какправило, на основе формальной контекстно-свободной грамматики, описывающейфразовую структуру предложения, или же на основе некоторого расширенияконтекстно-свободной грамматики. Эти грамматики исходят из последовательноголинейного членения предложения на фразы (синтаксические конструкции, например,именные группы) и отражают поэтому одновременно как его синтаксическую, так илинейную структуры.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее