Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 29

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 29 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 292017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 29)

Под текстамипонимаются любые образцы речи – устной и письменной, любого жанра, но восновном КЛ рассматривает письменные тексты. Текст имеет одномерную, линейнуюструктуру, а также несет определенный смысл, язык же выступает как средствопреобразования передаваемого смысла в тексты (синтез речи) и наоборот (анализречи). Текст составлен из более мелких единиц, и возможно несколько способовразбиения (членения) текста на единицы, относящихся к разным уровням.Общепризнано существование следующих уровней [36, 38]:• уровень предложений (высказываний) – синтаксический уровень;• уровень слов (словоформ – слов в определенной грамматической форме,например, столом, дружбы) – морфологический уровень;• уровень фонем (отдельных звуков, с помощью которых формируются иразличаются слова) – фонологический уровень.91Фонологический уровень выделяется для устной речи, для письменных текстовв языках с алфавитным способом записи (в частности, в европейских языках) онсоответствует уровню символов (т.к.

фонемы примерно соответствуют буквамалфавита).Уровни, по сути, есть подсистемы общей системы ЕЯ (взаимосвязанные, но вдостаточной степени автономные), и в них самих могут быть выделены подсистемы[36]. Так, морфологический уровень включает также подуровень морфем. Морфема –это минимальная значащая часть слова (корень, приставка, суффикс, окончание,постфикс).Отметим, что единицы всех перечисленных уровней, кроме фонологического,являются знаками в смысле семиотики (общей науки о знаках), поскольку имеютзначение (а отдельно взятая фонема или буква смысла не имеет).

Иерархия уровнейпроявляется в том, что более высокий уровень в большой степени обуславливаеторганизацию нижележащего уровня – так, синтаксическая структура предложения взначительной мере определяет, какие должны быть выбраны словоформы.Вопрос о количестве уровней и их перечне до сих пор остается открытым влингвистике. Как отдельный может быть выделен лексический уровень – уровеньлексем.

Лексема – это слово как совокупность всех его конкретных грамматическихформ (к примеру, лексему стол образуют формы стол, стола, столу, столом). Втексте встречаются словоформы (лексемы в определенной форме), а в словаре ЕЯ –лексемы, точнее, в словаре записывается каноническая словоформа лексемы,называемая также леммой (например, для существительных это форма именительногопадежа единственного числа: стол).Относительно синтаксического уровня может быть выделен подуровеньсловосочетаний – синтаксически связанных групп слов (купил книгу, новый год), инадуровень сложного синтаксического целого, которому примерно соответствуетабзац текста.

Сложное синтаксическое целое, или сверхфразовое единство – этопоследовательность предложений (высказываний), объединенных смыслом илексико-грамматическими средствами [38]. К таким средствам относятся в первуюочередь лексические повторы и анафорические ссылки – ссылки на предшествующиеслова текста, реализуемые при помощи местоимений и местоименных слов (они,этот и т.д.).Можно также говорить еще об одном уровне – уровне дискурса, под которымпонимается связный текст в его коммуникативной направленности. Под дискурсомпонимается последовательность взаимосвязанных друг с другом предложений текста,обладающая определенной смысловой целостностью, за счет чего он выполняетопределенную прагматическую задачу [45]. Во многих типах связных текстовпроявляется традиционная схематическая (дискурсивная) структура, организующая ихобщее содержание, например, определенную структуру имеют описания сложныхтехнических систем, патентные формулы, научные статьи, деловые письма и др.Отдельным является вопрос об уровне семантики.

В принципе, онаприсутствует всюду, где есть знаковые единицы языка (морфемы, слова,предложения). Однако наличие именно уровня зависит от существования некоторогоуниверсального набора семантических единиц, при помощи которых можно было бывыразить смысл любого высказывания. Подтверждением самостоятельности уровнясемантики считается то, что человек обычно запоминает смысл высказывания, а не92его конкретную языковую форму. Элементарные единицы этого уровня называютсясемами, и в ряде исследований считается, что таких единиц в ЕЯ не более 2 тысяч.Если сравнивать ЕЯ и искусственные языки, в частности, языкипрограммирования, которые наиболее близки к ЕЯ по выполняемымлингвистическим функциям и успешно обрабатываются автоматически, то в первуюочередь следует указать следующие их отличия, связанные с тем, что искусственныеязыки есть результат целенаправленной деятельности человека, а ЕЯ – продуктдолгого исторического, и в определенной степени стихийного развития.1) Открытость системы ЕЯ: язык постоянно изменяется (это не очень заметно впределах нескольких лет, но ощутимо по прошествии одного-двух десятилетий).Изменения касаются не только словарного запаса языка (новые слова и новыесмыслы старых), но также его синтаксического и фонетического уровней.Следствие открытости – принципиальная невозможность единожды описатьконкретный ЕЯ и построить соответствующий лингвистический процессор.Необходимо пополнение знаний о языке на всех его уровнях, а, следовательно, КЛдолжна разрабатывать средства автоматизации пополнения этих знаний.2) Нестандартная сочетаемость (синтактика) единиц на каждом уровне ЕЯ.

Вчастности, если в искусственных языках синтаксическая сочетаемость знаковдиктуется их семантикой, то в ЕЯ соединение слов на уровне предложений лишьчастично может быть описана законами грамматики. В любом языке достаточнобольшое количество грамматически правильных сочетаний реально неупотребляется, например, в русском языке правильным сочетанием являетсякрепкий чай, но не тяжелый чай (как в английском heavy tea). Тем самым, КЛдолжна вырабатывать представления нестандартной сочетаемости единиц языка.3) Большая системность ЕЯ, т.е. в нем больше число уровней, четче границы междуними, а также более выражена ассиметрия связи между единицами языка ивыражаемыми ими смыслами, проявляющаяся на всех уровнях языковой системы.Под ассиметрией понимаются нарушения регулярности этих связей, чтовыражается в таких явлениях как полисемия (многозначность) – наличие у однойединицы языка нескольких связанных между собой значений (например,полисемия слов, например: земля – суша, почва, конкретная планета); синонимия –полное или частичное совпадение значений разных единиц (например, синонимияслов: негодяй и подлец), омонимия – совпадение по форме двух разных по смыслуединиц.

Таким образом, КЛ должна иметь средства решения проблемнеоднозначности, связанной с этими явлениями.Добавим, что омонимия существенно проявляется на всех уровнях ЕЯ, укажемнекоторые ее виды:• Лексическая омонимия означает одинаково звучащие и пишущиеся слова, неимеющие общих элементов смысла, например, рожа – лицо и вид болезни.• Морфологическая омонимия – совпадение форм одного и того же слова (лексемы),например, словоформа круг соответствует именительному и винительномупадежам.• Лексико-морфологическая омонимия (наиболее частый вид) возникает присовпадении словоформ двух разных лексем, например, стих – глагол вединственном числе мужского рода и существительное в единственном числе,именительном падеже),93• Синтаксическая омонимия означает неоднозначность синтаксической структуры,что приводит к нескольким интерпретациям: Студенты из Львова поехали в Киев,Flying planes can be dangerous (известный пример Хомского) и др.Глава 4.Моделирование в компьютерной лингвистикеРазработка лингвистического процессора (ЛП) предполагает описаниелингвистических свойств обрабатываемого текста ЕЯ, и это описание организуетсякак модель языка.

Как и при моделировании в математике и программировании, подмоделью понимается некоторая система, отображающая ряд существенных свойствмоделируемого явления (т.е. ЕЯ) и обладающая поэтому структурным илифункциональным подобием.Используемые в КЛ модели языка обычно строятся на основе теорий,создаваемых лингвистами путем изучения различных текстов и на основе своейлингвистической интуиции (интроспекции).

В чем же специфика именно моделейКЛ? Можно выделить следующие их особенности [4]:• Формальность и, в конечном счете, алгоритмизируемость;• Функциональность (цель моделирования – воспроизведение функций языка как«черного ящика», без построения точной модели синтеза и анализа речичеловеком);• Общность модели, т.е. учет ею довольно большого множества текстов;• Экспериментальная обоснованность, предполагающая тестирование модели наразных текстах;• Опора на словари как обязательную составляющую модели.Сложность ЕЯ, его описания и обработки ведет к разбиению этого процесса наотдельные этапы, соответствующие уровням языка, Большинство современных ЛПотносятся к модульному типу, при котором каждому уровню лингвистическогоанализа или синтеза соответствует отдельный модуль процессора.

В частности, вслучае анализа текста отдельные модули ЛП выполняют:Графематический анализ, т.е. выделение в тексте словоформ (переход от символовк словам);Морфологический анализ – переход от словоформ к их леммам (словарнымформам лексем) или основам (ядерным частям слова, за вычетомсловоизменительных морфем);Синтаксический анализ, т.е. выявление грамматической структуры предложенийтекста;Семантический и прагматический анализ, при котором определяется смысл фраз исоответствующая реакция системы, в рамках которой работает ЛП.Возможны разные схемы взаимодействия указанных модулей (последовательнаяработа или параллельный перемежающийся анализ), однако отдельные уровни –морфология, синтаксис и семантика все же обрабатываются разными механизмами.Таким образом, ЛП можно рассматривать как многоэтапный преобразователь,переводящий в случае анализа текста каждое его предложение во внутреннеепредставление его смысла и наоборот в случае синтеза. Соответствующая модельязыка может называться структурной.Хотя полные модели КЛ требуют учета всех основных уровней языка и наличиясоответствующих модулей, при решении некоторых прикладных задач можнообойтись без представления в ЛП отдельных уровней.

К примеру, в ранних94экспериментальных программах КЛ, обрабатываемые тексты относились к оченьузким проблемным областям (с ограниченным набором слов и строгим их порядком),так что для распознавания слов можно было использовать их начальные буквы,опуская этапы морфологического и синтаксического анализа.Еще одним примером редуцированной модели, ныне достаточно частоиспользуемой, является языковая модель частотности символов и их сочетаний(биграмм, триграмм и пр.) в текстах конкретного ЕЯ [19]. Такая статистическаямодель отображает лингвистическую информацию на уровне символов (букв) текста,и ее достаточно, например, для выявления опечаток в тексте или для распознаванияего языковой принадлежности.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее