Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 34
Текст из файла (страница 34)
Н. Ярцевой, М.:Советская энциклопедия, 1990, 685 с.39. Лукашевич Н.В., Салий А.Д. Тезаурус для автоматического индексирования ирубрицирования: разработка, структура, ведение. // НТИ, Сер. 2, №1, 1996.40. Люгер Дж. Искусственный интеллект: стратегии и методы решения сложныхпроблем. М., 2005.41. Маккьюин К. Дискурсивные стратегии для синтеза текста на естественном языке //Новое в зарубежной лингвистике. Вып. XXIV. М.: Прогресс, 1989, с.311-356.42. Мельчук И.А. Опыт теории лингвистических моделей «СМЫСЛ ↔ ТЕКСТ». —М., Наука, 1974.43. Национальный Корпус Русского Языка.
http://ruscorpora.ru44. Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации измультиязычных коллекций документов // Девятая Национальная конференция поискусственному интеллекту с международным участием КИИ-2004. Т. 2. – М.:Физматлит, 2004, с.573-581.45. Шевченко Н.В. Основы лингвистики текста: учебное пособие – М.: Приор-издат,2003.105ЧАСТЬ III.НАЧАЛЬНЫЕ ЭТАПЫ АНАЛИЗА ТЕКСТА(КЛЫШИНСКИЙ Э.С.)Глава 1.Этапы анализа текстаСамые большие возможности и высокое качество анализа текстов можнополучить, проведя его полный анализ. Однако сложности, возникающие при созданииподобного анализа таковы, что на практике до сих пор не реализованы всетеоретические положения, разработанные на данный момент. Основнымипроблемами здесь являются сложность синтаксического анализа текста и сложностьсоздания полноценной экспертной системы, реализующей полноценную модельокружающего мира.
Сложность анализа текста заключается в том, что текстэллиптичен, неполон и насквозь пронизан умолчаниями. Ярким примером можетслужить китайский театр, в котором человек, который при ходьбе выбрасывает встороны несгибающиеся ноги и поглаживает бороду, воспринимается какположительный гражданский герой, тогда как «обольстительная красавица» должнапереступать плотно сжав колени.
Аналогично и в тексте встречаются конструкции,предназначенные скорее для живого воображения, чем для формальной обработки:«давить мух», «сделать ноги». Анализ подобных текстов может составить серьезнуюпроблему не только для ЭВМ, но и для человека, так как большинство ситуацийимело под собой какую-то реальную или вымышленную основу и вставка их в текстслужит как бы ссылкой на такую ситуацию (хотя зачастую большинство может уже ине помнить о чем идет речь, а просто восстанавливает истинный смысл фразы).Для полноценной работы система анализа текста должна иметь возможностьпроанализировать тест, поданный пользователем на вход, с точки зрения синтаксиса(структуры предложений), семантики (понятий, применяемых в тексте) и прагматики(правильности употребления понятий и целей их употребления).
Далее системадолжна сгенерировать свой отклик во внутреннем представлении, пригодном длялогического вывода, и просинтезировать свой отклик на естественном языке.В целом система, поддерживающая полный анализ, должна содержать в себеследующие модули.Графематический анализ – обеспечивает выделение синтаксических илиструктурных единиц из входного текста, который может представлять собойлинейную структуру, содержащую единый фрагмент текста. Однако в более общемслучае текст может состоять из многих структурных единиц: основного текста,заголовков, вставок, врезок, комментариев и т.д. При машинном переводе ставитсязадача сохранить подобную структуру текста. Однако в случае диалоговых системобычно используется первый вариант (без вставок). Но и в этом случаеграфематический анализ должен выделять синтаксические единицы: абзацы,предложения, отдельные слова и знаки препинания.
В ряде случаев здесь жепроводится предморфологический анализ – объединение неразрывных неизменяемыхсловосочетаний в одну единицу: «_что_-_то_», «_таким_образом_», «_и_так_далее_»,….Морфологический анализ – обеспечивает определение нормальной формы, откоторой была образована данная словоформа, и набора параметров, приписанныхданной словоформе.
Это делается для того, чтобы ориентироваться в дальнейшемтолько на нормальную форму, а не на все словоформы, использовать параметры,например, для проверки согласования слов.106Предсинтаксический анализ отвечает за две противоположные задачи:объединение отдельных лексических единиц в одну синтаксическую или, наоборот,ее разделение на несколько. В одну синтаксическую единицу объединяютсяизменяемые неразрывные словосочетания (например, «бить баклуши»). Делениемслов особенно необходимо заниматься, например, в немецком языке, где несколькопроизвольных связанных между собой слов могут объединяться в одно сложное «налету», а помещать в морфологический анализ все подобные сочетания непредставляется возможным. Еще одной задачей предсинтаксического анализаявляется проведение синтаксической сегментации.
Её задачей является разметкалинейного текста на фрагменты, привязанные правилам следующего этапа –синтаксического анализа, который является задачей с экспоненциальным ростомсложности. В связи с этим любая помощь при его проведении может привести ксущественному ускорению его работы.Синтаксический анализ – самая сложная часть анализа текста. Здесь необходимоопределить роли слов и их связи между собой.
Результатом этого этапа являетсянабор деревьев, показывающих такие связи. Выполнение задачи осложняетсяогромным количеством альтернативных вариантов, возникающих в ходе разбора,связанных как с многозначностью входных данных (одна и та же словоформа можетбыть получена от различных нормальных форм), так и неоднозначностью самихправил разбора.Постсинтасический анализ служит двум целям. С одной стороны намнеобходимо уточнить смысл, заложенный в слова и выраженный при помощиразличных средств языка: предлогов, префиксов или аффиксов, создающих ту илииную словоформу.
С другой стороны, одна и та же мысль может быть выраженаразличными конструкциями языка. В случае с многоязыковой диалоговой системой,одну и ту же мысль можно выразить различными синтаксическими конструкциями. Всвязи с этим дерево необходимо нормализовать, т.е. конструкция, выражающаянекоторое действие различным образом для различных языков или ситуаций, должнабыть сведена к одному и тому же нормализованному дереву. Кроме того, на этом жеэтапе может проводиться обработка разрывных изменяемых словосочетаний, вкоторых слова словосочетания могут изменяться и могут быть разделены другимисловами («белый офицер» vs «белый корниловский офицер»).Семантический анализ проводит анализ текста «по смыслу».
С одной стороны,семантический анализ уточняет связи, которые не смог уточнить постсинтаксическийанализ, так как многие роли выражаются не только при помощи средств языка, но и сучетом значения слова. С другой стороны, семантический анализ позволяетотфильтровать некоторые значения слов или даже целые варианты разбора как«семантически несвязные».Этапом семантического анализа заканчивается анализ входного текста.Последующие этапы требуются для генерации отклика, например, в ходе диалога спользователем или при переводе документов с иностранного языка для ихдальнейшей обработки аналитиком.
Сам отклик может, например, выбираться изнекоторого корпуса текстов или генерироваться «на лету». В случае генерации ответанеобходимо провести следующие этапы синтеза.Генерация внутреннего представления отклика. Прежде, чем давать какой-либоотклик, диалоговая система должна сформулировать ответ. Для этого ей, например,может потребоваться собрать и проанализировать какую-то информацию.
Отклик107системы будет зависеть от состояния диалога и других параметров. После этогонеобходимо определить форму ответа (или вопроса), подставить в него конкретныеслова и значения и лишь затем приступать к синтаксическому синтезу текста отклика.Предсинтаксический синтез. Задачи данного этапа прямо противоположнызадачам постсинтаксического анализа. Здесь мы обязаны вернуть в предложениеязыкозависимые конструкции, пытаясь раскрыть роль слов средствами языка. Взависимости от контекста необходимо выбрать ту или иную форму выражения ролислов и основных идей предложения, расшифровать словосочетания, развернутьнормализованное дерево.Синтаксический синтез превращает дерево предложения в линейный порядокслов.
При этом осуществляется согласование параметров слов между собой.Предморфологический синтез разъединяет слова, объединенные в целяхэкономии смысла в единую лексическую единицу. Здесь же может осуществлятьсяобратная задача: слияния отдельных слов в одно, если того требуют правила языка.Морфологический синтез по нормальной форме слова и его параметрам находитсоответствующую словоформу.Графематический синтез объединяет слова в единый текст, следит засоответствием фрагментов входного текста фрагментам выходного.
На этом синтезотклика заканчивается.Генерация отклика в разной мере присуща всем видам диалоговых систем,некоторым видам систем составления рефератов текста, статистического анализатекста, генерации текстов. Вопросно-ответные системы могут генерировать откликкак результат обработки запроса пользователя, системы общения обязаны делать этопо определению, исполнительные системы могут комментировать происходящее илигенерировать ответ на запрос пользователя. Но действия систем не ограничиваютсятолько генерацией ответов. Вопросно-ответные системы должны сконвертироватьзапрос пользователя в какой-либо запрос на формальном языке (например, SQL припоиске в базе данных) и на основании полученных результатов решить, какой видответа необходимо выбрать. Исполнительная система должна определить алгоритмвыполнения запроса пользователя и реализовать его.