Главная » Просмотр файлов » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 17

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 17 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 172020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 17)

Информационный анализ неизбежно сопряжен с потерей части информации(информационный сброс). Определение более или менее информативныхсоставляющих текста может и должно опираться на лингвистические исследования.Реализация процедур понимания «снизу – вверх» (от поверхностных структур кденотативным представлениям) описывается следующим образом: «основноеназначение лингвистических структур … состоит в том, чтобы создавать контекст,необходимый и достаточный для вычленения на каждом уровне информативныхединиц, которые переходят в структуры следующего уровня» [125: 31].Лингвистически контролируемый информационный сброс позволяет автоматуфункционировать в отсутствие идеальных условий: снимать структурныеТак, например, переход к новой предметной области требует построения новой системы автоматическогопонимания.4352ограничения на обрабатываемые тексты (например, автомат может принимать на входсинтаксически неправильные или неполные предложения), допускает работу снеполными словарями и базами знаний.

Возможно, исследование функционированиятакого рода модели может рассматриваться как моделирование понимания текста«искусственным носителем языка» в разных коммуникативных условиях, для текстовразных функциональных стилей.Одним из наиболее востребованных механизмов автоматической обработкитекста является его компрессия. Задачей такого рода компрессии является получениереферата и/или аннотации: компактной формулировки содержания одного текста илимонотематического массива текстов (группы текстов на одну тему). Принципы истепень сжатия определяются, как правило, задачами конкретной системы. Реферати/или аннотация являются вторичными текстами.Основным проблемным вопросом, решаемым при моделировании пониманиятекста автоматом (и построения вторичных текстов), являются цельность и связностьтекста.

Решение такого рода вопроса невозможно без обращения к проблемамреференции. Формализуемыми (в разной степени) средствами обеспечения связностиявляются следующие:• повторяющиеся в тексте понятия (субъекты, объекты, явления и т.д.) в одномлексическом выражении;• повторяющиеся в тексте понятия (субъекты, объекты, явления и т.д.) в разныхлексических выражениях (например, в виде однокоренных дериватов или словодного лексико-семантического поля)44;• местоимения и местоименные слова (см., например, [134]), чаще всего они такжеотносятся к средствам выражения повторяющихся в тексте понятий;обозначающиеобобщенныелогико• «слова-текстопостроители»45,композиционные связи между элементами – разного уровня составляющими –текста (например, итак, резюмируя, следовательно, особо подчеркнем, все же,так же, однако и т.д.);• союзные слова характеризующие, главным образом, связи между клаузами, а непредложениями и занимающие промежуточное положение: с одной стороны, онипередают синтаксические отношения (как союзы), с другой стороны, их значениесоотносятся со значением некоторого полнозначного знаменательного слова(повтор понятия в предложении).Для повторения одних и тех же понятий вне зависимости от их лексическоговыражения И.П.

Севбо вводит понятие нанизывание [146]. Для получениякомпрессированного текста предварительно необходимо осуществить его«развертывание»: в итоге для текста строятся схемы нанизывания через каноническиекусты, в которых восстанавливаются все связи46. В своей (уже ставшей классической)Вопрос о частоте встречаемости в тексте таких единиц, как словоформы и лексемы (то есть в одномлексическом выражении) и таких классов, как «класс условной эквивалентности» и «однокоренной классусловной эквивалентности» лексемы (то есть в разном лексическом выражении) рассматривается в главах 4–6.Признак «частота встречаемости в тексте» рассматривается в настоящей работе в контексте исследованиякоммуникативной структуры текста, формировании наборов ключевых слов текста и процедур«поверхностного понимания» в целом.45И.П.

Севбо называет эти слова опорными [146], в настоящей же работе понятие опорные слова вводитсясовсем в другом смысле: как наиболее распознающиеся (подробнее см. выше).46Пример записи текста в канонических кустах (из [146]):1) Боязливые жители вашего города травили меня (Ланцелота) собакамиа 2) собаки у вас (жителей) очень толковые4453книге «Структура связного текста и автоматизация реферирования» И.П. Севбоописывает результат своего эксперимента по составлению аннотации текстов разныхфункциональных жанров на основании особенностей нанизывания: синтаксическаяструктура упрощенных нормализованных предложений и сведения о повторяемости втексте понятий и слов.Обычно для автоматического реферирования используют один из следующихспособов (иногда комбинацию способов) (см., например, [146] и многие др.):1.

На основании статистического алгоритма из текста отбираются наиболеесущественные предложения. На следующем этапе на основании синтаксическогоанализа из этих предложений выделяются наиболее значащие фрагменты.2. На первом этапе применяется алгоритм синтаксического анализа предложенийтекста, в результате чего выделяются наиболее существенные части этихпредложений. На следующем этапе статистическому анализу подвергаются лишьнаиболее существенные части предложений текста.3. «Вес слова» определяется на основании статистического и синтаксическогоанализа, так, в зависимости от синтаксической роли одно и то же существительноебудет иметь разный вес (например, существительное в роли подлежащего болеезначимо, чем это же существительное в составе предложно-падежнойконструкции).По-видимому, в идеале перечисленные способы автоматического реферированиядолжны, во-первых, выделять наиболее значимые для понимания текста слова,конструкции и предложения, а во-вторых, характеризовать распределение этихнаиболее значимых единиц (а) в структуре текста и (б) в структуре высказываний каксоставляющих текста.

Следовательно, налицо необходимость соотнесенияисследований в области автоматического реферирования и моделирования«поверхностного» восприятия и понимания текста человеком, то есть в условияхограничений на «базу знаний» адресата. Разработано нескольких эффективныхалгоритмов реферирования для информационно-аналитических и научно-техническихтекстов (например, [58; 74]).В этом отношении большой лингвистический интерес вызывает только чтовышедшая монография Н.В.Лукашевич «Тезаурусы в задачах информационногопоиска» и те главы, которые посвящены как описанию связности текста, так исозданию по их результатам моделей автоматического реферерирования [126].

Насбольше интересуют экстрактивные аннотации, использующие фрагменты исходноготекста (система анализа текста) для порождения текста аннотации (вторичноготекста). В работе указываются те лингвистические признаки, которые лежат в основеопределения веса (уровня значимости) фрагмента (от слова до предложения): позицияв тексте, частотность слов, именованные сущности и т.д. Одним из новых и наиболееактуальных (во всяком случае в лингвистическом смысле) вопросов являетсясоздание аннотации на основе многих текстов (вероятно, в качестве таких наборов. 3) вот с ними-то (собаками) я (Ланцелот) подружился. 4) они (собаки) меня (Ланцелота) поняли, потому что 5) (собаки) любят своих хозяев (жителей)и 6) (собаки) желают добра им (своим хозяевам, жителям).

мы (Ланцелот и собаки) болтали почти до рассветаИсходный текст: Ланцелот. Боязливые жители вашего города травили меня собаками. А собаки у вас оченьтолковые. Вот с ними-то я и подружился. Они меня поняли, потому что любят своих хозяев и желают имдобра. Мы болтали почти до рассвета (Шварц 1962: 334)54документов могут выступать кластеры (сюжеты), тексты, организованные в циклы, а,возможно, и более сложные лингвистические информационные объекты). Присоставлении таких аннотаций (обзорных рефератов) «необходимо решать такиевопросы, как:- борьба с избыточностью информации,- идентификация важных различий между документами,- обеспечение тематической связности текста, что усложняется тем, чтопредложения могут браться из разных источников» [126: 266].Проблема модели аннотирования оказывается на стыке не только разныхпараграфов (этой главы), но и разных глав: текущей и следующей. Лингвистическизначимым является анализ композиционной структуры текста (или анализриторических отношений в терминах теории риторических структур [75]).

Даже длянаучных текстов выделяются разные типы (в разном количестве и с разными весами)композиционных (или риторических) структур. И это возвращает нас к проблемеоднородности коллекции или кластера не только в отношении тематической, ностилевой однородности [70]. Как уже было сказано, композиционную структуру мырассматриваем как одну из стилевых характеристик текста или коллекции. Некоторыестилевые характеристики можно предсказать уже на уровне задачи описанияисходных параметров выбора коллекции: событие, череда сходных событий,аналитика, интервью и т.д.§ 3.4.Коммуникативная и информационная (смысловая) структурытекстаПри восприятии речи основной задачей адресата является извлечение смысла(значения) или, вернее, смысловой структуры, которая отвечает тексту как некоторойцелостности. Смысловая структура суть «структура содержания» в отличие отрассматриваемой в предыдущей главе просодической структуры.

Смысловаяструктура заведомо многослойна и неоднородна. По-видимому, плодотворновыделять два типа смысловых структур: коммуникативная и собственно смысловаяструктуры. Далее, каждый из этих типов смысловых структур делится еще на дваподтипа:o коммуникативная структура:• тема-рематическая;• структура «данное vs. новое»;47o информационная (собственно смысловая) структура :• структура пропозиций;• структура «ключевые слова vs.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6361
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее