Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 52

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 52 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 522020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 52)

14.2.). Другие авторы указывают, что вриторической структуре имеет место пересечение ветвей и множественное подчинение,что требует для представления менее жестких структур (Wolf, Gibson, 2005).2Elaboration2Elaboration2BackgroundJustificationWith itsdistant orbit(50 percentfarther fromthe sun thanEarth) andslimatmosphericblanket,(1)8Example3ElaborationMarsexperiencesfrigidweatherconditions(2)Surfacetemperatures typicallyaverageabout -60degreesCelsius (-76degreesFahrenheit)at theequator andcan dip to 123 degreesC near thepoles(3)8Concession45ContrastOnly themidday sunat tropicallatitudes iswarmenough tothaw ice onoccasion,(4)5EvidenceCausebut anyliquid waterformed inthis waywouldevaporatealmostinstantly(5)Although theatmosphereholds asmallamount ofwater, andwater-icecloudssometimesdevelop,(7)because ofthe lowatmosphericpressure(6)MostMartianweatherinvolvesblowing dustand carbonmonoxide.(8)10AntithesisEach winter,for example,a blizzard offrozencarbondioxiderages overone pole,and a fewmeters ofthis dry-icesnowaccumulateaspreviouslyfrozencarbondioxideevaporatesfrom theoppositepolar cap.(9)Yet even onthe summerpole, wherethe sunremains inthe sky allday long,temperatures neverwarmenough tomelt frozenwater.(10)Рис.14.1.

Пример построенной риторической структуры документа(Carlson и др., 2003).Для исследования возможностей автоматического построения риторическойструктуры текста создаются различные корпуса текстов с разметкой риторическойструктуры. Первым таким корпусом с разметкой риторической структуры являетсяанглоязычный корпус, созданный на базе корпуса Penn Tree Bank (Carlson и др., 2003).Корпус включает 385 документов, для разметки используется 110 риторическихотношений, которые объединены в 18 классов.На основе этого корпуса создан статистический парсер, который позволяетпостроить структуру дискурса в терминах теории RST (Soricut, Marcu, 2003).

Парсервыполняет две задачи. Во-первых, это разделение предложений на элементарныедискурсивные единицы (простые предложения, причастные и деепричастные обороты).Во-вторых, парсер должен построить иерархию выделенных дискурсивных единиц иустановить дискурсивное отношение между ними.193Приводятся данные, что парсер разделяет предложения на дискурсивные единицыс полной и точностью порядка 82%, разметка отношений между единицами по 18 классамотношений производится с 49% F-меры, по 110 типам отношений – 45% F-меры.

Согласиемежду экспертами при ручной разметке составляет 77% для разметки по 18 типамотношений, и 71.9% для разметки по 110 отношениям.Разные типы текстов могут иметь разное риторическое устройство. Значительноечисло исследований посвящено риторическому анализу научных публикаций.В работе (Swales, 1981) выделяет 4 основных риторических подструктуры введенийв научную публикацию: указание сферы исследования, описание имеющихся результатовв данной сфере, описание собственных усилий в данной области, введение данногоисследованияВ работе (Teufel, Moens, 2002) рассматриваются 7 риторических отношений длянаучных публикаций:Aim – формулировка цели статьи,Textual – описание структуры статьи,Own - описание собственных методов, результатов,Background - общепринятое научное знание,Contrast – Указание на недостатки других работ,Basis – Указание на согласие с другими работами или на продолжение другихработOther – Нейтральное описание других работ.Предлагаемый в работе риторический анализ не является иерархическим.

Авторыработы подчеркивают, что хотя они согласны с авторами теории RST, что в большинствослучаев риторическая структура текста является иерархической, но вместе с тем ониуказывают, что имеется некоторый набор текстовых фрагментов, чей риторический статусможет быть определен без анализа полной иерархической структуры текста. Другоеотличие предлагаемого риторического анализа состоит в том, что определениериторического статуса текстового фрагмента производится не по отношению к соседнимтекстовым фрагментам, а по отношению к тексту статьи в целом.На основе выделенных риторических отношений была разработана аннотационнаясхема, которая была использована для разметки 80 статей из конференций покомпьютерной лингвистике.Созданная разметка послужила основой для создания автоматической системыразметки научных публикаций на базе машинного обучения с использованием наивногоБайесовского классификатора.Для обучения были выделены следующие характеристики:- расположение предложения в тексте, измерялось разбиением текста на10 частей;- расположение предложения внутри секции;- относительная позиция предложения в абзаце;- длина предложения;- содержание слов заголовка;- содержание важных слов документа, измеренных вычислением меры tf*idf;- грамматическое время глагола;- модальность глагола;- наличие цитат.Результаты работы программы были сопоставлены с ручной разметкой.

Быливычислены точность, полнота и F-мера. Наиболее сложным для системы оказалиськатегории Contrast (F-мера = 26%) и Basis (F-мера = 38%).19414.1.3. Когезия как структурная связность текстаЕще одним видом связности в тексте является когезия, представляющая собойсовокупность лексических и грамматических средств для выражения связей междуединицами текста.

Когезия может выражаться в тексте несколькими разными способами(Halliday, Hasan, 1976; Кронгауз, 2001; Гальперин, 1984; Селезнев, 1987).1) Когезия в тексте может осуществляться с помощью специальнопредназначенных для этого слов, называемых дискурсивными, которые включают чащевсего союзы и частицы, например, Шел дождь, поэтому на улице никого не было.2) Частым видом когезии является лексический повтор или лексическая связность.Авторы известной работы (Halliday, Hasan, 1976) классифицируют лексическуюсвязность на пять категорий:- повторение – употребляется одно и то же слово;- синонимическое повторение;- связность через обобщение или специализацию (родовидовые отношения);- связность через отношения часть-целое, например, Детский сад откроют нераньше понедельника.

Еще предстоит просушить все комнаты. (комнаты какчасть детского сада);- связность через коллокацию, сюда же относится антонимия. Такие отношениямогут быть выявлены путем статистики частого совместного упоминания слов.Последние четыре вида лексической связности могут быть названысемантическим повтором.3) Также распространенным видом когезии является использование анафорическихотсылок, например, с помощью местоимений: Иван поехал на работу. Он сел в трамвай.4) Еще одним поверхностным способом выражения когезии следует считатьэллипсис.

Эллипсисом называется пропуск в тексте подразумеваемой языковой единицы,например, Врач прописал ему лекарство и отпустил (…) домой.Компьютерное моделирование всех этих явлений достаточно сложно.Наиболее сложно автоматическое восстановление пропуска в виде эллипсиса, инам неизвестны компьютерные приложения, которые бы в значительной мере учитывалиэтот вид связности.Имеется множество работ, посвященных установлению референтов местоимений,однако явления анафоры и кореферентности значительно более разнообразны, чем даннаяпроблема. Многие существительные и именные группы, формально сильно отличающиесяпо смыслу, могут иметь одного и того же референта, например,По ошибке медсестры пациенту был сделан укол гидроморфона - похожего наморфин по названию и действию...

Свою ошибку медики осознали после пересчетанаркотических средств и сразу позвонили родственникам мужчины.Дискурсивные элементы традиционно используются при автоматическомпостроении аннотаций, особенно аннотаций научных статей см. например, (Саломатина,Гусев, 2006; Toefel, Moens, 2002; Advances in Automatic text summarization 1999; Блюменауи др., 2002)В настоящее время дискурсивные слова являются одним из наиболеесущественных факторов при построении риторической структуры текста (см.

раздел14.1.2.). Однако проблемами использования дискурсивных единиц при построениииерархической структуры текста являются:- их неоднозначность,- их отсутствие во многих предложениях для некоторых типах текстов,195сложность автоматического установления отношения к предшествующемуфрагменту текста.Из всех этих отношений лексическая связность является наименее имплицитной иможет быть выявлена с помощью имеющихся лингвистических ресурсов таких, кактезаурусы.Многие авторы указывают, что лексическая связность – это не просто связи междупарами слов текста, а достаточно длинные цепочки слов, близких по смыслу.Так, Кронгауз (Кронгауз, 2001) пишет, что средством когезии является вообщеподбор тематической лексики, то есть лексики, относящейся к одному семантическомуполю, и соответственно повтор в тексте интегральных признаков этого поля.В работе (Morris, Hirst, 1991) указывается, что лексическая связность возникает нетолько между парами слов, но связывает между собой группы слов текстового фрагмента,посвященного одной и той же теме.Т.В.

Матвеева пишет, что тему текста представляют: первичная тематическаяцепочка (прямое название предмета речи, которое обозначается чаще всего нейтральным,общеупотребительным словом) и вторичные (дополнительные), к которым относятсясубституты, трансформы, синонимы, местоимения, родовые обозначения вместо видовыхи т.д.В работе (Зубов, Зубова, 2006) рассматриваются цепочки семантически связанныхслов в стихотворных текстах такие как «вечер», «утро», «час», «секунда» (имеютсемантический признак «время»); «мир», «даль», «расстояние»; «поезд», «путь»,«движение»; «тело», «рука», «глаза»; «открытка», «поздравление», «привет»(семантический признак «расстояние»).В работе (Hasan, 1984) рассматривается понятие «гармонии связности»,посредством которого делается попытка формализовать отношения внутри предложения имежду предложениями.

Гармония связности базируется на цепочках когезии, в том числелексических цепочках,и семантических отношениях, таких как агенс, объект,инструмент, между элементами разных цепочек, устанавливаемыми внутрипредложений. R. Hasan указывает, что два языковых выражения должны рассматриватьсякак единицы одной цепочки, если они более чем один раз выступали в одном и том жеотношении в рамках какой-либо ситуации или по отношению к какой-либо третьейсущности. Подчеркивается, что единство текста основывается на том, что «похожие вещиговорятся о похожих или тех же самых сущностях или событиях. Тексты, в которыхбольше сущностей участвуют в гармонии связности, рассматриваются людьми как болеесвязные.Алгоритмы автоматического выделения лексических цепочек будут рассмотрены вследующем разделе.-14.2. Моделирование лексической связности на основе тезаурусовПервой работой, в которой предлагалось использовать имеющиеся тезаурусы дляавтоматического выявления лексической связности текста в виде лексических цепочек ибыли предложены алгоритмы построения лексических цепочек на основе тезауруса Роже,была работа (Morris, Hirst, 1991).В работе указывалось, что лексическая связность возникает не только междупарами слов, но связывает между собой группы слов текстового фрагмента, посвященногоодной и той же теме.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6358
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее