Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 90

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 90 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 902020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 90)

Тестирование аннотаций новостных кластеров Методом ПирамидМетод Пирамид основан на выделении в аннотациях отдельных единицполучаемой информации (SCU) (Harnly и др., 2005). Выделенная информационнаяединиц» получает вес, равный количеству ручных эталонных аннотаций, где онавстречается. Название «Метод пирамид» как раз и связано с тем, что информационныеединицы SCU выстраиваются как бы в пирамиду: на вершине небольшое число единиц сбольшим весом, внизу пирамиды - большое число информационных единиц с маленькимвесом. Общая оценка автоматической аннотации складывается из суммы весов SCU,которые она содержит, по отношению к общему количеству SCU для данного текста:[Суммарный _ вес _ найденных _ SCU ][Суммарный _ вес _ всех _ SCU _ для _ данного _ топика ]В качестве примера SCU и еѐ вхождений в тексты аннотаций можно рассмотретьследующие фрагменты предложений новостного кластера:SCU: Мини-субмарина попала в ловушку под водой.1.

мини-субмарина... была затоплена... на дне моря...2. маленькая... субмарина... затоплена... на глубине 625 футов.3. мини-субмарина попала в ловушку... ниже уровня моря.4. маленькая... субмарина... затоплена... на дне морском...Для сравнения качества предложенного метода аннотирования новостныхкластеров в терминах информационных был реализован известный метод аннотированияMaximal Marginal Relevance (MMR) (Carbonell, Goldstein, 1998), показавший высокоекачество аннотирования на конференции SUMMAC, а его модификации и на болеепоздних конференциях. Метод MMR – это итеративный алгоритм выбора предложений ваннотацию.

Пусть имеются: Q – запрос для аннотирования или в нашем случае общеготематического аннотирования – вектор слов всего кластера, S – множество предложений кандидатов, s – рассматриваемое предложение кандидат, Е – множество выбранных предложений.Тогда на каждой итерации предложение в итоговую аннотацию будет отбираться всоответствии с формулой:MMR  arg max  Sim1 s, Q   1     max Sim2 s, s j sSs j EПредложения итоговой аннотации сортируются в соответствии с их порядкомследования в исходном документе.Для предложенного нами метода аннотирования новостного кластера и методаMMR была применена пирамидная оценка.

Сравнивались аннотации длиной 100 слов.Наш метод аннотирования получил среднюю оценку 0.638, метод MMR - 0.643. Такимобразом, по полноте изложения информации предложенный нами метод не показаллучшие результаты. На наш взгляд, это частично связано с тем, что для обеспечения337лучшей связностипредложениях.аннотациитребуетсянекотораястепеньповторяемостив22.3.4.3.

Оценка связности аннотаций новостных кластеровТестирование связности и читабельности автоматических аннотаций можетпроизводиться только человеком. Была применена следующая процедура: лингвистдолжна была читать каждый вид аннотации последовательно от предложения кпредложению, и каждому предложению выставить некоторый штрафной балл:0.0 – если предложение «хорошее» (связано с остальными предложениями,качественно вписывается в данную аннотацию и т.д.),1.0 – если предложение «плохое» (не связано с другими предложениями, являетсялишним в данной аннотации и т.д.)0.5 – в спорных ситуациях.Таким образом, каждый вид аннотации получил некоторую совокупностьштрафных баллов, чем меньше баллов, тем лучше. В среднем аннотации, порожденныеметодом MMR, получили 0.7 штрафных баллов, нашим методом – 0.3 балла (Алексеев,Лукашевич, 2010).Заключение к главе 22.Описанные методы аннотирования отдельного документа и новостного кластера наоснове тематического представления позволяют решать такие проблемы методовавтоматического аннотирования как обеспечение полноты представления содержания,снижения повторов, обеспечения связности аннотации.Основная суть предложенных методов автоматического аннотированиязаключается в выявлении основных участников обсуждаемой в тексте или кластереситуации и в предположении, что наиболее информативными являются предложения, вкоторых сообщается информация о взаимодействии этих сущностей.Полнота передачи содержания документа (документов) обеспечивается тем, чтоотбираются предложения, упоминающие основных участников ситуации.

Снижениеповторов становится возможным, поскольку один и тот же участник ситуации может бытьраспознан в значительном разнообразии текстовых выражений. Кроме того, снижениеповторов обеспечивается обязательным упоминанием нового, еще не упомянутогоэлемента тематического представления в очередном предложении аннотации. Наконец,связность аннотации обеспечивается повторяемостью тематических узлов и именованныхсущностей.Выявленные закономерности построения аннотаций новостных кластеров необязательно требуют наличие тезауруса.

Нахождение основных участников ситуацииможет быть смоделировано на основе совершенно других нетезаурусных методовобработки текстов, а фактор необходимости упоминания в предложениях аннотации, покрайней мере, двух основных участников может быть добавлен как фактор в совокупностьучитываемых факторов, таких как вес предложения, сходство с заголовком, позиционноерасположение и др.Описанный метод построения обзорных рефератов позволяет в широких пределахварьировать представление кластера при сохранении уровня отображения содержания исвязности. Можно задавать как количество документов (исходящих ссылок), отражаемыхв аннотации, так и количество предложений из каждого документа. В частности, могутбыть смоделированы аннотации, формируемые в ресурсе Яндекс.Новости (до трехчетырех документов по одному-два предложения), или аннотации, формируемые вресурсе Google.Новости (три-четыре предложения из одного документа и два заголовка издругих документов), или Рамблер.Новости (три предложения из одного документа и дватри предложения из других документов).338В случаях когда основной аннотацией кластера служит аннотация отдельногодокумента, сначала порождаются автоматические аннотации отдельных документовкластера, отбирается лучшая такая аннотация по признаку наибольшего покрытиятематического представления кластера.

Дополняющие предложения из других документовновостного кластера выбираются с использованием описанного метода аннотированияновостного кластера.339ЧАСТЬ 6. РАЗВИТИЕ ТЕЗАУРУСА РУТЕЗ ИРЕСУРСЫ, ОСНОВАННЫЕ НА ТЕЗАУРУСЕ РУТЕЗ340Глава 23. Развитие и пополнение тезауруса РуТез23.1. Этапы развития тезауруса РуТезРазвитие тезауруса РуТез началось в 1994 году с разработки Общественнополитического тезауруса (Лукашевич, Салий, 1996; Лукашевич, Салий, 1997). Основойсоздания Общественно-политического тезауруса стали автоматически извлекаемые изнормативных документов Российской Федерации слова и терминоподобныесловосочетания (Лукашевич, 1995).

Извлеченные слова и терминоподобныесловосочетания просматривались людьми, которые принимали решение о включении илиневключении данных выражений в тезаурус, об их статусе (образование нового понятияили включение в существующий синонимический ряд), проставляли отношения междупонятиями тезауруса.Процедура автоматизированного извлечения терминоподобных словосочетанийпроработала около 4 лет до тех пор, пока эффективность ее не стала слишком низкой,поскольку число выявленных новых терминов на тысячу просмотренных словосочетанийрезко сократилось.В 1995-1996 заработали первые приложения на базе создаваемого Общественнополитического тезауруса: автоматическое разрешение лексической многозначности,моделирование лексической связности посредством автоматической группировки близкихпо смыслу терминов, упоминаемых в текстах, выявлялись основные понятия текста впроцессе автоматического построения тематического представления, была реализованапроцедура автоматической рубрикации с выводом рубрики по отношениям тезауруса.Эти процедуры стали серьезной проверкой для наполнения терминологическогонаполнения тезауруса, качества описания отношений.

Выяснилось, что нужно исследоватьпринципы описания отношений в тезаурусе, на основе которых можно было быобеспечить качественную реализацию их разнообразных функций в рамках процедуравтоматической обработки текстов.В 1996 встал вопрос о том, можно ли использовать тот же тезаурус,сформированный на базе нормативных документов, для автоматической обработкигазетных статей и новостных сообщений. Выяснилось, что и нормативные акты, исообщения средств массовой информации могут быть отнесены к одной и той же широкойобласти современных общественных отношений, только различается язык написания этихтекстов и существенен разный уровень детализации для разных подобластей.

Такимобразом, Общественно-политический тезаурус стал использоваться для автоматическойобработки сообщений СМИ и соответственно стал пополняться и уточняться на базеанализа результатов работы этих автоматических процедур.В течение первых лет своего развития Общественно-политический тезауруспополнялся, в основном, терминологией из разных областей общественной жизни итематической лексикой, с 1997 года в те же тезаурусные структуры, на основе толкованийтолковых словарей, стали представляться значения слов и выражений, которые могутупотребляться в разных предметных областях – возникло то, что теперь называетсяОбщим лексиконом. Также на основе толковых словарей выявлялась и дополняласьтематическая лексика, расширялось покрытие Общественно-политического тезауруса.Собственно с этого момента Общественно-политический тезаурус стал перерастать втезаурус русского языка РуТез (Лукашевич 1999, Лукашевич, Добров, 2002).В 2000 году на основе тезауруса РуТез была реализована автоматическаярубрикация нормативных актов Российской Федерации по так называемомуПрезидентскому классификатору, содержащему более 1000 рубрик.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее