Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 88

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 88 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 882020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 88)

Поэтому в качестве структурной аннотации может быть использованывыделенные основные тематические узлы тематического представления. Посколькупонятия Общественно-политического тезауруса переведены на английский язык,структурная тематическая аннотация может быть создана для русскоязычного илианглоязычного текста и представлена на русском или английском языках.В значительной мере мы используем структурную тематическую аннотацию длявыверки Тезауруса. Сопоставив полученное тематическое представление с текстом,можно оценить, соответствуют ли основные тематические узлы, построенные для данноготекста, основной теме текста.

Существенные расхождения могут быть связаны снедостаточной точностью описания терминов текста в Тезаурусе, например терминвообще не описан в Тезаурусе; термин описан в Тезаурусе в другом значении; терминвключен не в тот синонимический ряд; в тезаурусной проекции текста соответствующийтермину дескриптор имеет неверные связи с другими дескрипторами; и тому подобное .Структурная тематическая аннотация включает в себя следующие части:- понятия основных тематических узлов, упорядоченных в порядке убываниячастотности и расположенных горизонтально;- отметки об относительно суммированной частотности основных тематическихузлов, обозначаемые различным количеством символов ―*‖;- отметки об относительной силе взаимоотношений между различнымитематическими узлами ‖X―-- очень сильное отношение; ‖z‖-- сильное отношение;328 ‖.‖ -- отношение.В качестве примера рассмотрим (Рис.22.1) структурную тематическую аннотациюФедерального закона об информации, информатизации и защите информации РоссийскойФедерации (40 Кб, 164 различных термина).┌─────────────────────────────────────────────────────────────────**** │ информация; информационное обеспечение; информатика;| достоверность информации; словарь|┌────────────────────────────────────────────────────────────**** | X | информационная система; собственность; право собственности;|| наука и техника; электронная техника||┌───────────────────────────────────────────────────────**** | X | z | федеральное законодательство; закон; законность; правовая система;||| нормативный акт; основные гражданские права|||┌───────────────────────────────────────────────────**** | X | z | .

| Государственная Дума; орган государственной власти;|||| сертификация; промышленная политика; государственная политика||||┌──────────────────────────────────────────────**** | X | . | z | . | гражданин; человек; население; физическое лицо; тайна;||||| демографическая ситуация; семейная тайна; частная жизнь|||||┌─────────────────────────────────────────**** | z | X | . | . | . | информационная технология; технология; компьютер;|||||| электронная техника; компьютерная технология;||||||┌────────────────────────────────────*** | z | . | . | . | . | .

| права человека; права граждан; моральный ущерб;||||||| равноправие; основные гражданские права|||||||┌───────────────────────────────*| . | . | . || . | . || потребитель||||||||┌──────────────────────────**| . | . | . | . | . || . || местная власть|||||||||┌──────────────────────*| . | . || . || . | . ||| ущерб||||||||||┌─────────────────*| . | . | . | . ||||||| государственная||||||||||| собственностьРис.

22.1Структурная тематическая аннотация, представленная на Рис.23.2, отражаетсодержание англоязычного текста (Рис.22.3) - рабочего документа 105-го Конгресса США.┌───────────────────────────────────────────────────────────────**** | пастбище; пастьба; землепользование; окружающая среда|┌──────────────────────────────────────────────────────────*** | X | арендатор||┌─────────────────────────────────────────────────────*** | X | z | ферма|||┌────────────────────────────────────────────────*** | X | . | . | лес; природный парк; окружающая среда||||┌───────────────────────────────────────────**| .

| . | . | . | закон|||||┌──────────────────────────────────────**| z | . | . | . | . | управление||||||┌─────────────────────────────────*** | z | z | z | . | . || земледелие|||||||┌────────────────────────────**| z | . | . | . || . | . | охрана земельРис.22.2329“105th CONGRESS1st SessionS. 749To provide for more effective management of the NationalGrasslands, and for other purposes....Be it enacted by the Senate and House of Representatives ofthe United States of America in Congress assembled,SECTION 1.

SHORT TITLE.This Act may be cited as the ``National GrasslandsManagement Act of 1997''.SEC. 2. FINDINGS AND PURPOSE.(a) Findings.--The Congress finds that-(1) the inclusion of the National Grasslands within theNational Forest System has prevented the Secretary ofAgriculture from effectively administering and promotinggrassland agriculture on National Grasslands as originallyintended under the Bankhead-Jones Farm Tenant Act;(2) the National Grasslands can be more effectivelymanaged by the Secretary of Agriculture if administered asa separate entity outside of the National Forest System;and(3) a grazing program on National Grasslands can beresponsibly carried out while protecting and preservingsporting, recreational, environmental, and other multipleuses of the National Grasslands.(b) Purpose.--The purpose of this Act is to provide forimproved management and more efficient administration ofgrazing activities on National Grasslands while preserving andprotecting multiple uses of such lands, including but notlimited to preserving sportsmen's hunting and fishing andother recreational activities, and protecting wildlife andwildlife habitat in accordance with applicable laws....Структурная аннотация позволяет оценивать содержание текста с одного взгляда, втом числе из-за неявно осуществляемыхРис.23.3пользователем-человеком мысленных ―связок‖между темами.22.3.

Построение аннотации для новостного кластера наоснове тематического представления текстов кластераСовременные технологии обработки новостных потоков обычно включают в себякраткое представление содержания новостного кластера в виде аннотации (обзорногореферата). В данном разделе мы рассмотрим автоматический метод создания аннотацииновостного кластера на основе тематического представления, построенного для этогокластера.22.3.1. Построение тематического представления для новостного кластераНовостной кластер представляет собой совокупность тематически близкихдокументов. Поэтому тематическую структуру новостного кластера так же, как иотдельного элемента можно выявить за счет построения тематического представленияэтого кластера, и это представление можно будет использовать для управления наборомпредложений в аннотацию кластера, а именно для решения таких задач как обеспечениеполноты, снижения повторов, а также обеспечения связности аннотации кластера.330Построение тематического представления новостного кластера осуществляетсяпростым способом: все тексты кластера склеиваются в единый текст, для которогопроизводится стандартный тематический анализ одного документа и строитсятематическое представление.Результат этой процедуры, а затем и результат построения аннотации в некоторойстепени зависит от порядка просмотра документов в кластере.

Мы используем следующийметод объединения документов кластера в единый текст, используемый для построенияаннотации.Сначала в новостном кластере определяется «центр кластера» - документ, наиболееблизкий к центру тяжести множества документов кластеров в метрическом пространственормализованных лемматическом и концептуальном (по тезаурусу) индексов.Определяется «ядро» кластера – документы достаточно близкие к центру (по некоторомупорогу). Затем «центр кластера» сдвигается в документ из ядра кластера, который былопубликован последним по времени.

Пересчитываются веса связей документов кластера кновому центру. С учетом задаваемого интервала времени по убыванию веса сначалазаполняются документы за последнее время, затем все остальные. Так как отбираетсявсего несколько предложений, то имеется общее ограничение на количество отбираемых в«единый документ» документов.После порождения «единого документа» кластера для него строится тематическоепредставление. Так, для кластера, в который входит текст примера из раздела 22.1,основными тематическими узлами становятся следующие совокупности понятий (справауказана частотность понятия в кластере):КИТАЙПЕКИНГУАНЧЖОУГОСУДАРСТВОЮАНЬШАНХАЙКИТАЙЦЫНАНКИНГУАНДУН1032113976551ТАЙВАНЬТАЙБЕЙ10321АВИАЦИОННЫЕ ПЕРЕВОЗКИАВИАЦИОННАЯ КОМПАНИЯСАМОЛЕТАВИАРЕЙСТРАНСПОРТНАЯ СФЕРААЭРОПОРТТРАНСПОРТНЫЕ ПЕРЕВОЗКИАЭРОБУСАВИАЛИНИЯ3399743211ГОРОДТЕРРИТОРИЯ, УЧАСТОКНАСЕЛЕННЫЙ ПУНКТ1731ОСТРОВЖИТЕЛЬ ОСТРОВА171ЧАРТЕРНЫЕ ПЕРЕВОЗКИ14ТУРИСТ12ЧЕЛОВЕК62ТУРИЗМ2331ПОЕЗДКАПАССАЖИРПРАВИТЕЛЬСТВОРУКОВОДИТЕЛЬОРГАН ПУБЛИЧНОЙ ВЛАСТИРУКОВОДСТВООРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИПУБЛИЧНАЯ ВЛАСТЬ110663221Таким образом, по основным тематическим узлам тематического представлениямогут быть определены основные элементы, обсуждаемой в кластере темы.Как видно, тематические узлы включают концепты достаточно разной частотности.Низкочастотные концепты тематического узла могут быть ошибочно включены втематический узел, кроме того, представительность ими основной темы документаневелика.

Поэтому можно задать выделение ядра тематических узлов, котороеопределяется как коэффициент от 0 до 1. Этот коэффициент определяет, какая долянаиболее частотных понятий от общей частотности понятий в тематическом узле будетвключена в ядро.Так, при значении коэффициента тематического ядра 0.7 получим следующие ядратематических узлов:КИТАЙПЕКИНГУАНЧЖОУ1032113ТАЙВАНЬ103АВИАЦИОННЫЕ ПЕРЕВОЗКИАВИАЦИОННАЯ КОМПАНИЯСАМОЛЕТ3399ГОРОД17ОСТРОВ17ЧАРТЕРНЫЕ ПЕРЕВОЗКИ14ТУРИСТЧЕЛОВЕК1262ПАССАЖИР10ПРАВИТЕЛЬСТВОРУКОВОДИТЕЛЬОРГАН ПУБЛИЧНОЙ ВЛАСТИ66322.3.2. Метод построения аннотации новостного кластера потематическому представлению кластераАннотация новостного кластера обычно состоит из заголовка и несколькихпредложений из разных документов новостного кластера.Зная ядра тематических узлов, полноту изложения содержания кластера мыобеспечиваем тем, что должны отбирать для аннотации предложения, содержащие парыэтих тематических узлов – именно тогда эти предложения будут описыватьвзаимоотношения между основными тематическими элементами кластера.При отборе заголовка для аннотации ищется заголовок, содержащий пару наиболеечастотных тематических узлов.

Если таких заголовков нет, то ищутся заголовки,содержащие понятия из одного наиболее частотного тематического узла.Для выбора очередного предложения в списке основных тематических узловотмечаются все тематические узлы, которые уже были упомянуты. Очередное332предложение должно содержать пару основных тематических узлов: наиболее частотныйтематический узел, который еще не упоминался, и какой-нибудь еще основнойтематический узел.Для обеспечения связности требуется, чтобы очередное предложение содержалолибо уже упомянутый тематический узел, либо уже упоминавшееся слово с большойбуквы.Кроме того, делается ряд дополнительных проверок:- предложение не должно являться вопросительным или отрицательнымпредложением,- предложение не должно содержать в заданном числе первых слов местоимение,- начало предложения не должно совпадать с началами заголовка и предложений,уже взятых в аннотацию,- число слов предложения, совпадающего со словами предшествующихпредложений не должно превышать некоторой доли длины предложения.Понятно, что даже при проверке вышеупомянутых условий может найтись ещедостаточно много подходящих предложений-кандидатов.

Кроме того, оценкапредложений на основе понятий тезауруса не является достаточной без учетаупоминаемых именованных сущностей, которые могут быть и не описаны в тезаурусе.Поэтому вводится еще и общая оценка предложения с помощью вычисления весапредложения, которая складывается из двух компонентов: весов упомянутых понятийТезауруса, которые были получены в тематическом представлении, а также весовсодержащихся в предложении слов с большой буквы, не считая первого словапредложения.Для вычисления весов слов с большой буквы (далее Слов), сначала вычисляетсявес самого частотного Слова Wmax_word в документе кластера:Wmax_word = min ( 1,0 , Wmax_conc * (Frmax_word /Frmax_conc) )где Wmax_conc – максимальный вес понятия тезауруса в тематическом представлении,Frmax_conc – частотность в тексте понятия тезауруса с максимальным весом, Frmax_word –частотность самого частотного Слова.Остальные веса Слов (Wword) вычисляются пропорционально их частотности:Wword = Wmax_word * (Frword / Frmax_word)Так мы сводим веса понятий и слов к одной шкале.Просмотр предложений-кандидатов начинается с начала документа кластера, тоесть предложения набираются сначала из главного документа кластера и наиболееблизких к нему по содержанию.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6372
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее