Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 11

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 11 страницаДиссертация (1137276) страница 112019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 11)

Экспериментпроводился для коллекции данных, состоящей из трех частей: аннотаций науч­ных статей, таксономии ACM CCS 2012, а также приписанных статьям их ав­торами тем из этой таксономии (см. Рис. 3.1). Эти части кратко представленыниже.– Аннотации всех научных статей, опубликованных за период с начала2007 года по первый квартал 2013 года включительно, во всех журна­лах, размещённых на портале ACM. Общее число аннотаций в даннойколлекции – 5079;– Таксономия ACM CCS 2012, состоящая из 2074 таксономических тем.

Втаксономии ACM CCS 2012 6 уровней. На первом уровне располагается13 основных разделов, на втором уровне – 90, на третьем – 547, начетвертом уровне находится большая часть листьев таксономии – 1074тем. Некоторые из листьев появляются при дальнейшем дроблении тем– на пятом и шестом уровнях; но их сравнительно немного – 326 и 24.57Рисунок 3.1 — Первый уровень таксономии ACM CCS 2012– Авторские темы, приписанные аннотациям – это, как правило, 2-3 так­сономические темы низших уровней таксономии, а также все темы, ле­жащие на пути от корня до них в дереве таксономии ACM CCS. Примераннотации из рассматриваемого множества приведён в Таблице .Отметим, что авторы статьи, представленной в Таблице 2, в своей руб­рикации предпочли оттенить взаимодействие человека и компьютера как еёосновной сюжет.

На наш взгляд, это не очень согласуется с содержанием ан­нотации. Согласно аннотации, статья представляет собой скорее упражнение вприменении вероятностной модели кластер-анализа для выявления сообществна основе информации с сайтов, пользователи которых задают вопросы и по­лучают ответы от других пользователей. Термины “cluster” и “clustering” 6 разучаствуют в различных подразделениях таксономии ACM CCS, но никак неотражены в авторской рубрикации. Подобные нюансы интерпретации должныучитываться при оценке систем автоматической рубрикации.Выбор мер релевантностиВ качестве мер оценки релевантности таксономической темы и аннотациинаучной статьи, берутся популярные меры, рассмотренные выше:58Таблица 2 — Пример аннотации, участвующей в эксперименте. Аннотациявыбрана случайным образом.Discovering Knowledge-Sharing Communities in Question-Answering ForumsMohamed Bouguessa, Shengrui Wang, Benoit DumoulinACM Transactions on Knowledge Discovery from Data (TKDD),V.

5, no.1,December 2010In this article, we define a knowledge-sharing community in a question­answering forum as a set of askers and authoritative users such that,within each community, askers exhibit more homogeneous behavior interms of their interactions with authoritative users than elsewhere. Aprocedure for discovering members of such a community is devised. As acase study, we focus on Yahoo!Answers, a large and diverse online question­answering service. Our contribution is twofold. First, we propose a methodfor automatic identification of authoritative actors in Yahoo!Answers. Tothis end, we estimate and then model the authority scores of participantsas a mixture of gamma distributions.

The number of components in themixture is determined using the Bayesian Information Criterion (BIC), whilethe parameters of each component are estimated using the Expectation­Maximization (EM) algorithm. This method allows us to automaticallydiscriminate between authoritative and nonauthoritative users. Second, werepresent the forum environment as a type of transactional data such thateach transaction summarizes the interaction of an asker with a specificset of authoritative users.

Then, to group askers on the basis of theirinteractions with authoritative users, we propose a parameter-free transactiondata clustering algorithm which is based on a novel criterion function. Theidentified clusters correspond to the communities that we aim to discover.To evaluate the suitability of our clustering algorithm, we conduct a series ofexperiments on both synthetic data and public real-life data. Finally, we putour approach to work using data from Yahoo!Answers which represent usersactivities over one full year.Таксономические темы ACM CCS, приписанные автором (авторские те­мы)Human-centered computing → Human computer interaction (HCI) →Interaction paradigms → Web-based interactionInformation systems → Information systems applications → Data mining59– косинусная мера близости на векторах tf-idf в векторной модели реле­вантности;– косинусная мера близости на векторах tf-idf в векторной модели реле­вантности со снижением размерности по методу латентного семантиче­ского анализа;– мера релевантности, основанная на генеративной модели релевантностилатентного размещения Дирихле;– мера релевантности BM25 в вероятностной модели релевантности;– коэффициент Жаккара на множестве буквенных -грамм;– мера средней условной вероятности символа в совпадении, основаннаяна АСД, с cемью шкалирующими функциями, СУВСС.

Эти меры пере­числены в Таблице 3.Оценка качества результатовЗная авторские таксономические темы, можно оценить, насколько кор­ректными получились упорядоченные списки таксономических тем, получае­мые в результате применения той или иной меры релевантности. Мы исполь­зовали для оценки результатов две популярные характеристики точности: MAP(Mean Average Precision) и nDCG (normalized discounted cumulative gain) [15].Они часто используются в тех вычислительных экспериментах и разработках,в которых возникает задача оценки качества ранжирований, например, приразработке рекомендательных систем [70] или систем извлечения новостей [71].Другое приложение этим мерам находится в работах по обучению ранжиро­ванию (learning to rank) [72; 73].

В этих работах MAP и nDCG используются вкачестве оптимизируемого критерия в ходе обучения. Меры MAP и nDCG при­менимы и для задачи рубрикации, так как результаты использования той илииной меры релевантности тоже ранжированы по значению этой меры. Для вы­числения этих характеристик может использоваться следующая общая схемаотбора таксономических тем:1. Строится РСТ таблица таксономическая тема – аннотация;2. Таксономические темы ранжируются по убыванию их оценок релевант­ности каждой аннотации;60Таблица 3 — Обозначения рассматриваемых мер релевантностиОбозначениеМера релевантностиcosineКосинусная мера релевантностиLSI.NКосинусная мера релевантности со снижени­ем до размерностей методом LSILDA.NМера релевантности, основанная на ЛРД с темамиokapibm25Мера релевантности BM25Jaccardкоэффициент Жаккара на множестве буквен­ных -граммAST.constant.Xмера СУВСС с константной шкалирующейфункцией и очисткой шума от уровня AST.linear.Xмера СУВСС с линейной шкалирующейфункцией и очисткой шума от уровня AST.square.Xмера СУВСС с шкалирующей квадратичнойфункцией и очисткой шума от уровня AST.root.Xмера СУВСС с линейной шкалирующейфункцией корень квадратный и очисткой шу­ма от уровня AST.log.Xмера СУВСС с логарифмической шкалирую­щей функцией и очисткой шума от уровня AST.logit.Xмера СУВСС с логистической шкалирующейфункцией и очисткой шума от уровня AST.sigmoid.Xмера СУВСС с шкалирующей функцией сиг­моид и очисткой шума от уровня 613.

Отбираются первые (топ ) таксономические темы, отсекая всеостальные;4. Вычисляется оценка получившегося ранжирования;Мера MAP может быть представлена следующим образом:∑︀ ()rel(),AveP =relevant topics|∑︀AveP()MAP = ∈,|abstracts|где () – точность на уровне в упорядоченном по убыванию меры реле­вантности списке таксономических тем, rel – бинарный показатель, принимаю­щий значение 1, если -тая таксономическая тема в списке является авторской,и 0 в обратном случае, |relevant topics| – число авторских таксономическихтем, – количество рассматриваемых таксономических единиц из топа списка.Здесь AveP – средняя точность – рассчитывается для каждого текста рассматри­ваемого множества.

Мера MAP имеет смысл средней точности, нормализованнойпо всем аннотациям.Мера nDCG – это отношение оценки полученного ранжирования к оценке∑︀ rel()DCGидеального случая: nDCG = IDCG,гдеDCG=(1)+=2 log2 – количествоавторских таксономических тем среди топ таксономических тем, нормиро­∑︀|relevant topics| 1ванное на их место в ранжировании, IDCG = rel(1) + log2 –значение DCG у идеального ранжирования.

Как предложено в [73] меру nDCG чтомы и делаем, чтобы получить общее значение nDCG для всех рассматриваемыхнаучных статей.Помимо мер MAP и nDCG, мы использовали собственные меры оценки по­лученных результатов, имеющие простой операциональный смысл – доля пуб­ликаций, у которых авторские темы попали в топ k ранжированных таксо­номических тем и доля авторских тем, попавших в топ k ранжированныхтаксономических тем. Будем обозначать эти меру через (Intersection at k) и .Данная мера удобна тем, что позволяет легко– отделить “хорошие” публикации – те, для которых удалось восстано­вить все или почти все авторские темы – от “трудных”, для которыхавторские темы находятся в конце соответствующего ранжирования;62Таблица 4 — Способы представления текста как “мешка” термовОбозначениеОписаниеwordsВсе вхождения слов в неизменённом видеstemsСтемы (основы) всех слов. Для выделениястемов использован стеммер Портера [74] избиблиотеки NLTK [75]lemmasЛеммы (нормальные формы) всех слов.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6374
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее