Диссертация (1137276), страница 11
Текст из файла (страница 11)
Экспериментпроводился для коллекции данных, состоящей из трех частей: аннотаций научных статей, таксономии ACM CCS 2012, а также приписанных статьям их авторами тем из этой таксономии (см. Рис. 3.1). Эти части кратко представленыниже.– Аннотации всех научных статей, опубликованных за период с начала2007 года по первый квартал 2013 года включительно, во всех журналах, размещённых на портале ACM. Общее число аннотаций в даннойколлекции – 5079;– Таксономия ACM CCS 2012, состоящая из 2074 таксономических тем.
Втаксономии ACM CCS 2012 6 уровней. На первом уровне располагается13 основных разделов, на втором уровне – 90, на третьем – 547, начетвертом уровне находится большая часть листьев таксономии – 1074тем. Некоторые из листьев появляются при дальнейшем дроблении тем– на пятом и шестом уровнях; но их сравнительно немного – 326 и 24.57Рисунок 3.1 — Первый уровень таксономии ACM CCS 2012– Авторские темы, приписанные аннотациям – это, как правило, 2-3 таксономические темы низших уровней таксономии, а также все темы, лежащие на пути от корня до них в дереве таксономии ACM CCS. Примераннотации из рассматриваемого множества приведён в Таблице .Отметим, что авторы статьи, представленной в Таблице 2, в своей рубрикации предпочли оттенить взаимодействие человека и компьютера как еёосновной сюжет.
На наш взгляд, это не очень согласуется с содержанием аннотации. Согласно аннотации, статья представляет собой скорее упражнение вприменении вероятностной модели кластер-анализа для выявления сообществна основе информации с сайтов, пользователи которых задают вопросы и получают ответы от других пользователей. Термины “cluster” и “clustering” 6 разучаствуют в различных подразделениях таксономии ACM CCS, но никак неотражены в авторской рубрикации. Подобные нюансы интерпретации должныучитываться при оценке систем автоматической рубрикации.Выбор мер релевантностиВ качестве мер оценки релевантности таксономической темы и аннотациинаучной статьи, берутся популярные меры, рассмотренные выше:58Таблица 2 — Пример аннотации, участвующей в эксперименте. Аннотациявыбрана случайным образом.Discovering Knowledge-Sharing Communities in Question-Answering ForumsMohamed Bouguessa, Shengrui Wang, Benoit DumoulinACM Transactions on Knowledge Discovery from Data (TKDD),V.
5, no.1,December 2010In this article, we define a knowledge-sharing community in a questionanswering forum as a set of askers and authoritative users such that,within each community, askers exhibit more homogeneous behavior interms of their interactions with authoritative users than elsewhere. Aprocedure for discovering members of such a community is devised. As acase study, we focus on Yahoo!Answers, a large and diverse online questionanswering service. Our contribution is twofold. First, we propose a methodfor automatic identification of authoritative actors in Yahoo!Answers. Tothis end, we estimate and then model the authority scores of participantsas a mixture of gamma distributions.
The number of components in themixture is determined using the Bayesian Information Criterion (BIC), whilethe parameters of each component are estimated using the ExpectationMaximization (EM) algorithm. This method allows us to automaticallydiscriminate between authoritative and nonauthoritative users. Second, werepresent the forum environment as a type of transactional data such thateach transaction summarizes the interaction of an asker with a specificset of authoritative users.
Then, to group askers on the basis of theirinteractions with authoritative users, we propose a parameter-free transactiondata clustering algorithm which is based on a novel criterion function. Theidentified clusters correspond to the communities that we aim to discover.To evaluate the suitability of our clustering algorithm, we conduct a series ofexperiments on both synthetic data and public real-life data. Finally, we putour approach to work using data from Yahoo!Answers which represent usersactivities over one full year.Таксономические темы ACM CCS, приписанные автором (авторские темы)Human-centered computing → Human computer interaction (HCI) →Interaction paradigms → Web-based interactionInformation systems → Information systems applications → Data mining59– косинусная мера близости на векторах tf-idf в векторной модели релевантности;– косинусная мера близости на векторах tf-idf в векторной модели релевантности со снижением размерности по методу латентного семантического анализа;– мера релевантности, основанная на генеративной модели релевантностилатентного размещения Дирихле;– мера релевантности BM25 в вероятностной модели релевантности;– коэффициент Жаккара на множестве буквенных -грамм;– мера средней условной вероятности символа в совпадении, основаннаяна АСД, с cемью шкалирующими функциями, СУВСС.
Эти меры перечислены в Таблице 3.Оценка качества результатовЗная авторские таксономические темы, можно оценить, насколько корректными получились упорядоченные списки таксономических тем, получаемые в результате применения той или иной меры релевантности. Мы использовали для оценки результатов две популярные характеристики точности: MAP(Mean Average Precision) и nDCG (normalized discounted cumulative gain) [15].Они часто используются в тех вычислительных экспериментах и разработках,в которых возникает задача оценки качества ранжирований, например, приразработке рекомендательных систем [70] или систем извлечения новостей [71].Другое приложение этим мерам находится в работах по обучению ранжированию (learning to rank) [72; 73].
В этих работах MAP и nDCG используются вкачестве оптимизируемого критерия в ходе обучения. Меры MAP и nDCG применимы и для задачи рубрикации, так как результаты использования той илииной меры релевантности тоже ранжированы по значению этой меры. Для вычисления этих характеристик может использоваться следующая общая схемаотбора таксономических тем:1. Строится РСТ таблица таксономическая тема – аннотация;2. Таксономические темы ранжируются по убыванию их оценок релевантности каждой аннотации;60Таблица 3 — Обозначения рассматриваемых мер релевантностиОбозначениеМера релевантностиcosineКосинусная мера релевантностиLSI.NКосинусная мера релевантности со снижением до размерностей методом LSILDA.NМера релевантности, основанная на ЛРД с темамиokapibm25Мера релевантности BM25Jaccardкоэффициент Жаккара на множестве буквенных -граммAST.constant.Xмера СУВСС с константной шкалирующейфункцией и очисткой шума от уровня AST.linear.Xмера СУВСС с линейной шкалирующейфункцией и очисткой шума от уровня AST.square.Xмера СУВСС с шкалирующей квадратичнойфункцией и очисткой шума от уровня AST.root.Xмера СУВСС с линейной шкалирующейфункцией корень квадратный и очисткой шума от уровня AST.log.Xмера СУВСС с логарифмической шкалирующей функцией и очисткой шума от уровня AST.logit.Xмера СУВСС с логистической шкалирующейфункцией и очисткой шума от уровня AST.sigmoid.Xмера СУВСС с шкалирующей функцией сигмоид и очисткой шума от уровня 613.
Отбираются первые (топ ) таксономические темы, отсекая всеостальные;4. Вычисляется оценка получившегося ранжирования;Мера MAP может быть представлена следующим образом:∑︀ ()rel(),AveP =relevant topics|∑︀AveP()MAP = ∈,|abstracts|где () – точность на уровне в упорядоченном по убыванию меры релевантности списке таксономических тем, rel – бинарный показатель, принимающий значение 1, если -тая таксономическая тема в списке является авторской,и 0 в обратном случае, |relevant topics| – число авторских таксономическихтем, – количество рассматриваемых таксономических единиц из топа списка.Здесь AveP – средняя точность – рассчитывается для каждого текста рассматриваемого множества.
Мера MAP имеет смысл средней точности, нормализованнойпо всем аннотациям.Мера nDCG – это отношение оценки полученного ранжирования к оценке∑︀ rel()DCGидеального случая: nDCG = IDCG,гдеDCG=(1)+=2 log2 – количествоавторских таксономических тем среди топ таксономических тем, нормиро∑︀|relevant topics| 1ванное на их место в ранжировании, IDCG = rel(1) + log2 –значение DCG у идеального ранжирования.
Как предложено в [73] меру nDCG чтомы и делаем, чтобы получить общее значение nDCG для всех рассматриваемыхнаучных статей.Помимо мер MAP и nDCG, мы использовали собственные меры оценки полученных результатов, имеющие простой операциональный смысл – доля публикаций, у которых авторские темы попали в топ k ранжированных таксономических тем и доля авторских тем, попавших в топ k ранжированныхтаксономических тем. Будем обозначать эти меру через (Intersection at k) и .Данная мера удобна тем, что позволяет легко– отделить “хорошие” публикации – те, для которых удалось восстановить все или почти все авторские темы – от “трудных”, для которыхавторские темы находятся в конце соответствующего ранжирования;62Таблица 4 — Способы представления текста как “мешка” термовОбозначениеОписаниеwordsВсе вхождения слов в неизменённом видеstemsСтемы (основы) всех слов. Для выделениястемов использован стеммер Портера [74] избиблиотеки NLTK [75]lemmasЛеммы (нормальные формы) всех слов.