Диссертация (1095062), страница 18
Текст из файла (страница 18)
Неизвестность. Данные о значениях некоторых параметров материаламогут отсутствовать (например, пустые поля тегов, отсутствие рейтингаматериала).2. Недостоверность. Возможность неадекватности таких параметров какзначение пользовательского рейтинга или рейтинга автора.3. Неоднозначность входных данных. Само значение интегрированнойрейтинговой оценки материала является косвенным и не всегда достовернымпоказателем его качества.1184.2.1 Подбор показателей, используемых для многокритериальнойоценки контентаКаждому материалу, хранящемуся в виртуальной среде, сопоставлен наборразнотипных параметров, среди которых: автор, категория, множество ключевыхтегов,историяпросмотров,измененияисогласования,комментариипользователей, оценка модератора.Теги являются структурированными характеристиками выкладываемых напортале материалов и предназначены для их идентификации и поиска.Результирующее решение об обработке контента строится на основаниисовокупности критериев (коэффициент доверия для авторов, популярностьматериалов и другие).Оценкипользователейагрегируютсявотдельныйпараметр–пользовательский рейтинг контента Ru.
Он рассчитывается на основании голосовпользователей и модераторов с учетом порога голосов для включения иисключения из рейтинга.Интегрированнаяоценкаконтентаявляетсясуммарнымрейтингом,зависящим от значений характеристик нижних уровней иерархии, и выглядитследующим образом:1.Суммарный рейтинг R: интегрированная оценка контента.1.1.
Пользовательский рейтинг Ru: характеризует, насколько данный материалкажется пользователям полезным. Выявляется путем голосования и оценивания.Оценивается по 5-балльной шкале [1, 5].1.1.1.Количество голосов за материал.1.1.2.Медиана всех голосов за данный материал с учетом рейтинга каждогоголоса.1.1.3.Порог голосов, необходимый для расчета рейтинга.1.1.4.Медиана рейтинга всех материалов на портале.1191.2. Популярность P: показывает, как часто пользователи обращаются кматериалу.
Оценивается по 10-балльной шкале [1, 10].1.2.1.Количество просмотров.1.2.2.Обсуждаемость (количество комментариев).1.3. Актуальность U. Параметр принимает значение из множества {«неактуальный», «не потерявший актуальность», «актуальный»}.1.4. Модераторская оценка M: модератор может пометить материал дляпоследующего перенесения в хранилище данных. В случае если материал оцененмодератором, эта оценка является решающей в принятии решения о егообработке. Оценка модератора принимает одно из трех значений: {«удалить», «непереносить в хранилище», «перенести в хранилище»}, но может и отсутствовать.1.5. Рейтинг автора контента Ra: у каждого пользователя в системе есть свойрейтинг.
Рейтинг автора может принимать дробные значения и колеблется впределах шкалы [0, 1].1.5.1.Базовый рейтинг пользователя данной категории.1.5.2.Активность.1.5.3.Качество обсуждений и выкладываемых материалов.Нейроэволюционная система производит расчет рейтинговой оценки и наосновании ее значения принимает решение о дальнейшей обработке материалов:1) Копирование материала в архив.2) Удаление материала.3) Пометка материала как недостоверного или не качественного.4) Рекомендация к проверке модератором.Нейроэволюционнаясистемапринятиярешенийоперируеттрудноформализуемыми понятиями («рейтинг ниже среднего», «очень высокаяпопулярность») [28], которые должны быть определенным образом пересчитаны имасштабированы. При этом избегается большой разброс значений, принимаемыхпараметрами, для того, чтобы каждый из них влиял на принятие решения взависимости от своей значимости, а не порядка величины.120Пересчет пользовательского рейтинга и обновление динамическихрейтинговых таблиц осуществляется при каждом новом оценивании.
При этомпорог количества оценок для участия в рейтинге Ti и порог исключения изрейтинга Te фиксированы, но подвергаются корректировке в зависимости отобщего количества пользователей m и медианы оценок материалов n.Ti (порог включения) – доля голосов, не набрав которую, материал не можетучаствовать в рейтинговой оценке: =−1100% . Te (порог исключения) – доляголосов, не набрав которую, материал, участвующий в рейтинговой оценке, будетиз нее исключен. Порог исключения рассчитывается по формуле: =1100% ,где m – количество пользователей системы; n – медиана количества оценокматериалов.Каждому типу пользователей (модератор, автор, зарегистрированныйпользователь)соответствуетвесовойкоэффициентw(базовыезначениярейтингов указаны в таблице 4.2), складывающийся из базового значения веса дляданного типа пользователя и величиныk (шага изменения рейтинга),варьирующейся в зависимости от активности в положительную и отрицательнуюстороны: wi = wbase± k, ∈ [0,1; 1], k=const=0,1.
Весовой коэффициентмодераторов фиксирован: wm = 1.Таблица 4.2 – Базовый рейтинг по типам пользователейинформационной средыТип пользователямодераторавторпользовательДляразныхтиповконтентаоценивания: цифровые шкалызначений{̃1,…, ̃n},флагБазовый рейтинг10.50.2предусмотреныразличныешкалы[1 , ], словесные оценки из множества«Да»/«Нет»рекомендованного к перенесению в хранилище.-пометкаматериала как121Каждому материалу сопоставлена матрица голосов пользователей,общий вид которой представлен в таблице 4.3, где c – количество оценок издиапазона [1,5] c весом из диапазона [0,1, 1].Таблица 4.3 – Матрица оценок материалаОценка k= ̅̅̅̅̅; 12…5Вес оценки = ̅̅̅̅̅̅̅̅, ; 0.10.2…111 12 …110…21 22210……… …51 52 …5104.2.2 Реализация предварительной обработки данныхКаждому материалу, хранящемуся в виртуальной среде, соответствуетm-мерный вектор параметров:̅ = < 1 , 2 , … >(4.4)Из векторов ̅ формируется матрица размерности n×m параметров контента̅̅̅̅̅̅Y = || || ( = 1;; = ̅̅̅̅̅̅1; ) ,(4.5)где n – количество всех материалов;m – количество параметров (таблица 4.4).Таблица 4.4 – Матрица характеристик материаловМатериал̅̅̅̅̅( = ;)12…nХарактеристикаматериала( = ̅̅̅̅̅̅; )12…m1112 …132122 …23……… …12 …Входной вектор параметров ̅ содержит разнородные значения.
Например,рейтинг материала 1 ∈ [1; 5] оценивается по пятибалльной шкале, а количество122его просмотров за месяц 2 ∈ [0; +∞) теоретически не ограничено. Так какподобный дисбаланс между значениями признаков делает работу модели выводанеустойчивой, необходима корректировка матрицы. С помощью методовпредварительной обработки (масштабирования и нормализации) проводитсяпреобразование исходных данных к виду, удобному для последующего анализа.Цель масштабирования – адаптировать диапазон значений переменной длякорректного расчета и достижения однородности интерпретации входныхпараметров. Чтобы правильно подобрать масштаб, к которому приводитсяматрица Y, необходимо определить нижнюю и верхнюю границы отрезка,которому принадлежат значения .
Нижнюю границу отрезка удобно принятьравной нулю, то есть вычесть из всех значений матрицы значение ееминимального элемента min :∀ ∈ : = − min(4.6)Верхняя граница отрезка значений определяется как медиана значенийэлементов матрицы. МедианаM(Y)делит ранжированную совокупностьпараметров на две равные части.На этапе масштабирования определяется отрезок [0, M(Y)], после чегопроводится нормализация данных. После процедуры нормализации значенияпараметров приводятся к одному диапазону:∀ y* ∈ [y1, ym] → x* ∈ [x1, xm],(4.7)где y*, x* - значения оценки до и после нормализации соответственно; x1=0;xm = M(Y).Каждое новое значение из вектора параметров материала высчитывается поформуле∗ = [∗ − 1 +1( − 1 + 1) + 1 − 1] ,(4.8)что при установленных границах отрезка равносильно равенству:∗ = [∗ +1(() + 1) − 1] .(4.9)1234.2.3 Архитектура системы интегрированной рейтинговой оценкиНа вход нейроэволюционной системы подается вектор нормированных имасштабированных значений ̅ .
В ходе нейроэволюции была получена ИНС,состоящая из входного, двух скрытых и одного выходного слоя:– входной слой, предназначенный для перераспределения входных сигналовпо соответствующим нейронам скрытых слоев. Количество нейронов входногослоя равно количеству входных сигналов;– скрытые слои, в которых осуществляется обработка входного вектора.
Втом числе, регрессионный слой состоит из нейронов, необходимых для расчетавыходного значения. Каждый из скрытых слоев имеет индивидуальноеколичество нейронов;– выходной слой, формирующий отклик нейросети. Состоит из 6-тинейронов.Логическая схема виртуальной среды, в которую интегрирована СППР дляавтоматической обработки контента, представлена на рисунке 4.6.Рисунок 4.6 – Логическая схема виртуальной среды124Внедрение в виртуальную среду работы над проектами нейроэволюционнойСППР позволило автоматизировать обработку контента и повысить показателикачества функционирования виртуальной среды [8] с счет следующих улучшений:1. Реструктуризацияпортала.Корректнаярубрикация,обработканевостребованного контента, перенесение в хранилище контента, обладающегонеобходимыми характеристиками, позволили оптимизировать состав и структурувиртуальной среды.2.
Сокращение среднего времени поиска материалов, полученное за счетавтоматической рубрикации материалов и обновления архива.3. Оптимизация закрытых частей портала (хранилища и архива). Припомощи СППР была изменена внутренняя структура хранилища материалов.Автоматическое перенесение в архив невостребованных материалов позволилосущественно увеличить объем данных, размещаемых в виртуальной среде.4.