Диссертация (1137263), страница 14
Текст из файла (страница 14)
22-23. Гистограммы (Рис. 22.) былиполучены при следующих значениях параметров: = 1.7, =6, = 12.8, = 1.8, = 1.93, = 0.47, = 1000, = 12400, = 5, = 40.Гистограммы (Рис. 23) были получены при таких значенияхпараметров: = 0.5, = 12.5, = 17.8, = 0.9, = 4.13, = 0.67, = 1400, = 500000, = 5, = 40.105b)a)c)Рис. 23.
Гистограммы распределений и плотности для (a), коэффициентовзатухания (b) и ставок (с).Таким образом, алгоритм получения симуляционных данныхполучен, можно приступать к сравнению двух алгоритмов: базового иучитывающего позиционные эффекты.3.4.2 Сравнениеалгоритма,учитывающегопозиционныеэффекты и базового алгоритма.Для тестирования рассматриваемого алгоритма и сравнения егорезультатов с результатами алгоритма, описанного в п.
2.3 (далее втексте он также будет упоминаться как "базовый алгоритм"),производилась генерация модельных данных (с разными размерамимодельных пулов, при различных параметрах распределений ставок, и т.д.). Затем на этих модельных данных запускались новый и106базовый алгоритмы (при различных ограничениях на денежныесредства и покрытие), и сравнивались результаты. Отметим, что схемаработы у сравниваемых алгоритмов общая (п. 2.5.1 и п. 3.3.9).Результаты работы обоих алгоритмов имеют общий вид: это спискирекламных объявлений (часть которых могут быть пустыми) суказанием положения этих объявлений в рекламном блоке для каждогозапроса из обучающего набора запросов и значения 1 опт , 2 опт и3 опт , используемые при работе с новыми запросами.
Отличаютсямаксимизируемые критерии (и методы максимизации этих критериев).В рассматриваемом алгоритме это:̅̅̅̅̅̅ () =∑(,,,) ∙ ∑(,,,) а в базовом:̅̅̅̅̅̅_ () =∑(,) ∙ ∑(,) Где – оценка вероятности клика на -ое рекламное объявление приего показе в рекламном блоке над результатами поиска в ответ на -ыйзапрос; – индикатор такого показа. Аналогично, ожидаемоеколичество денежных средств можно подсчитывать с использованием : () =∑ ∙ ∙ (,,,)либо с использованием непозиционных кликабельностей :_ () = ∑ ∙ ∙ (,)107В силу того, что при генерации модельных данных принималасьследующая связь между и : = ∙ ∙−1 ,мыможемлегкопереходитьотпозиционныхкликабельностей к непозиционным и наоборот при подсчетеинтегральных величин.
Например, по спискам рекламных объявлений,отобраннымпредыдущим алгоритмом, мы можем посчитать как̅̅̅̅̅̅_ (), так и ̅̅̅̅̅̅ ().Схема сравнения текущего и базового такова:1) Задать параметры модельного набора запросов, сгенерироватьего.2) Задаться ограничениями на ожидаемый суммарный доход и напокрытие.3) Произвестиограниченияхотборприрекламныхпомощиобъявленийпредыдущегопризаданныхалгоритма;посоставленным в результате его работы спискам вычислить0̅̅̅̅̅̅среднюю кликабельность .4) Отобрать объявления при заданных ограничениях при помощинового алгоритма. При этом ожидаемое количество денежныхсредств должно вычисляться по той же формуле, что и в базовомалгоритме: _ () = ∑(,) ∙ ∙ , в противномслучаерезультатыдвухалгоритмовбудутнесравнимы.Действительно, при позиции > 1 < , поэтомуесли вычислять по одному и тому же списку баннеров дляспец-размещения величины () и _ (), то, скореевсего, окажется () < _ () (если только этот списокне состоит из единственногообъявления: в таком случае11 ≥ ) .
По составленным в результате работы108нового алгоритма спискам вычислить среднюю кликабельность̅̅̅̅̅̅ .0̅̅̅̅̅̅̅̅̅̅̅̅ .5) Сравнить и Параметры, используемые при генерации некоторых модельных пулов,приведены в Табл.3. (используемые обозначения представлены вразделе 3.4.1):Номер1234567модельного пула40060050050014001001000120000 180000 230000 230000 500000240124005555555404040404010401.0651.0451.0451.0451.0451.0651.06510.920.920.920.950.970.920.9220.830.830.830.9020.9020.830.83312.812.811.814.817.812.812.81.81.81.11.10.91.81.81.931.934.134.134.131.931.930.470.470.670.670.670.470.471.71.41.40.50.51.71.769.59.512.512.566Табл.
3. Параметры, используемые для генерации модельных симуляционныхданных.Детальные результаты сравнения алгоритмов на этих пулах приведенывТабл.4.Рассмотримиспользуемыевнейобозначения. – это относительная погрешность, с которой в обоих алгоритмахвыполняетсяограничение() = при 1 > 0. Обозначения, имеющие верхний индекс "0"относятся к результатам работы базового алгоритма (не учитывающего0̅̅̅̅̅̅позиционные эффекты). Характеристика – это среднее значениевеличин , полученное в результате отбора базовым алгоритмомобъявлений для показа в рекламном блоке над результатами поиска для109̅̅̅̅̅̅ – аналогичноезапросов из обучающего набора запросов; среднее значение, но по результатам нового алгоритма.
Нас в первуюочередь интересует сравнение этих двух величин: оно проведено впоследней строчке таблицы. Так как для каждого запроса и объявленияизвестны как значения , так и , то можно также сравнитьсредниенепозиционныекликабельности,получаемыепо0̅̅̅̅̅̅_сравниваемым алгоритмам (это для базового алгоритма и̅̅̅̅̅̅_ для нового).10 , 02 и 03 – оптимальные значения параметров критерия показа,вычисляемые базовым алгоритмом;1 , 2 и 3 – оптимальные значения параметров критерия показа,вычисляемые новым алгоритмом.0Величины _и _ –ожидаемые суммарные количества денежных средств для базового инового алгоритма соответственно, вычисляемые в оптимальных точкахпо кликабельностям , не зависящим от позиционных эффектов.0_и _ должны совпадать с с относительнойпогрешностью не более.
Номермодельногонаборапокрытие , %1002031230__0̅̅̅̅̅̅_12345670.2512630.80.040.670.181680.050.420.57237126312630.58490.2711540.80.030.430.09920.040.30.3035116011450.42950.33185230.50.010.590.25870.010.320.6276818522185010.355560.3579420.20.020.410.158440.0150.240.26439795179550.198760.31983430.11.60.7161220.11.21.27258219549193670.1800530.352810.50.030.490.139540.090.450.472612812790.514890.3243260.30.040.620.2143630.110.490.926016433843200.56242110̅̅̅̅̅̅_0̅̅̅̅̅̅̅̅̅̅̅̅0.57180.49030.51470̅̅̅̅̅̅ − ̅̅̅̅̅̅, % 10.50̅̅̅̅̅̅0.4235 0.35326 0.20116 0.17997 0.50305 0.534260.37324 0.30161 0.18470 0.171925 0.45953 0.44810.39194 0.30936 0.18891 0.175112 0.48373 0.4618452.572.281.8535,273.1Табл.
4 Подробные результаты вычислительных экспериментов.Алгоритм, учитывающий позиционные эффекты, практически всегдаоказывается лучше на модельных данных по среднему позиционному, чем алгоритм, не учитывающего позиционные эффекты: взависимости от характеристик модельных данных улучшение среднегопозиционного составляет 1.5 –10% (Рис. 24.).0,510Среднийпозиционыый CTR0,4600,4100,3600,310Алгоритм, учитывающийпозиционные эффектыАлгоритм без учетапозиционных эффектов0,2600,2100,160Номер эксперимента0,1100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30Рис.
24. Сравнение результатов работы базового и позиционногоалгоритмов.111ГЛАВА 4. АПРОБАЦИЯ ПОЛУЧЕННОГО ВИДА КРИТЕРИЯПОКАЗА В РЕКЛАМНОИ БЛОКЕ НАД РЕЗУЛЬТАТАМИ ПОИСКА.РЕАЛИЗАЦИЯ АЛГОРИТМА ПОДБОРА ПАРАМЕТРОВКРИТЕРИЯ.В ходе диссертационного исследования был получен вид функциикритерия показа рекламных объявлений над результатами поиска, а такжеалгоритмподбораегопараметров.Теперьнеобходимовоспользоваться этим результатом для оптимизации всей системыпоказов рекламных объявлений. Для разных случаев применениякритерия показа в рекламном блоке, а также для выявления значимыхрезультатов апробации, был выработаналгоритм оптимизациисистемы показов рекламных объявлений в поисковых интернетсистемах.4.1 Алгоритм оптимизации системы показов рекламныхобъявлений.Была разработана и реализована схема алгоритма оптимизациясистемы показов поисковой рекламы (Рис.25.).Рассмотрим данную схему в общем виде, из каких этапов состоиталгоритм оптимизации показов рекламных объявлений:1) Отбирается набор запросов – информация по историческимзапросам пользователей к поисковой интернет-системе «Яндекс».Также на данном этапе происходит отбор объявлений-кандидатов напоказ в рекламном блоке [50], [56].
Список поисковых запросов сотобранными кандидатами на показ – это материал для обучения итестирования новых формул предсказания , а также различныхкомбинаций показа рекламных объявлений над результатамипоиска.112Набор запросовОтбор рекламныхобъявлений: критерийпоказаФормулапредсказания CTROff-line предсказание:Hits, CTR, MoneyOn-line эскперимент:Hits, CTR, MoneyСравнение off-line и on-lineпредсказанияЗапуск на 100% показовРис. 25.
Общая схема алгоритма оптимизации показов рекламы.2) Используется новая формула предсказания CTR рекламногообъявления. Тут возможны разные варианты получения новойформулы, например такие как: добавление новых признаков для использования при ужезафиксированном методе предсказания [17]; переобучение метода предсказания на более свежих данных (стем же набором признаков и методом предсказания) [20]; использование нового метода предсказания кикабельностирекламного объявления [8], [34]; использование различных кликовых моделей [68].3) Отбор рекламных объявлений для показа в рекламном блоке:для каждого запроса известны объявления-кандидаты на показ113рекламы по данному запросу. Необходимо отобрать те рекламныеобъявления, которые мы хотим показать над результатами поиска(это можно делать для объявлений как с новой предсказаннойкликабельностью, так и с текущим предсказанием ).
Именно наэтомэтапеприменялисьрезультаты,полученныевходедиссертационного исследования.4) Как только мы знаем набор объявлений, которые будут показаны,становится возможным узнать off-line предсказания измененияосновных показателей (таких как средний , количество запросовс рекламой, суммарный доход от показов и т.д.) для того наборазапросов, на котором подбирались пороги по следующимформулам: = ∑ /(,)=∑(,)–количество ∙ показоврекламныхобъявленийнадрезультатами поиска.5) Как только становится возможным для каждого объявления считатьновую формулу предсказания , и для неё подобраны новыепараметры критерия показа, то можно на части трафика запускатьэксперимент для проверки off-line предсказаний. Экспериментпроводится на части поискового трафика.6) Как только эксперимент продлился нужное время для получениязначимых изменений в основных характеристиках, то можносравнить off-line и on-line показатели и принять решение овнедрении новой формулы и (или) новых порогов на всём трафике114поисковых запросов.