Диссертация (1137263), страница 16
Текст из файла (страница 16)
Пользовательскиезапросы нужны для того, чтобы собрать обучающий материал дляподбора параметров. За день в поисковую систему поступаютмиллионы запросов, это количество слишком велико для обучения,поэтому возникает необходимость выбрать 105 случайных из нихза неделю данных, что и делает эта программа.2) GetCandidatesForQuery.py – для каждого из запросов из базыданных рекламных объявлений выбираются соответствующиеему рекламные объявления.
Для каждого из запросов, которые121были собраны программой QueryPool.py, производятся следующиедействия: Из запроса выделяются ключевые слова – слова, несущиеосновную смысловую нагрузку. Из ключевых слов (если их несколько) составляютсяключевые фразы. По ключевым фразам из всего набора рекламных объявленийвыбираютсяименноте,которыеторгуютсяпосоответствующим фразам из запроса. Таким образом, длякаждогозапросаотбираютсясоответствующиеемукандидаты на показ в рекламном блоке над результатамипоиска. Объявления-кандидаты некоторым образом фильтруются(чтобы не было повторяющихся объявлений, объявлений отодного рекламодателя и т.д.) Для каждого объявления-кандидата известна его ставка ивычисляется предсказание вероятности клика .В результате работы программы получается обучающий материалдля подбора параметров критерия показа.3) OptimalThresholdParameters.py – реализация алгоритма подборазначений параметров критерия показа в зависимости отпоставленной оптимизационной задачи.
На вход программаполучает: Набор запросов с объявлениями-кандидатами, для каждого изкоторых известны значения и , которые были полученыпредыдущей программой GetCandidatesForQuery.py Критерий, который необходимо максимизировать: , . Ограничения поисковой системы: , , , , .122После того, как задана конкретная задача оптимизации сограничениями, выполняется поиск соответствующих значений1опт , 2опт и 3опт (Рис.1.). Полный цикл подбора порогов длянабора запросов занимает от 6 до 9 часов (в зависимости от шагаперебора 1 и 2 ).Реализациякомплексапрограммбылавыполненанаязыкепрограммирования Python.
Из-за больших объёмов данных (логовпоказов рекламы, обучающего набора запросов и объявленийкандидатовнапоказ)возникланеобходимостьиспользованияраспределённых вычислений [60] на MapReduce [26]: вычисленияоптимальных параметров происходят на порядок быстрее.Важно заметить, что данный комплекс программ позволяетподбирать значения параметров критерия показа для любой частипоискового трафика.
Если возникнет задача подбора значенийпараметров критерия показа отдельно для регионов или для днейнедели, или ещё по каким-либо разделениям (по пользователям,рекламодателям, гео-таргетинг, временной таргетинг и т.п.), то это непредставляется проблемой. Таким образом, программный комплексявляется масштабируемым.4.4Проведение on-line эксперимента, внедрение на 100%поискового трафика.После того как значения параметров критерия показа 1опт , 2опти 3опт подобраны, необходимо запустить эксперимент на реальныхпользователях.
Как было сказано в п. 4.1, эксперимент обычнопроводится на 1-5% поискового трафика. В данном случае решаласьзадача максимизация средней кликабельности при ограничении надоход поисковой системы и доли запросов с рекламой надрезультатами поиска.123В среднем на каждый запрос пользователя отбирается 50объявлений-кандидатов, для каждого из которых нужно вычислитькритерий показа в рекламном блоке над результатами поиска: = + 1опт ∙ ∙ − 2оптКликабельность объявления и его ставка уже известны,таким образом, чтобы посчитать критерий показа, нужно произвестивсего лишь ряд элементарных математических операций. После тогокак полный рекламный блок для показа над результатами поискасформирован, для него считается суммарный критерий: = ∑ ,который сравнивается с параметром 3опт : если < 3опт , торекламные объявления над результатами поиска не показываются,иначе – показывается весь рекламный блок.Для одного запроса отбор объявлений для показа выполняется засотыедолисекунды:этосоответствуеттребованиямпроизводительности поисковой системы (необходим быстрый ответ назапрос пользователя).On-line эксперимент проводился 10 дней на 2% поисковоготрафика, получены результаты изменения средней кликабельности порекламному блоку над результатами поиска относительно эталонногоэксперимента (Табл.5.).После того, как на on-line эксперименте был получен среднийприрост 8%, было решено внедрить данный вид критерия показа врекламном блоке над результатами поиска для всей системы показоврекламы компании «Яндекс».
После внедрения некоторое времяпроводился«инверсный»экспериментсостаройформулой.Результаты сравнения отбора с использованием нового вида критерияпоказа и «инверсного» эксперимента по средней кликабельности в124процентах можно увидеть в Табл.5. Средний прирост кликабельностисоставил 8.2%.№ дня12345678910Среднееэксперимент7.9%8.1%8.2%7.8%8.3%7.7%7.6%7.8%8.5%8.2%8%внедрение7.9%8.8%7.7%8.1%8.7%7.5%7.5%8.1%8.4%8.3%8.1%Табл.5. Дневная динамика изменения средней кликабельности по сравнению сэталонным и инверсным экспериментами.Данный вид критерия показа в рекламном блоке над результатамипоиска используется на данный момент в системе показов рекламныхобъявлений компании «Яндекс».125ЗАКЛЮЧЕНИЕ.Основные результаты, полученные лично соискателем, и их научнаяновизна заключаются в том, что:1. На основе проведённого критического анализа существующихподходов и методов разработана новая модель показов рекламныхобъявлений в поисковых системах, а также получено еёматематическое описание.2.
В ходе решения задачи оптимизации рекламных показов выявленновый вид критерия, с помощью которого производится отборкандидатов на показ в рекламном блоке над результатами поиска,включающий в себя эффективность показа объявления и егодоходность для поисковой системы.3. Полученалгоритмподборапараметровкритерияпоказарекламных объявлений.
С помощью этих параметров сталовозможным работать с новыми поисковыми запросами. Полученаусовершенствованная модификация базового алгоритма подборапараметровкритерияпоказарекламныхобъявлений.Модифицированный алгоритм изменён для учёта позиционныхэффектов в показе рекламного блока над результатами поиска.4.
Написан комплекс программ, основной частью которого являетсяалгоритм подбора параметров критерия показа. Алгоритм показалвысокую эффективность, масштабируемость и быстродействие. Порезультатам тестирования нового вида критерия показа на on-lineэксперименте было решено использовать предложенный видкритерия для всего потока запросов поисковой системы «Яндекс».126СПИСОК ЛИТЕРАТУРЫ.1.
Бауман К.Е., Топинский В.А., Корнетова А.Н., Хакимова Д.А.,Оптимизация прогноза вероятности клика по контекстной рекламенапоисковойсистеме«Яндекса»//Научно-ТехническаяИнформация. Серия 2. Информационные процессы и системы,2013.– №. 4.– С. 1-8.2. Корнетова А. Н., Червоненкис А. Я. Оптимизация показов рекламыв поисковых системах //Проблемы управления. – 2013. – №. 1. – С.40-49.3. Кун Г.
У., Таккер А. У. Линейные неравенства и смежные вопросы.М.: Изд-во иностр. лит. – 1959.4. Поляк Б. Т. Введение в оптимизацию. – М.: Наука. Гл. ред. физ.-мат.лит. - 1983.5. Сорокина А. Н. Алгоритм размещения рекламных объявлений надрезультатами поиска, максимизирующий доход поисковой системы//Информационные процессы. – 2014. – Т. 14. – №. 1. – С. 108-116.6. Agarwal A., Hosanagar K., Smith M.
D. Location, location, location: Ananalysis of profitability of position in online advertising markets//Journal of marketing research. – 2011. – V. 48. – №. 6. – P. 1057-1073.7. Agarwal D. K., Jung D. M., Li S. M., Mahdian M., McAfee R. P.,Ravikumar S., Reiley D.
System and method for exploring newsponsored search listings of uncertain quality. Patent Application12/700,530 USA. – 2010.8. Agarwal D. Prediction of click through rates using hybrid kalman filtertree structured markov model classifiers. Patent Application 7680746USA. – 2010.9. Ashkan A., Clarke C. L. A. Impact of query intent and search context onclickthrough behavior in sponsored search //Knowledge and informationsystems. – 2013. – V. 34.
– №. 2. – P. 425-452.12710. Attenberg J., Pandey S., Suel T. Modeling and predicting user behaviorin sponsored search //Proceedings of the 15th ACM SIGKDDinternational conference on Knowledge discovery and data mining. –ACM, 2009. – P. 1067-1076.11. Battelle J. The Search: How Google and Its Rivals Rewrote the Rules ofBusiness andTransformed Our Culture. – Penguin, 2005.12.