Homework4 (Домашнее задание 4)
Описание файла
Файл "Homework4" внутри архива находится в папке "Домашнее задание 4". PDF-файл из архива "Домашнее задание 4", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Домашнее задание №4Срок сдачи: 25 ноября, 23:59:59. Решения, присланные позже данного срока, непринимаются.Обратите внимание, что в данном задании оценивается временная эффективностьрешения!Формулировка задания:На вход подаются источники данных, каждый источник данных содержит японские свечипо одному инструменту, упорядоченные по времени. Каждый источник данных можетбыть представлен единственным файлом или файлами, состоящими из нескольких частей,соответствующим результатам работы MapReduce задачи, формирующей свечи, при этомчасти файлов с одинаковыми номерами partitions должны содержать одинаковыедиапазоны времени и в рамках partitions каждого источника должна обеспечиватьсяглобальная сортировка по времени.Напомним, каждая свеча – это:MOMENT – время начала свечи;OPEN – цена первой сделки за свечу;HIGH – максимальная цена за свечу;LOW – минимальная цена за свечу;CLOSE – цена последней сделки за свечу.Формат входных данных (каждого файла) без шапки:SYMBOL,MOMENT,OPEN,HIGH,LOW,CLOSEВам необходимо:Программа должна посчитать коэффициент корреляции Пирсона для каждой парыинструментов (всего n(n-1)/2) за выбранный промежуток времени и отсортировать парыинструментов согласно убыванию модуля коэффициента корреляции.Формат строки вывода:инстр1,инстр2\tкоэфф_кореллКоэффициент корреляции считается для величин (CLOSEi+1-CLOSEi)/CLOSEi, где i номер свечи.
В случае присутствия данных по одному инструменту и отсутствию данныхпо другому инструменту за некий момент времени, данные по этому моменту невключаются в расчет коэффициента.Входными параметрами программы являются:candle.date.from = 19000101 #первый день периода времени (ГГГГММДД);candle.date.to = 20200101 #первый день после последнего дня периода(ГГГГММДД);candle.time.from = 1000 #время (ЧЧММ) начала первой свечи;candle.time.to = 1800 #время (ЧЧММ) после начала последней свечи;Название входной директории;Название выходной директории.Необходимо сделать отчет о переданном по сети трафике и времени исполнения для двухи четырех рабочих A3-узлов в кластере, подобрать оптимальное число редьюсеров дляобоих вариантов по времени исполнения.
Включить в отчет таблицы по результатампроведенных экспериментов, сформулировать соответствующие выводы.Далее Вам необходимо на почту курса bigdata@cs.msu.ru отправить архив в форматеTask4-Фамилия.rar (фамилия на англ.), содержащий следующие файлы:1) Файл Correlation.java c Вашим кодом (либо архив Correlation с исходнымифайлами);2) Файл Correlation.jar;3) Файл Correlation.pdf с выполненным отчетом;4) Вспомогательные файлы для сборки (если используются);5) Файл readme.txt с описанием того, как Вы компилировали и запускали программы;6) Так как выходные данные слишком большого объема (и их выкачивание стоитдорого), для быстрой проверки корректности работы программы просимдополнительно запустить программу с входными параметрами, указанными ниже,и прислать полученный в результате файл Correlation.txt.Входные данные для дополнительного запуска:candle.date.from = 20110111;candle.date.to = 20110112;candle.time.from = 1000;candle.time.to = 1020.Необходимо провести дополнительный запуск на финансовых инструментах SVH1 иGDH1..