Homework2 (Домашнее задание 2)
Описание файла
Файл "Homework2" внутри архива находится в папке "Домашнее задание 2". PDF-файл из архива "Домашнее задание 2", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Домашнее задание №2Срок сдачи: 4 ноября, 23:59:59. Решения, присланные позже данного срока, непринимаются.Обратите внимание, что в данном задании оценивается временная эффективностьрешения!Формулировка задания: На вход подается .csv файл (разделители – запятые) сфинансовыми данными, доступный по адресу:wasb://financedata@bigdatamsu.blob.core.windows.net/Столбцы данного файла имеют следующие названия:#SYMBOL,SYSTEM,MOMENT,ID_DEAL,PRICE_DEAL,VOLUME,OPEN_POS,DIRECTIONгде #SYMBOL – название финансового инструмента;MOMENT – время (дата);PRICE_DEAL – цена.Пример строки в файле:SVH1,F,20110111100000080,255223067,30.46000,1,8714,SДанный файл отсортирован по дате и времени.Внимание! Так как данный файл с финансовыми данными очень большого размера,отладку программы следует производить на данных меньшего размера и толькоубедившись, что все работает, запускать программу на данных большого размера.Указанный файл с финансовыми данными меньшего размера Вы можете скачать поадресу http://bigdata.cs.msu.ru/images/9/99/Finance_example.zipВам необходимо:1) Найти максимальную и минимальную цену каждого финансового инструмента закаждый день2) Упорядочить найденную в первом пункте статистику по дате (и времени) иинструменту.
Данную подзадачу можно решать как без использования hadoop(используя gnu sort), так и с hadoop (при решении с hadoop Вам будут начисленыдополнительные бонусные баллы)3) Сделать отчет о переданном по сети трафике и времени исполнения для двух ичетырех рабочих A3- узлов в кластере, подобрать оптимальное число редьюсеровдля обоих вариантов по времени исполнения. Включить в отчет таблицы порезультатам проведенных экспериментов, сформулировать соответствующиевыводы.Далее Вам необходимо на почту курса bigdata@cs.msu.ru отправить архив в форматеTask2-Фамилия.rar (фамилия на англ.), содержащий следующие файлы:1) Файл finance.java, в котором производится поиск максимальной и минимальнойцен каждого финансового инструмента за каждый день, а также сортировкастатистики по дате и инструменту (если сделали)2) Сформированный finance.jar файл3) Файл finance.txt с отсортированной статистикой в формате:Дата(и время) ПРОБЕЛ инструмент ПРОБЕЛ максимальная_цена ПРОБЕЛминимальная_цена4) Файл finance.pdf с выполненным отчетом5) Вспомогательные файлы для сборки (если используются)6) Файл readme.txt с описанием того, как Вы компилировали и запускали программы.