Лабораторная работа: ETL-пайплайн через Spark
Описание
ПРАКТИЧЕСКАЯ РАБОТА № 2
Цель работы
Цель работы заключается в разработке ETL-пайплайна с использованием фреймворка Apache Spark для обработки и трансформации данных из исходных файлов mock_data.csv в реляционную модель данных типа «звезда», развернутую в PostgreSQL, а также в последующем формировании отчётных витрин в выбранной NoSQL базе данных. Итоговые витрины должны представлять собой отдельные таблицы (коллекции), созданные на основе агрегированных данных из модели «звезда».
Используемое программное обеспечение
Здесь списком указываются программы, библиотеки и инструменты, используемые в работе. Например,
- DataGrip.
- Docker
- Jupyter, Python
- Spark
- PostgreSQL
- Clickhouse, MongoDB
Характеристики лабораторной работы
Предмет
Учебное заведение
Просмотров
1
Размер
4,99 Mb
Список файлов
ЛР_№2_ETL_Spark.docx
Комментарии
Нет комментариев
Стань первым, кто что-нибудь напишет!
НИУ ИТМО
all_at_700












