Обработка больших данных с Apache Spark

Бутаков Н. А., Петров М. В., Насонов Д. Apache Spark — фреймворк с открытым исходным кодом для анализа и обработки больших данных.

 



Это учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark.

Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETL-конвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.

В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами.



 


RuCoreNET - лучшее для вас!


Поделись статьей с друзьями


91 просмотров


0 0 vote
Рейтинг статьи
Подписаться
Уведомление о
guest
0 Комментарий
Inline Feedbacks
View all comments


Do NOT follow this link or you will be banned from the site!
0
Would love your thoughts, please comment.x
()
x

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: