Самый быстрый способ прокачать свои навыки для IT-специалистов. Научитесь эффективно обрабатывать большие данные, выполняя практические задания на реальном кластере.
Кому подойдет этот курс:
Разработчикам Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере.
Data Engineers Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять.
Аналитикам Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи? Вы научитесь использовать инструменты работы с большими данными, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации. Для тех, кто хочет перейти в сферу Data Science и освоить машинное обучение, рекомендуем пройти "Практический курс Machine Learning."
Data Scientists Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.
ЧАСТЬ 1 - HDFS В этом модуле вы изучите: вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса; распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения; чтение и запись в HDFS. HDFS APIs: Web, shell. Hadoop Streaming; элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator). приложения с несколькими Hadoop-задачами; тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs); задачи с несколькими входами. Joins в Hadoop. архитектура Hive, виды таблиц, форматы хранения данных; трансляция Hive-запросов в MapReduce-задачи; сериализация и десериализация; тюнинг Join'ов в Hive; партиционирование, бакетирование, семплирование; User defined functions, Hive Streaming.
Часть 2. Spark: from zero to hero В этом модуле вы изучите: cхема выполнения задачи в Spark; основные термины Spark (job, task, stage); представление вычислений в виде графа. Spark Python API. Spark RDD API; Broadcast-сообщения и счетчики. взаимодействие Hive и Spark SQL; отличия DF от RDD. Spark on YARN; типы stage в Spark; оптимизация операции shuffle; настройка Garbage Collection, тюнинг потребления памяти.
ЧАСТЬ 3 - Kafka, RT, NoSQL, Data layout В этом модуле вы изучите: подходы к Realtime-обработке; гарантии обработки, переход от одной гарантии к другой, архитектуры "Лямбда" и "Каппа"; Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream; архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей; семантики доставки сообщений, сжатие данных в Kafka, синхронная и асинхронная репликация. отличия Key-Value хранилищ от реляционных БД; компактификация и её виды, CQLSH; архитектура Cassandra; обеспечение надёжности и высокодоступности в Key-Value хранилищах; интеграция Spark с Cassandra. как бороться с Data Skew с помощью MapReduce подходов в разных фреймворках; trade-off между CPU и IO-bound приложениями, подходы к сжатию в Big Data, горячие и холодные данные; форматы данных в Big Data: ORC vs Parquet, Avro, ..
Информация о видео Название: Практический курс по Big Data. Часть 1,2,3 Автор: Драль, Артём Выборнов, Павел Клеменков Год выхода: 2023 Жанр: Видеокурс Язык: Русский Выпущено: Россия Продолжительность: 10:30:55
Файл Формат: MP4 (+доп.файлы) Видео: AVC, 1280x720, ~196 Kbps Аудио: AAC, 128 Kbps, 48.0 KHz Размер файла: 1.74 Gb
Скачать BigData Team. Практический курс по Big Data. Часть 1,2,3 (2023) PCRec |