Аудиторія
Этот курс предназначен для:
- ответственных за проектирование и реализацию решений для больших данных, то есть архитекторов решений и администраторов SysOp;
- специалистов по обработке и анализу данных, которые хотят больше узнать о решениях для больших данных на платформе AWS.
Попередні вимоги
Для прохождения данного курса рекомендуется иметь следующую подготовку.
- Базовый уровень знаний по технологиям работы с большими данными, включая Apache Hadoop, MapReduce, HDFS и запросы SQL/NoSQL.
- Учащиеся должны пройти онлайн-курс «Big Data Technology Fundamentals» или обладать аналогичным опытом работы.
- Практический опыт работы с основными сервисами AWS и реализации публичного облака.
- Учащиеся должны пройти курс «AWS Technical Essentials» или обладать аналогичным опытом работы.
- Понимание принципов хранения данных, систем реляционных баз данных и проектирования баз данных.
Цілі курсу
В этом курсе вы изучите:
- встраивание решений AWS в систему больших данных;
- использование Apache Hadoop в контексте Amazon EMR и идентификацию компонентов кластера Amazon EMR;
- запуск и настройку кластера Amazon EMR;
- использование с сервисом Amazon EMR распространенных инфраструктур программирования, таких как Hive, Pig и Streaming;
- упрощение работы с Amazon EMR с помощью интерфейса Hue;
- применение в Amazon EMR средств аналитики, работающих в оперативной памяти, с помощью Spark и Spark SQL;
- выбор подходящего решения хранения данных AWS;
- определение преимуществ использования Amazon Kinesis для обработки больших данных в режиме, близком к реальному времени;
- определение понятий хранения данных и колоночных баз данных;
- эффективное хранение и анализ данных с помощью Amazon Redshift;
- анализ расходов и безопасности и управление ими для развертываний Amazon EMR и Amazon Redshift;
- определение параметров сбора, передачи и сжатия данных;
- применение ПО для визуализации данных и запросов;
- оркестрацию рабочих процессов больших данных с помощью AWS Data Pipeline.
Зміст курсу
Курс «Big Data on AWS» знакомит с облачными решениями платформы AWS для больших данных, такими как Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis и другими. В этом курсе разъясняется использование сервиса Amazon EMR для обработки данных с помощью разнообразных инструментов Hadoop, таких как Hive и Hue. Вы научитесь создавать среды больших данных, работать с сервисами Amazon DynamoDB, Amazon Redshift и Amazon Kinesis, а также применять рекомендации по проектированию безопасных и экономичных сред больших данных.