Наши контакты

Курс позволяет познакомиться с инжинирингом данных в его связи с работой с пакетными и работающими в реальном времени аналитическими решениями с использованием технологий платформ данных Azure. Слушатели поймут основные технологии вычислений и хранения, которые используются для построения аналитического решения. Слушатели также узнают, как интерактивно исследовать данные, хранящиеся в файлах в Azure Data Lake.

Курс предназначен для специалистов в области данных, архитекторов данных и специалистов по бизнес-аналитике, желающие узнать об инжиниринге данных или построении аналитических решений с использованием технологий платформ данных, существующих в Microsoft Azure. Вторичная аудитория этого курса — аналитики данных и специалисты по обработке данных, которые работают с аналитическими решениями, построенными на Microsoft Azure.

Предварительные требования:

Для эффективного обучения слушатели должны обладать следующими знаниями и навыками:

Знание основ Azure;
Знание облачных вычислений;
Практический опыт работы с большими данными.

Содержание курса

Модуль1. Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных

В этом модуле дается обзор вариантов технологий вычислений и хранения в Azure, а также способов структурирования Data Lake (озера данных) и оптимизации файлов для исследования, потоковой передачи и пакетных нагрузок.

Темы

Знакомство с Azure Synapse Analytics
Описание Azure Databricks
Знакомство с хранилищем Azure Data Lake
Описание архитектуры Delta Lake
Работа с потоками данных с использованием Azure Stream Analytics

Лабораторная работа: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных

Объединение потоковой и пакетной обработки в одном конвейере
Упорядочение озера данных в уровни преобразования файлов
Индексирование хранилища озера данных для ускорения запросов и загрузки

Модуль 2. Выпонение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics

В этом модуле описана работа с файлами, хранящимися в озере данных и внешних источниках данных с помощью инструкций T-SQL, осуществляемых бессерверным пулом SQL в Azure Synapse Analytics.

Темы

Исследование возможностей бессерверных пулов SQL Azure Synapse
Запрос данных в озере с использованием бессерверных пулов SQL Azure Synapse
Создание объектов метаданных в бессерверных пулах SQL Azure Synapse
Защита данных и управление пользователями в бессерверных пулах SQL Azure Synapse

Лабораторная работа: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics

Выполнение запроса данных Parquet с помощью бессерверных пулов SQL
Создание внешних таблиц для файлов Parquet и CSV
Создание представлений с помощью бессерверных пулов SQL
Защита доступа к данным в озере данных во время использования бессерверных пулов SQL
Настройка безопасности озера данных с использованием контроля доступа на основе ролей (RBAC) и списка контроля доступа (Access Control List)

Модуль 3. Исследование и преобразование данных в Azure Databrics

В этом модуле рассказывается, как использовать различные методы Apache Spark DataFrame для исследования и преобразования данных в Azure Databricks.

Темы

Обзор Azure Databricks
Чтение и запись данных в Azure Databricks
Работа с DataFrames в Azure Databricks
Работа с расширенными методами DataFrames в Azure Databricks

Лабораторная работа: Исследование и преобразование данных в Azure Databricks

Использование DataFrames в Azure Databricks для исследования и фильтрации данных
Кэширование DataFrame для более быстрого выполнения последующих запросов
Удаление дублирующихся данных
Работа со значениями дат/времени
Удаление и переименование столбцов DataFrame
Агрегирование данных, хранящихся в DataFrame

Модуль 4.Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark

В этом модуле рассказывается, как исследовать данные, хранимые в озере данных, как преобразовывать и загружать данные в реляционное хранилище данных. Слушатели будут использовать Apache Spark для загрузки данных в хранилище данных и соединения данных Parquet в озере данных с данными в выделенном пуле SQL.

Темы

Понимание инжиниринга больших данных с помощью Apache Spark в Azure Synapse Analytics
Получение данных с помощью Spark в Azure Synapse Analytics
Преобразование данных с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
Интеграция пулов SQL и Apache Spark в Azure Synapse Analytics

Лабораторная работа: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark

Исследование данных в Synapse Studio
Получение данных с помощью Spark в Azure Synapse Analytics
Преобразование данных с помощью DataFrames в пулах Spark в Azure Synapse Analytics
Интеграция пулов SQL и Spark в Azure Synapse Analytics

Модуль 5. Получение и загрузка данных в хранилище данных

В этом модуле рассказывается, как получать данные в хранилище данных с помощью скриптов T-SQL и конвейеров интеграции Synapse Analytics.

Темы

Использование лучших практик загрузки данных в Azure Synapse Analytics
Прием петабайтов данных с помощью Azure Data Factory

Лабораторная работа: Получение и загрузка данных в хранилище данных

Получение петабайтов данных с помощью Azure Synapse Pipelines
Импорт данных с помощью PolyBase и COPY с использованием T-SQL
Использование лучших практик загрузки данных в Azure Synapse Analytics

Модуль 6. Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines

Этот модуль посвящен проектированию конвейеров интеграции данных.

Темы

Интеграция данных с помощью Azure Data Factory или Azure Synapse Pipelines
Безкодовое преобразование и масштабирование с помощью Azure Data Factory или Azure Synapse Pipelines

Лабораторная работа: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines

Выполнение безкодовых преобразований и масштабирования с помощью Azure Synapse Pipelines
Создание конвейера данных для импорта файлов CSV с неправильным форматом
Создание потоков сопоставления данных

Модуль 7. Управление перемещением и преобразованием данных в zure Synapse Pipelines

Этот модуль описывает создание связанных служб и управление перемещением и преобразованием данных с использованием Azure Synapse Pipelines.

Темы

Оркестрация перемещения и преобразования данных в Azure Data Factory

Лабораторная работа: Управление перемещением и преобразованием данных в Azure Synapse Pipelines

Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines

Модуль 8. Комплексное обеспечение безопасности с помощью Azure Synapse Pipelines

В этом модуле описано, как защитить рабочую область Synapse Analytics и ее поддерживающую инфраструктуру. Слушатели рассмотрят SQL Active Directory Admin, а также обеспечат безопасность на уровне столбцов и на уровне строк и динамическое сокрытие данных во время использования выделенных пулов SQL.

Темы

Защита хранилища данных в Azure Synapse Analytics
Настройка ключей в Azure Key Vault и управление ими
Реализация контроля соответствия для конфиденциальных данных

Лабораторная работа: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics

Защита поддерживающей инфраструктуры Azure Synapse Analytics
Защита рабочей области Azure Synapse Analytics и управляемых служб
Защита данных рабочей области Azure Synapse Analytics

Модуль 9. Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link

В этом модуле рассматривается, как Azure Synapse Link обеспечивает подключение учетной записи Azure Cosmos DB к рабочей области Synapse.

Темы

Разработка гибридной транзакционной и аналитической обработки с использованием Azure Synapse Analytics
Настройка Azure Synapse Link с помощью Azure Cosmos DB
Запрос к Azure Cosmos DB с помощью пулов Apache Spark
Запрос к Azure Cosmos DB с помощью бессерверных пулов SQL

Лабораторная работа: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link

Настройка Azure Synapse Link с помощью Azure Cosmos DB
Запрос к Azure Cosmos DB с помощью Apache Spark для Synapse Analytics
Запрос к Azure Cosmos DB с помощью бессерверного пула SQL для Azure Synapse Analytics

Модуль 10. Потоковая обработка в реальном временис помощью Sream Analytics

В этом модуле слушатели узнают, как обрабатывать потоковые данные с помощью Azure Stream Analytics.

Темы

Обеспечение надежного обмена сообщениями для приложений Big Data с использованием Azure Event Hubs
Работа с потоками данных с использованием Azure Stream Analytics
Получение потоков данных с использованием Azure Stream Analytics

Лабораторная работа: Потоковая обработка в реальном времени с помощью Stream Analytics

Использование Stream Analytics для обработки данных от Event Hubs в режиме реального времени
Использование оконных функций Stream Analytics для построения агрегатов и вывода в Synapse Analytics
Масштабирование задания Azure Stream Analytics для увеличения пропускной способности с помощью секционирования
Повторное разбиение входных данных потока для оптимизации распараллеливания

Модуль 11. Создание решения для потоковой обработки с помощью Event Habs и Azure Databrics

В этом модуле слушатели узнают, как получать и обрабатывать потоковые данные с помощью Event Hubs и Spark Structured Streaming в Azure Databricks.

Темы

Обработка потоковых данных с помощью структурированной потоковой передачи Azure Databricks

Лабораторная работа: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks

Изучение основных функций и вариантов использования структурированной потоковой передачи
Потоковая передача данных из файла и их запись в распределенную файловую систему
Использование скользящих окон для агрегирования блоков данных, а не всех данных
Применение водяных знаков для удаления устаревших данных
Подключение к потокам чтения и записи Event Hubs

Подходит? Подать заявку на этот курс

Наши контакты

Основные направления

Схема проезда

DP-203T00: Data Engineering on Microsoft Azure/ Инжиниринг данных в Microsoft Azure

Содержание курса