Перейти на главную | Список курсов | Расписание | Заявка на курс | Cisco course on-line registration

Наши контакты

☎ +7 747 716 2122 ☎ +7 777 241 7298
☎ +7 747 592 9208
asem@ciscotrain.kz info@ciscotrain.kz
gulzifa@ciscotrain.kz

Схема проезда

Гоголя 39, каб. 509
Казахстан, г. Алматы, ул. Гоголя 39, каб. 509, 050002

DP-203T00: Data Engineering on Microsoft Azure/ Инжиниринг данных в Microsoft Azure

32
25-28.11.2024 онлайн

Курс позволяет познакомиться с инжинирингом данных в его связи с работой с пакетными и работающими в реальном времени аналитическими решениями с использованием технологий платформ данных Azure. Слушатели поймут основные технологии вычислений и хранения, которые используются для построения аналитического решения. Слушатели также узнают, как интерактивно исследовать данные, хранящиеся в файлах в Azure Data Lake.

Курс предназначен для специалистов в области данных, архитекторов данных и специалистов по бизнес-аналитике, желающие узнать об инжиниринге данных или построении аналитических решений с использованием технологий платформ данных, существующих в Microsoft Azure. Вторичная аудитория этого курса — аналитики данных и специалисты по обработке данных, которые работают с аналитическими решениями, построенными на Microsoft Azure.

 

Предварительные требования:

Для эффективного обучения слушатели должны обладать следующими знаниями и навыками:

  • Знание основ Azure;
  • Знание облачных вычислений;
  • Практический опыт работы с большими данными.

Содержание курса

Модуль1. Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных

В этом модуле дается обзор вариантов технологий вычислений и хранения в Azure, а также способов структурирования Data Lake (озера данных) и оптимизации файлов для исследования, потоковой передачи и пакетных нагрузок.

Темы

  • Знакомство с Azure Synapse Analytics
  • Описание Azure Databricks
  • Знакомство с хранилищем Azure Data Lake
  • Описание архитектуры Delta Lake
  • Работа с потоками данных с использованием Azure Stream Analytics

Лабораторная работа: Исследование вариантов вычислений и хранения для рабочих нагрузок инжиниринга данных

  • Объединение потоковой и пакетной обработки в одном конвейере
  • Упорядочение озера данных в уровни преобразования файлов
  • Индексирование хранилища озера данных для ускорения запросов и загрузки

Модуль 2. Выпонение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics

В этом модуле описана работа с файлами, хранящимися в озере данных и внешних источниках данных с помощью инструкций T-SQL, осуществляемых бессерверным пулом SQL в Azure Synapse Analytics.

Темы

  • Исследование возможностей бессерверных пулов SQL Azure Synapse
  • Запрос данных в озере с использованием бессерверных пулов SQL Azure Synapse
  • Создание объектов метаданных в бессерверных пулах SQL Azure Synapse
  • Защита данных и управление пользователями в бессерверных пулах SQL Azure Synapse

Лабораторная работа: Выполнение интерактивных запросов с использованием бессерверных пулов SQL Azure Synapse Analytics

  • Выполнение запроса данных Parquet с помощью бессерверных пулов SQL
  • Создание внешних таблиц для файлов Parquet и CSV
  • Создание представлений с помощью бессерверных пулов SQL
  • Защита доступа к данным в озере данных во время использования бессерверных пулов SQL
  • Настройка безопасности озера данных с использованием контроля доступа на основе ролей (RBAC) и списка контроля доступа (Access Control List)

Модуль 3. Исследование и преобразование данных в Azure Databrics

В этом модуле рассказывается, как использовать различные методы Apache Spark DataFrame для исследования и преобразования данных в Azure Databricks.

Темы

  • Обзор Azure Databricks
  • Чтение и запись данных в Azure Databricks
  • Работа с DataFrames в Azure Databricks
  • Работа с расширенными методами DataFrames в Azure Databricks

Лабораторная работа: Исследование и преобразование данных в Azure Databricks

  • Использование DataFrames в Azure Databricks для исследования и фильтрации данных
  • Кэширование DataFrame для более быстрого выполнения последующих запросов
  • Удаление дублирующихся данных
  • Работа со значениями дат/времени
  • Удаление и переименование столбцов DataFrame
  • Агрегирование данных, хранящихся в DataFrame

Модуль 4.Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark

В этом модуле рассказывается, как исследовать данные, хранимые в озере данных, как преобразовывать и загружать данные в реляционное хранилище данных. Слушатели будут использовать Apache Spark для загрузки данных в хранилище данных и соединения данных Parquet в озере данных с данными в выделенном пуле SQL.

Темы

  • Понимание инжиниринга больших данных с помощью Apache Spark в Azure Synapse Analytics
  • Получение данных с помощью Spark в Azure Synapse Analytics
  • Преобразование данных с помощью DataFrames в пулах Apache Spark в Azure Synapse Analytics
  • Интеграция пулов SQL и Apache Spark в Azure Synapse Analytics

Лабораторная работа: Исследование, преобразование и загрузка данных в хранилище данных с использованием Apache Spark

  • Исследование данных в Synapse Studio
  • Получение данных с помощью Spark в Azure Synapse Analytics
  • Преобразование данных с помощью DataFrames в пулах Spark в Azure Synapse Analytics
  • Интеграция пулов SQL и Spark в Azure Synapse Analytics

Модуль 5. Получение и загрузка данных в хранилище данных

В этом модуле рассказывается, как получать данные в хранилище данных с помощью скриптов T-SQL и конвейеров интеграции Synapse Analytics.

Темы

  • Использование лучших практик загрузки данных в Azure Synapse Analytics
  • Прием петабайтов данных с помощью Azure Data Factory

Лабораторная работа: Получение и загрузка данных в хранилище данных

  • Получение петабайтов данных с помощью Azure Synapse Pipelines
  • Импорт данных с помощью PolyBase и COPY с использованием T-SQL
  • Использование лучших практик загрузки данных в Azure Synapse Analytics

Модуль 6. Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines

Этот модуль посвящен проектированию конвейеров интеграции данных.

Темы

  • Интеграция данных с помощью Azure Data Factory или Azure Synapse Pipelines
  • Безкодовое преобразование и масштабирование с помощью Azure Data Factory или Azure Synapse Pipelines

Лабораторная работа: Преобразование данных с помощью Azure Data Factory или Azure Synapse Pipelines

  • Выполнение безкодовых преобразований и масштабирования с помощью Azure Synapse Pipelines
  • Создание конвейера данных для импорта файлов CSV с неправильным форматом
  • Создание потоков сопоставления данных

Модуль 7. Управление перемещением и преобразованием данных в zure Synapse Pipelines

Этот модуль описывает создание связанных служб и управление перемещением и преобразованием данных с использованием Azure Synapse Pipelines.

Темы

  • Оркестрация перемещения и преобразования данных в Azure Data Factory

Лабораторная работа: Управление перемещением и преобразованием данных в Azure Synapse Pipelines

  • Осуществлять оркестрацию перемещения и преобразования данных в Azure Synapse Pipelines

Модуль 8. Комплексное обеспечение безопасности с помощью Azure Synapse Pipelines

В этом модуле описано, как защитить рабочую область Synapse Analytics и ее поддерживающую инфраструктуру. Слушатели рассмотрят SQL Active Directory Admin, а также обеспечат безопасность на уровне столбцов и на уровне строк и динамическое сокрытие данных во время использования выделенных пулов SQL.

Темы

  • Защита хранилища данных в Azure Synapse Analytics
  • Настройка ключей в Azure Key Vault и управление ими
  • Реализация контроля соответствия для конфиденциальных данных

Лабораторная работа: Комплексное обеспечение безопасности с помощью Azure Synapse Analytics

  • Защита поддерживающей инфраструктуры Azure Synapse Analytics
  • Защита рабочей области Azure Synapse Analytics и управляемых служб
  • Защита данных рабочей области Azure Synapse Analytics

Модуль 9. Поддержка Hybrid Transactional Analytical Processing (HTAP)  с помощью Azure Synapse Link

В этом модуле рассматривается, как Azure Synapse Link обеспечивает подключение учетной записи Azure Cosmos DB к рабочей области Synapse.

Темы

  • Разработка гибридной транзакционной и аналитической обработки с использованием Azure Synapse Analytics
  • Настройка Azure Synapse Link с помощью Azure Cosmos DB
  • Запрос к Azure Cosmos DB с помощью пулов Apache Spark
  • Запрос к Azure Cosmos DB с помощью бессерверных пулов SQL

Лабораторная работа: Поддержка Hybrid Transactional Analytical Processing (HTAP) с помощью Azure Synapse Link

  • Настройка Azure Synapse Link с помощью Azure Cosmos DB
  • Запрос к Azure Cosmos DB с помощью Apache Spark для Synapse Analytics
  • Запрос к Azure Cosmos DB с помощью бессерверного пула SQL для Azure Synapse Analytics

Модуль 10. Потоковая обработка в реальном временис помощью Sream Analytics

В этом модуле слушатели узнают, как обрабатывать потоковые данные с помощью Azure Stream Analytics.

Темы

  • Обеспечение надежного обмена сообщениями для приложений Big Data с использованием Azure Event Hubs
  • Работа с потоками данных с использованием Azure Stream Analytics
  • Получение потоков данных с использованием Azure Stream Analytics

Лабораторная работа: Потоковая обработка в реальном времени с помощью Stream Analytics

  • Использование Stream Analytics для обработки данных от Event Hubs в режиме реального времени
  • Использование оконных функций Stream Analytics для построения агрегатов и вывода в Synapse Analytics
  • Масштабирование задания Azure Stream Analytics для увеличения пропускной способности с помощью секционирования
  • Повторное разбиение входных данных потока для оптимизации распараллеливания

Модуль 11. Создание решения для потоковой обработки с помощью Event Habs и Azure Databrics

В этом модуле слушатели узнают, как получать и обрабатывать потоковые данные с помощью Event Hubs и Spark Structured Streaming в Azure Databricks.

Темы

  • Обработка потоковых данных с помощью структурированной потоковой передачи Azure Databricks

Лабораторная работа: Создание решения для потоковой обработки с помощью Event Hubs и Azure Databricks

  • Изучение основных функций и вариантов использования структурированной потоковой передачи
  • Потоковая передача данных из файла и их запись в распределенную файловую систему
  • Использование скользящих окон для агрегирования блоков данных, а не всех данных
  • Применение водяных знаков для удаления устаревших данных
  • Подключение к потокам чтения и записи Event Hubs
 Подходит? Подать заявку на этот курс