Перейти на главную | Список курсов | Расписание | Заявка на курс | Cisco course on-line registration
Ищете что-то конкретное? Контакты ↓
Звоните +7 727 352 71 58 и +7 727 352 73 73 еще контакты или подайте заявку на курс

Наши контакты

☎ +7 (727) 352 71 58
☎ +7 (727) 352 73 73
☎ +7 (727) 352 83 03
☎ +7 (727) 352 83 83
asemciscotrain.kz
infociscotrain.kz
Гоголя 39, каб. 301
Казахстан, г. Алматы, ул. Казыбек би 22 офис 222, 050010

Data Science: Анализ данных, визуализация и моделирование в R

32
01 - 04.04.2020

   Данный курс является необходимым для получения практических навыков работы с программой R при анализе больших данных и моделировании. R – бесплатный язык программирования для статистической обработки данных, визуализации данных и моделирования. Пройдя данный курс Вы освоите основы программирования в пакете R. Узнаете, как загружать, сохранять и преобразовывать данные, создавать графики и проводить базовый статистический анализ. Научитесь проводить углубленный статистический анализ и строить статистические модели в зависимости от поставленных бизнес-задач. Слушатели получат системное теоретическое представление об основных классах моделей Data Mining, а также практический опыт их построения. Курс практический, все темы иллюстрируются практическими примерами реализации в пакете R.

 

Аудитория

1.      IT-специалисты по работе с большими данными, желающие повысить свою квалификацию и стать аналитиками;

2.      бизнес-аналитики, желающие систематизировать свои знания по статистическому анализу и моделированию, а также освоить новый инструмент для анализа данных – R;

3.      руководители, желающие получить расширенную теоретическую и практическую подготовку по использованию программы R для аналитических расчетов и моделирования.

Предварительная подготовка

·         Знание программы R не требуется

·         Практический опыт работы с данными

·         Желательно знание основ статистики

·         Желательны навыки программирования

Содержание курса

Программа

 Тема 1. Основы методологии статистического анализа данных и моделирования – 2 ак.ч.

  • ·         Виды первичных данных для анализа
  • ·         Понятие генеральной совокупности и выборки
  • ·         Виды выборок при изучении данных
  • ·         Шкалы измерения переменных
  • ·         Направления анализа статистических данных
  • ·         Описательная и аналитическая статистика
  • ·         Выбор методов описательного анализа
  • ·         Выбор методов проверки гипотез
  • ·         Выбор методов изучения взаимосвязи
  • ·         Понятие точечной и интервальной оценки
  • ·         Понятие статистической гипотезы
  • ·         Виды статистических гипотез
  • ·         Виды статистических ошибок
  • ·         Принципы проверки статистических гипотез
  • ·         Понятие Data Mining
  • ·         Понятие машинного обучения
  • ·         Основные классы задач моделирования
  • ·         Инструменты для анализа данных и моделирования

Тема 2. Введение в работу в среде R – 2 ак.ч.

  • ·         Особенности работы в пакете R
  • ·         Установка программы R
  • ·         Среда R
  • ·         Правила задания команд
  • ·         Задание рабочей директории
  • ·         Пакеты R
  • ·         Графические интерфейсы
  • ·         R как калькулятор
  • ·         Справочная система R
  • ·         Сохранение результатов

Тема 3. Основы программирования в среде R – 2 ак.ч.

  • ·         Виды объектов в R
  • ·         Вектора
  • ·         Основные операции над векторами
  • ·         Списки
  • ·         Матрицы
  • ·         Факторы
  • ·         Таблицы данных
  • ·         Выражения
  • ·         Операторы доступа к данным
  • ·         Функции и аргументы
  • ·         Циклы и условные операторы
  • ·         Основные команды управления данными
  • ·         Векторизация операций
  • ·         Режим отладки

Тема 4. Ввод и организация данных для анализа в среде R – 1 ак.ч.

  • ·         Способы загрузки данных
  • ·         Непосредственный ввод данных
  • ·         Ввод данных в таблице
  • ·         Загрузка текстовых файлов с разделителем
  • ·         Загрузка текстовых файлов фиксированной длины
  • ·         Загрузка данных из MS Excel и других программ
  • ·         Сохранение данных во внешних форматах
  • ·         Представление количественных переменных
  • ·         Представление номинальных и порядковых переменных
  • ·         Задание пропущенных значений в данных
  • ·         Поиск логических несоответствий и ошибок в данных
  • ·         Работа с пропущенными данными

Тема 5. Графические возможности R – 1 ак.ч.

  • ·         Графические команды
  • ·         Команды рисования высокого уровня
  • ·         Команды рисования низкого уровня
  • ·         Интерактивная графика
  • ·         Графические устройства вывода
  • ·         Графические параметры

 Тема 6. Подготовка и исследование данных перед моделированием – 2 ак.ч.

  • ·         Определение целевой переменной
  • ·         Определение независимых переменных
  • ·         Меры центральной тенденции для количественных данных
  • ·         Меры разброса для количественных данных
  • ·         Процентили и их анализ
  • ·         Графический анализ распределения: гистограмма и ящичковая диаграмма
  • ·         Нормальный закон распределения
  • ·         Обзор основных распределений, отличных от нормального
  • ·         Анализ выбросов в данных
  • ·         Анализ категориальных данных
  • ·         Категоризация количественных переменных
  • ·         Стандартизация количественных данных
  • ·         Нормализация количественных данных

Тема 7. Статистические тесты выявлений различий в выборках – 2 ак.ч.

  • ·         Z-критерий для сравнения долей
  • ·         Одновыборочный t-критерий
  • ·         t-критерий для сравнения независимых выборок
  • ·         t-критерий для сравнения зависимых выборок
  • ·         Условия применения непараметрических критериев
  • ·         Одновыборочный критерий знаковых рангов Вилкоксона
  • ·         Критерий Манна-Уитни
  • ·         Критерий знаков Вилкоксона для связанных выборок

Тема 8. Оценка взаимосвязи между переменными – 4 ак.ч.

  • ·         Анализ взаимосвязи на основе таблиц сопряженности
  • ·         Ожидаемые частоты и остатки в таблицах сопряженности
  • ·         Критерий независимости хи-квадрат
  • ·         Классификация видов взаимосвязи
  • ·         Визуальный анализ наличия взаимосвязи: диаграммы рассеяния
  • ·         Коэффициент корреляции Пирсона
  • ·         Ранговые коэффициенты корреляции
  • ·         Коэффициент корреляции Спирмена
  • ·         Проверка значимости связи
  • ·         Интервальная оценка коэффициента корреляции Пирсона
  • ·         Частные коэффициенты корреляции

 

Тема 9. Моделирование связи с помощью дисперсионного анализа – 4 ак.ч.

  • ·         Модели дисперсионного анализа
  • ·         Предпосылки применения дисперсионного анализа
  • ·         Модель однофакторного дисперсионного анализа
  • ·         Таблица дисперсионного анализа
  • ·         Оценка степени влияния фактора
  • ·         Апостериорные критерии парных сравнений
  • ·         Дисперсионный анализ с двумя и более факторами
  • ·         Графическая интерпретация взаимодействия факторов
  • ·         Непараметрический дисперсионный анализ Крускала-Уоллиса
  • ·         Критерий Фридмана для зависимых выборок

Тема 10. Линейный и нелинейный регрессионный анализ – 4 ак.ч.

  • ·         Основные понятия регрессионного анализа
  • ·         Парная и множественная линейная модель регрессии
  • ·         Предпосылки линейного регрессионного анализа
  • ·         Проверка предпосылок регрессионного анализа
  • ·         Оценка коэффициентов регрессии МНК
  • ·         Проверка обоснованности модели регрессии
  • ·         Значимость уравнения регрессии
  • ·         Значимость коэффициентов регрессии
  • ·         Отбор переменных в регрессионном анализе
  • ·         Оценка точности уравнения регрессии: коэффициент детерминации
  • ·         Оценка статистической устойчивости уравнения регрессии
  • ·         Точечная и интервальная оценка зависимой переменной
  • ·         Категориальные независимые переменные в линейной модели регрессии
  • ·         Проблема мультиколлинеарности и способы ее устранения
  • ·         Нелинейные регрессионные модели
  • ·         Виды нелинейных регрессионных моделей
  • ·         Преобразование нелинейных моделей к линейным

 

Тема 11. Бинарный классификатор на основе логистической регрессии – 4 ак.ч.

·         Понятие модели бинарного выбора

·         Модель логистической регрессии

·         Достоинства и недостатки логистической регрессии

·         Алгоритм построения логистической регрессии

·         Оценка коэффициентов логистической регрессии методом максимального правдоподобия

·         Проверка обоснованности модели логистической регрессии

·         Логарифм правдоподобия и проверка значимости уравнения

·         Оценки коэффициента детерминации

·         Критерий Хосмера-Лемешева

·         Проверка значимости коэффициентов и их интервальные оценки

·         Интерпретация коэффициентов при количественных и категориальных предикторах

·         Методы отбора предикторов

·         Прогноз зависимой переменной

·         Таблица классификации

·         Чувствительность и специфичность модели

·         ROC-анализ

·         Показатели качества классификации: AUC, Джини

 

Тема 12. Методы многомерной кластеризации –4 ак.ч.

·         Обзор методов многомерной кластеризации

·         Понятие и области применения кластерного анализа

·         Задачи и методы кластерного анализа

·         Преимущества и недостатки кластерного анализа

·         Этапы кластерного анализа

·         Исходные данные в многомерном анализе

·         Меры различия между количественными данными

·         Меры различия и сходства между количественными данными

·         Меры различия и сходства между бинарными данными и их оценка

·         Меры различия между частотными данными и их оценка

·         Анализ качества классификации

·         Особенности иерархического кластерного анализа

·         Алгоритм иерархических методов кластерного анализа

·         Меры расстояния между кластерами

·         Графическое представление результатов иерархического кластерного анализа

·         Сущность и особенности метода k-средних

·         Алгоритм метода k-средних

·         Графическое представление результатов

 

 

Тема 13. Изучение структуры данных методом факторного анализа – 4 ак.ч.

·         Понятие факторного и компонентного анализа

·         Цель и задачи факторного анализа

·         Этапы реализации методов снижения размерности

·         Алгоритм компонентного анализа

·         Алгоритм факторного анализа

·         Предпосылки применения факторного и компонентного анализа

·         Сравнение факторного и компонентного анализов

·         Правила отбора факторов

·         Выбор метода факторного анализа

·         Проблема вращения факторов

·         Матрица нагрузок и ее интерпретация

·         Диаграмма «каменистой осыпи» и отбор факторов на ее основе

·         Получение значений факторов на объекте и работа с ними

 

Тема 14. Классификация и предсказание на основе деревьев решений – 4 ак.ч.

·         Цель метода деревьев решений

·         Терминология деревьев решений

·         Задачи построения деревьев решения

·         Преимущества и недостатки метода деревьев решений

·         Методы деревьев решений

·         Описание метода CHAID

·         Особенности метода исчерпывающий CHAID

·         Особенности метода CRT

·         Проблемы построения деревьев решений

·         Бэггинг

·         Градиентный бустинг

·         Метод случайного леса

 Подходит? Подать заявку на этот курс