Кто такой Data Engineer?
Инженер данных (инженер данных, компьютерный инженер) — это работник ИТ, основной задачей которого является подготовка данных для аналитического или оперативного использования. Эти инженеры-программисты обычно отвечают за создание конвейеров данных для объединения информации из различных исходных систем.
Что делают Data Engineer и чем занимаются?
Обязанности, например, на одной из вакантных должностей:
- Разработать логику построения витрин данных;
- Разрабатывайте интерактивные информационные панели и отчеты в различных BI-системах.
- Хорошее знание любого языка программирования;
- Знание SQL (Oracle, MySQL, PostgreSQL и др.);
- Работа с *nix-системами
- Знание Вертики.
Что должен знать и уметь Data Engineer?
Требования к компьютерной инженерии:
- Используйте инструменты анализа (языки Python и SQL, библиотеки pandas, airflow, spark и фреймворки)
- Данные обработки
- Тестовый код
- Взаимодействовать с клиентом
- Развертывание проекта Data Science
- Работа в команде
Востребованность и зарплаты Data Engineer
В настоящее время на странице поиска работы размещено 3454 вакансии, и спрос на Data Engineers растет с каждым месяцем.
Количество вакансий с указанной зарплатой Компьютерный инженер по всей России:
- от 140 000 руб. – 508
- от 255 000 руб. — 314
- от 370 000 руб. — 128
- от 490 000 руб. — 55
- от 605 000 руб. — 22
Вакансии с указанным уровнем дохода в Москве:
- от 150 000 руб. — 250
- от 270 000 руб. — 162
- от 390 000 руб. — 73
- от 510 000 руб. — 27
- от 630 000 руб. — 9
Вакансии с указанным уровнем дохода в Санкт-Петербурге:
- от 155 000 руб. — 88
- от 255 000 руб. — 67
- от 355 000 руб. — 34
- от 455 000 руб. — одиннадцать
- от 555 000 руб. — 6
Как стать Data Engineer и где учиться?
Варианты обучения Data Engineer с нуля:
- Самостоятельное обучение — всевозможные видео на YouTube, книги, форумы, туториалы и т д. Плюсы — дешево или очень доступно. Недостатки — нет последовательности, самообучение может быть малоэффективным, приобретенные навыки могут не потребоваться работодателю;
- Онлайн обучение. Вы можете пройти курс на одной из образовательных платформ. Такие курсы рассчитаны на людей без специальной подготовки, поэтому подойдут большинству людей. Обычно упор в онлайн-обучении делается на практику — это позволяет быстро пополнить портфолио и устроиться на работу сразу после обучения.
Ниже представлен обзор 10+ лучших онлайн-курсов.
10+ лучших курсов для обучения Data Engineer: подробный обзор
1 место. Курс «Профессия Data Engineer» — Skillbox
https://skillbox.ru/course/data-engineer/
Стоимость: Рассрочка на 31 месяц — 4 879 ₽/мес
- Продолжительность 18 месяцев
- Проекты на основе реальных задач
- Работай пока учишься
- Молодежный уровень после одного года обучения.
Инженер данных собирает информацию, строит инфраструктуру для ее хранения и подготавливает данные для использования другими специалистами.
Задача специалиста — проанализировать сырые данные, выбрать полезные, создать экспериментальные модели и передать их специалисту по данным для дальнейшего изучения.
Для кого этот курс:
- Для начинающих
Изучайте Python и SQL с нуля. Научитесь собирать, анализировать и обрабатывать данные. Решайте задачи на основе реальных кейсов и добавляйте их в свое портфолио. Вы сможете начать карьеру в области компьютерной инженерии во время учебы. - Программисты
Совершенствуйте математику и статистику, развивайте аналитическое и алгоритмическое мышление. Получите опыт работы с моделями машинного обучения. Вы пройдете весь процесс от сбора данных до реализации модели. - Начинающие аналитики
Научитесь выдвигать гипотезы и делать выводы на основе данных. Вы сможете программировать на Python и превращать необработанные данные в полезную информацию для компании. Вы сможете работать быстрее и претендовать на средний уровень.
Чему вы хотите научиться:
- Используйте инструменты анализа
Овладейте языками Python и SQL. Вы сможете работать с библиотеками pandas, airflow, spark и фреймворками. - Данные обработки
Научитесь подключаться к источникам информации и загружать их в систему. Вы можете очищать, хранить и интегрировать данные. - Тестовый код
Научитесь проводить регрессионное тестирование. Вы сможете тестировать пакеты, конвейеры и обрабатывать ошибки. - Взаимодействовать с клиентом
Понимать, как готовить отчеты и координировать инфраструктуру данных. Вы можете предоставить правильные данные клиенту. - Развертывание проекта Data Science
Вы поймете, как реализовать загрузку данных и сбор информации из разных источников. Вы сможете построить готовый пайплайн проекта. - Работа в команде
Познакомьтесь с git и облачными сервисами для совместной работы. Вы сможете эффективно взаимодействовать со всеми участниками процесса.
Программа
Вас ждут онлайн-лекции и практические задания на реальных кейсах.
34 модуля
Базовый уровень
- Введение в информатику
- Познакомьтесь с основными направлениями науки о данных. Узнайте, какие задачи решают аналитики данных, инженеры данных и специалисты по машинному обучению.
- Вы пройдете все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Вы будете загружать данные из различных источников, проводить исследовательский анализ и подготавливать набор данных для дальнейшего использования. Обучите и внедрите готовую модель машинного обучения, попробуйте свои силы в качестве продуктового и рыночного аналитика. Научитесь формулировать и проверять гипотезы. Освойте основные инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
- Основы математики для информатики
Получите базовые математические навыки для работы с машинным обучением. Вы поймете, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и векторы. Узнайте, как работать с математическими объектами в библиотеке SymPy Python. - Основы статистики и теории вероятностей
Понимать принципы работы со случайными величинами и событиями. Познакомьтесь с некоторыми типами распределений и статистических тестов, которые полезны при построении моделей и проверке гипотез.
Младший инженер-компьютерщик
- Начальный блок
Узнайте, чем занимается компьютерный инженер, какую роль он играет в проекте по информатике и какие у него карьерные пути. Вы поймете, как устроен курс и какие предметы будете изучать. - SQL
- Узнайте, как манипулировать данными в существующих таблицах, вставлять, удалять и обновлять данные. Вы можете сохранять данные из базы данных в различных форматах.
- Ознакомьтесь с оконными функциями и основами подготовки витрин данных с помощью SQL. Научитесь обеспечивать корректный ввод информации в режиме транзакций. Вы сможете читать и понимать журнал транзакций.
- Узнайте, что такое индексы и архитектура индексов, где они используются. Изучите методы увеличения скорости поиска.
- 2 лвл
Рассмотрите типы данных, способы их преобразования и совместную работу Python и SQL — получение данных из базы данных, работу с данными и выполнение запросов. Изучите основные концепции схем данных JSON и XML. Вы можете настроить отладку приложений, написать тесты, анонимизировать и зашифровать данные. - Библиотеки для Python
Узнайте о картографических библиотеках, контролируемом обучении, визуализации расчетов и источниках наборов данных. Узнайте, как использовать Python и библиотеки для работы с данными. Вы можете продолжить изучение панд. - Расход воздуха
Ознакомьтесь с ключевыми понятиями и рекомендациями по работе с Airflow. Изучите архитектуру и основы взаимодействия от пользовательского интерфейса до командной строки. Создайте свой первый конвейер данных. - Базовая искра
- Master Spark: узнайте, на каких вычислительных ресурсах он работает, как хранит данные и работает с памятью и диском. Установите свой первый местный стенд.
- Изучите основы RDD: основные понятия, работа с источниками, действия. Научитесь работать с Dataframe API. Изучите проблемы производительности и оптимизации с использованием Dataframe, источников и типов данных, работы с допустимыми/недействительными данными, обработки ошибок, UDF, взаимодействия с Python и SQL.
- Основы алгоритмов машинного обучения
Вы проанализируете основные типы моделей машинного обучения, ключевые термины и определения. Изучите алгоритмы регрессии и алгоритмы кластеризации. - Размещение
- Изучите основные шаги по подготовке модели к развертыванию, подходы к созданию API и способы обработки ошибок и отладки приложений. Вы сможете устранять проблемы с развертыванием и осваивать основные инструменты swagger.
- Познакомьтесь с ключевыми процессами bash: написание скриптов, работа с переменными и текстовыми редакторами sed и awk.
Компьютерный инженер продвинутого уровня
- Продвинутый уровень
Узнайте, как использовать стандартные инструменты мониторинга, настроить оповещения. Вы выберете архитектуру для хранения данных и будете работать со сложными типами архитектур хранения. Создавайте инфраструктуру и пайплайны для обучения моделей машинного обучения.
Бонусный курс
- Карьера разработчика: трудоустройство и развитие
Вы узнаете, как выбрать подходящую работу, подготовиться к собеседованию и договориться с работодателем. Вы можете быстро получить должность, которая соответствует вашим ожиданиям и навыкам. - Система контроля версий Git
Узнайте, как изменять код версии, создавать репозитории, ветки и управлять ими, а также разрешать конфликты версий. Изучите полезные правила работы с Git. - Английский для IT-специалистов
Получите языковые навыки, которые помогут пройти собеседование в иностранной компании и комфортно общаться в смешанных командах.
Дипломная работа
- Дашборды на основе исходных данных
Вы будете объединять и обрабатывать данные из разных источников: история транзакций от партнеров, текстовые логи, загрузка ссылок на API и другие. Создайте интерактивный отчет на основе этих данных.
2 место. Курс «Дата-инженер с нуля до middle» — Нетология
https://netology.ru/programs/data-engineer
Стоимость: 120 000 ₽ или рассрочка на 24 месяца — 5 000 ₽/мес
Курс поможет вам:
- Получить высокооплачиваемую профессию на низкоконкурентном рынке
- Осваивайте ключевые технологии и опережайте потребности рынка
- Проживите 2-3 года опыта самостоятельного изучения компьютерной техники.
Кому будет полезен этот курс:
- Системные и сетевые администраторы
Вы сможете масштабировать инфраструктуру, выбирать между множеством различных специфических инструментов, внедрять решения коллегам в производство - Backend и Fullstack разработчики
Вы можете расти в деньгах и получать интересные задания. Станьте незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики - Новички, которые хотят заняться информатикой
Вы сможете присоединиться к новой области и получить базу, на которой вы сможете постоянно развиваться — во всех компаниях и продуктах.
Чему вы хотите научиться:
- Объясните архитектуру и структуру базы данных
Проектируйте схемы хранения и выбирайте СХД по задаче и бюджету бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift - Создание процессов обработки данных
Настройка и настройка процессов ETL/ELT в нескольких инструментах данных - Работа с большими инструментами обработки данных
Лямбда-архитектура, каппа-архитектура, а также hdfs, yarn, hive и другие необходимые части инфраструктуры - Обрабатывайте события в режиме реального времени
Создайте собственный конвейер обработки данных, сборщик событий, систему RTDM с выходом на массовые корпоративные решения бизнес-аналитики - Развить навыки компьютерной грамотности
Может понимать, объяснять и обогащать данные из отчетов, информационных панелей и других источников информации - Создайте рабочий конвейер в облаке
И включает в себя модели машинного обучения, нейронные сети, службы оркестрации контейнеров и контроль версий.
Программа курса:
- SQL и поиск данных
- Основы базы данных
- Работа с базами данных
- Основы SQL
- Расширенный SQL
- Разработка в SQL
- Работает с PostgreSQL
- Работа с МонгоДБ
- Хранилище данных
Давайте научимся работать с классическим хранилищем данных. - Решения для бизнес-аналитики и многомерная модель данных
- BI как основа анализа
- Многомерные модели
- Отчетность в режиме реального времени
- Современные подходы.
- Питон
- Основы Python
- Введение в анализ данных в Python
- Статистика в Питоне
- Предварительная обработка данных
- Выбор функции.
- Озеро данных и Hadoop
Познакомимся с основным инструментом обработки больших данных. - Передовые вычислительные методы
- Апач Спарк
- Работает со Спарком
- Искра SQL
- Продвинутый удар
- Расход воздуха
- Работа с воздушным потоком
- Расширенный воздушный поток
- Dbt как инструмент ETL.
- Работает с потоковыми данными
Узнайте, как работать с потоковыми данными. - Работа с данными в облаке
- Облачная платформа Google — хранение данных
- Искра в GCP
- Управляемый ETL в GCP
- Обрабатывает данные в режиме реального времени в GCP
- Поиск информации в данных с помощью машинного обучения
- Другие облачные провайдеры.
- Введение в DS&ML
- Введение в машинное обучение
- Проблема классификации
- Кластерная проблема
- Ансамблевые методы решения задачи классификации
- Функциональная инженерия
- Нейронные сети.
- Млн операций в секунду
- Зачем вам нужен DevOps
- Докер и микросервисная архитектура
- К8С
- Оркестрировать
- CI/CD
- Наблюдение
- Инструменты DevOps для обучения моделей машинного обучения
- Развертывание моделей машинного обучения.
- Дипломная работа
Разработка и документирование процессов ETL для заливки данных в хранилище.
3 место.Курс «Data Engineering» — SkillFactory
https://skillfactory.ru/data-engineer
Стоимость: 32 400 ₽ или договор рассрочки на 12 месяцев
Курс ориентирован на практику и базовые инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Программа курса:
- Введение, практический линукс
Кто такой компьютерный инженер и зачем ему линукс? - Современное хранилище данных
Разнообразие баз данных и их функции - Экосистема Hadoop
Что такое Hadoop, что он может делать и как его использовать - Источники данных и работа с ними
Файлы как источники данных, JDBC — структурированные данные, SQL для загрузки данных - Apache Spark и вычисления
Зачем нужен Apache Spark и как с ним работать - Hadoop как хранилище данных
Особенности и нюансы hdfs - Apache Airflow для оркестровки конвейеров
Настройка конвейеров данных - Обзор облачного хранилища
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure.
Курс не заканчивается:
- Портфолио
Готовый код и пайплайны для портфолио - Карьера и развитие бизнеса
Помощь в трудоустройстве и стажировках
Тусовка специалистов и полезных знакомств. - Сертификат школы SkillFactory.
Курс «Data Engineer» — OTUS
https://otus.ru/lessons/data-engineer/
Цена: 92 000 ₽
Что вам даст этот курс:
- Понимать наиболее важные способы интеграции, обработки и хранения больших данных
- Возможность работы с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями
- Практические навыки разработки сервисов данных, витрин и приложений
- Знание принципов организации мониторинга, оркестровки, тестирования
Курс ориентирован на разработчиков, администраторов СУБД и всех, кто хочет повысить свой профессиональный уровень, освоить новые инструменты и включиться в интересные задачи по работе с данными.
Изучив компьютерную инженерию, вы станете востребованным специалистом, который:
- развертывает, настраивает и оптимизирует вычислительные инструменты
- адаптирует наборы данных для дальнейшей работы и анализа
- создает сервисы, использующие результаты обработки больших объемов данных
- отвечает за архитектуру данных в компании
Программа обучения:
Модуль 1. Архитектура компьютера
- Тема 1. Вычислительная техника. Задачи, навыки, инструменты, спрос на рынке
- Тема 2. Архитектура аналитических приложений: основные компоненты и принципы
- Тема 3. Локальные/облачные решения
- Тема 4. Автоматизация пайплайнов и оркестровка — 1
- Тема 5. Автоматизация пайплайнов и оркестровка — 2
Модуль 2. Озеро данных
- Тема 6. Распределенные файловые системы. HDFS/S3
- Тема SQL-доступ к Hadoop. Apache Hive/Престо
- Тема Форматы хранения данных и их функции
- Тема 9. Анализ ДЗЗ за 1 случай
- Тема 10. Очереди сообщений. Обзор Кафки.
- Тема 11. Выгрузка данных из внешних систем
- Тема 12. Apache Spark — 1
- Тема 13. Apache Spark — 2
Модуль 3
- Тема 14. Аналитическая СУБД. Базы данных MPP
- Тема 15. Моделирование СХД — 1. Основы работы с БДТ
- Тема 16. Моделирование СХД — 2. Data Vault 2.0
- Тема 17. Практики DevOps в аналитических приложениях. CI+CD
- Тема 18
- Тема 19. Качество данных. Управление качеством данных
- Тема 20. Внедрение BI-решения
- Тема 21. Мониторинг/Метаданные
Модуль 4
- Тема 22. Хранилища NoSQL. Широкий столбец и ключевое значение
- Тема NoSQL Storage, ориентированная на документы
- Лось тема
- Тема 25
- Тема 26
Модуль 5
- Тема 27
- Тема 28. Архитектура Docker и REST
- Тема 29. MLFlow + DVC
- Тема 30. Развертывание моделей
- Тема 31
- Тема 32
Модуль 6. Дипломный проект
- Тема 33. Выбор темы и организация проектной работы
- Тема 34. Консультация
- Тема 35. Защита.
Дипломный проект: выполнение дипломной работы по интересующей теме с использованием комплекса знаний, полученных в ходе курса.
После обучения вы
Приносить:
- основные и дополнительные материалы, видеозаписи занятий;
- образцы кода;
- собственный проект, который можно отображать при трудоустройстве;
- сертификат о пройденном обучении.
В результате обучения:
- вы будете иметь представление об основных классах задач вычислительной техники, средствах, разработанных для их решения, а также их преимуществах и функциях;
- научиться создавать конвейеры пакетных и потоковых вычислений;
- уметь проектировать хранилища данных и организовывать оптимальный доступ для потребителей;
Курс «Data Engineering» — GeekBrains
https://gb.ru/geek_university/data-engineer
Стоимость: Договор рассрочки на 36 месяцев – от 4 828 ₽/мес
Вы научитесь собирать и обрабатывать данные, проектировать склады и работать с инфраструктурой. Повысьте свои навыки и уровень дохода с GeekBrains.
После курса вы сможете работать по следующим специальностям:
- Компьютерный инженер
- Инженер центра обработки данных
- Аналитик СХД
- Инженер по конвейеру данных машинного обучения (инженер машинного обучения)
- А также владеет экспертизой DevOps.
Для кого курс:
- Всем, кто интересуется работой с данными.
Вы узнаете, как обрабатывать различные источники и форматы данных, освоите обработку больших матриц данных (BigData) в распределенных системах и получите максимальную выгоду от данных. - Начинающие аналитики и разработчики.
У вас будет все для ускоренного карьерного роста: обширные знания и опыт работы с передовыми инструментами, методиками и стандартами. Обновите свои навыки, чтобы перейти на следующий уровень. - Практикующие ИТ-специалисты.
Мы рассмотрим знакомые темы с новых сторон, приумножим имеющиеся знания и подскажем, как двигаться в популярном направлении и зарабатывать больше.
Программа курса:
Подготовительный блок
Рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.
- Базовый курс
I кв. Сбор и хранение данных
Вы погрузитесь в профессию компьютерного инженера: познакомитесь с концепцией базы данных, научитесь использовать SQL, создавать запросы и программировать на Python. Вы также узнаете об открытых данных, сервисах RESTful и SOAP, форматах XML и JSON.
- Основы реляционных баз данных. MySQL
- Основы Python
- Методы сбора и обработки данных из Интернета
- Проект: Разработка собственного парсера
II квартал. Создание хранилищ данных для систем анализа
Познакомьтесь с реляционными и нереляционными базами данных, узнайте, как создавать хранилища данных и выбирать архитектуры для конкретной задачи.
- Создание хранилища данных и основы для процессов ETL
- OLAP + BI-технологии
- Введение в базы данных NoSQL. Тарантул
- Проект: Система хранения BI
III квартал. Распределенные базы данных
В этом квартале вы познакомитесь с инструментами для обработки больших матриц данных, прежде всего с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности платформы Apache Spark для распределенной обработки неструктурированных и частично структурированных данных. В конце квартала вы познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов больших данных.
- Большие данные. Экосистема Hadoop
- Большие данные. Фреймворк Apache Spark
- Настройка потока данных apache airflow
- Проект: полный конвейер ETL с использованием инструментов для работы с большими данными.
IV квартал. Вычисления в реальном времени и инфраструктура
В последнем квартале вы освоите потоковую обработку данных с помощью инструментов Kafka и Spark Streaming. Также изучите методы DevOps, необходимые для работы инженером данных.
- Потоковые вычисления
- Микросервисная архитектура и контейнеризация
- Проект: Стриминговый сервис для оценки кредитоспособности клиентов банка с помощью машинного обучения
Курсы вне квартала
Предметы с индивидуальным выбором даты начала
Курсы вне четверти являются частью основной учебной программы и должны быть завершены. Вы можете сами составить часть расписания и настроить интенсивность тренировок. У вас есть 2,5 года с момента покупки обучения в GeekUniversity, чтобы пройти эти предметы. Сдают параллельно с четвертью или после года обучения.
- Подготовка данных для приложений ML
- Рабочая станция.
Вы получите электронный аттестат и свидетельство о профессиональной переподготовке, которые можно прикрепить к портфолио и показать работодателю.
Курс «Data Engineer» — NIX LTD
https://www.nixsolutions.com/ru/study-center/courses/obuchenie-data-engineer/
Стоимость: бесплатно
Этот курс для вас, у кого есть базовые знания о базах данных, желание изучить теорию и применить ее на практике, а также желание перейти от слов к делу. Приобретенные навыки станут весомым аргументом для вашего дебюта в качестве Junior Data Engineer в NIX.
- узнать все, что может и умеет младший инженер данных.
- отметьте успешное окончание курса и утвердите себя в гордом звании Junior Data Engineer, а также станьте членом великой команды NIX.
Курс «Data Engineer» — НОЧУ ДПО «НЬЮПРОЛАБ»
https://newprolab.com/ru/dataengineer
Цена: 80 000 ₽
Что входит в программу:
- 6 лабораторий
Почти каждую неделю вам предстоит решать лабораторные задания и супер достижения. Лаборатории объединены в 2 проекта: лямбда-архитектура и каппа-архитектура. Также будет настоящий проект с призовым фондом для продвинутых участников. - 10+ инструментов
С некоторыми инструментами можно работать углубленно: Kafka, HDFS, ClickHouse, Spark, Airflow. С некоторыми можно легко познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др. - 21 урок
С прямыми трансляциями и видеозаписями в личном кабинете. Занятия построены таким образом, что преподаватель рассказывает об устройстве того или иного инструмента, демонстрирует разные кейсы работы, показывает подводные камни и лучшие практики.
Для кого эта программа?
- Дата инженеры
У вас есть опыт работы с некоторыми инструментами и вы хотите получить опыт работы с другими? Вы можете сделать это, решая наши лабораторные работы и упражнения, задавая вопросы нашим практикующим преподавателям. - Администраторы баз данных
Вы умеете работать с классическими реляционными базами данных и хотите получить опыт работы с другими инструментами хранения данных? В программе можно работать с HDFS, ClickHouse, Kafka, ElasticSearch. - Лидеры
Вы разрабатываете продукт или подразделение? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть преимущества и недостатки.
Чему вы хотите научиться:
Наша программа состоит из трех компонентов
- Монтаж
Узнайте, как самостоятельно установить все инструменты, используемые в программе, с помощью наших подробных руководств. - Параметр
Узнайте, как соединить инструменты вместе, сформировать конвейеры, получить базовое решение. - Тюнинг
Узнайте, как повысить производительность и отказоустойчивость как отдельных инструментов, так и целых конвейеров.
Проект 1. Лямбда-архитектура
- Развертывание облачного кластера и подключение Kafka
Перед запуском проекта необходимо реализовать подготовительный этап — развертывание собственного кластера в облаке. Затем организуйте сбор данных о посещении пользователями различных страниц сайта и их покупках. - Пакетный слой
В этой лабораторной работе вы организуете пакетный уровень в лямбда-архитектуре. Хочешь получать данные от Kafka, ставь на HDFS. Используя Airflow, вы будете регулярно передавать предварительно обработанные данные в ClickHouse. - Лежачий полицейский
Используя Spark Streaming, вам необходимо создать слой скорости, который обрабатывает данные в режиме реального времени, заполняя недостающую информацию в пакетном слое. - Сервисная команда
Первый проект заканчивается тем, что вы подключаете один из инструментов BI к обоим слоям — пакетному и скоростному — для выполнения аналитических запросов относительно среднего чека и других показателей.
Проект 2. Каппа-архитектура
- Лежачий полицейский
В рамках этого проекта вам необходимо построить модель машинного обучения с помощью Spark ML, а затем использовать ее для прогнозирования пола и возрастной категории пользователей, посещающих ваш сайт. - Сервисная команда
Второй проект заканчивается подключением к BI-инструменту, который по запросу сможет выдать нужные сегменты аудитории за всю историю существования без использования пакетного слоя.
Курс «Data Engineer» — KARPOV.COURSES
https://karpov.courses/dataengineer
Цена: 80 000 ₽
Для кого:
- Для аналитиков и специалистов по данным
понимание инженерии данных даст вам представление о том, что происходит за пределами очистки и анализа наборов данных, и позволит выйти на качественно новый уровень в анализе. - Для разработчиков
Программа поможет вам разобраться в проблемах построения хранилища данных и покажет, как использовать ваш опыт разработки для решения проблем в компьютерной инженерии.
Вы освоите:
- Дизайн СХД
В этом модуле мы познакомимся с логической архитектурой верхнего уровня СХД, разберем основные компоненты, которые будут рассмотрены далее в курсе, а также рассмотрим в теории и проанализируем на практике разные подходы к проектированию детализированного слоя. - Реляционные и MPP СУБД
В этом модуле мы познакомимся с реляционными и MPP базами данных, оценим, как они работают изнутри, и выясним, что лучше выбрать и если да. Изучим архитектуру различных решений на рынке. Давайте потренируемся в подготовке PostgreSQL и MPP на примере GreenPlum. - Большие данные
В этом модуле мы познакомимся с механизмами распределенного хранения и обработки данных на основе стека Hadoop. Разберем основные закономерности реализации распределенной обработки. Рассмотреть вопросы отказоустойчивости и восстановления после сбоев. Давайте рассмотрим потоковые вычисления и рассмотрим методы и инструменты мониторинга и профилирования заданий Spark. - ETL
В этом модуле мы познакомимся с Apache Airflow, узнаем, как его настраивать и создавать с его помощью пайплайны. - Облачное хранилище
В этом модуле мы познакомимся с облаками и инструментами для создания DWH и Data Lake, рассмотрим основы Kubernetes и получим практические навыки использования Kubernetes для работы с данными. - Визуализация
В этом модуле мы познакомимся с Tableau, одним из самых мощных инструментов BI. Рассмотрим основные принципы работы с данными с их точки зрения. - Большой МЛ
В этом блоке мы познакомимся с модулем Spark ML. Мы изучим подходы к обучению и использованию моделей машинного обучения на больших данных. - Управление моделями
В этом модуле мы рассмотрим инструменты, используемые для построения конвейеров машинного обучения, наборов данных версий и организации учета и отслеживания моделей машинного обучения. - Управление данными.
В этом блоке мы познакомимся с подходами, которые используют компании для управления данными. Мы проанализируем подходы к управлению данными, происхождению данных и контролю качества данных.
Курс «Data Engineer» — ProductStar
https://productstar.ru/analytics-dataengineer-info
Цена: 39 000 ₽
Чему вы хотите научиться:
- Запустить SQL
Научитесь писать запросы, работать с данными в БД без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов - Используйте Python и библиотеки анализа данных
Автоматизируйте работу с большими массивами, получайте данные из внешних источников, обосновывайте выводы, сделанные на основе данных - Оптимизировать компьютерные системы
Узнайте, как создать необходимые предпосылки для хранения и организации полезных данных в компании. Настройка и настройка процессов ETL/ELT в нескольких инструментах данных - Объясните архитектуру и структуру базы данных
Проектируйте схемы хранения и выбирайте СХД по задаче и бюджету бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift.
Программа курса (60 лекций и мастер-классов)
Блок 1: «Получить и подготовить данные: SQL»
- Основы SQL
- Обновление, добавление и удаление данных. Работа с таблицами
- Представления и хранимые процедуры. Особенности обработки транзакций
- Расширенные возможности SQL и основные ограничения
- Фильтрация данных и вычисляемые поля — практика (SELECT, SUM, AVG, GROUP BY, ..)
- Групповые данные, подзапросы и таблицы соединений — практика (INNER, LEFT, RIGHT, DISTINCT)
- Обновление, добавление и удаление данных. Работа с таблицами (INSERT, UPDATE, DELETE, MERGE, FOREIGN KEY)
- Работа с популярными программами (MySQL, SQL Server, Redash, Tableau)
Блок 2: «Python, математические модели и вычисления»
- Python: настройка среды, основные структуры данных и основные операторы
- Python: обработка файлов и форматированный вывод
- Python: пространства имен и области видимости, классы и объекты
- Python: инструменты функционального программирования
- Python: стандартные и сторонние библиотеки Python для анализа данных
- Основы линейной алгебры и теории множеств
- Методы математической оптимизации
- Основы описательной статистики
- Статистический анализ данных
Блок 3: «Хранилище данных»
- Дизайн хранилища данных
- Организация работы с традиционными хранилищами данных
- Процессы ETL/ELT: знакомство с Pentaho
- ЭТЛ про
- Заполнение данных и создание кубов OLAP
- Управление данными
- Изучение Snowflake, BigQuery: плюсы и минусы
- практика работы с Azure SQL DW
- практика с Redshift и загрузка данных
- СХД в облаке
Блок 4: Решения для бизнес-аналитики и аналитика больших данных
- Установите и настройте Power BI
- Подключение к данным: загрузка файлов рабочего стола, загрузка файлов из папок
- Очистка и преобразование данных: типы данных, фильтрация данных
- Знакомство с фреймворком Tableau. Загрузка данных. Первая панель инструментов
- Табло Профессионал.
- Подключение к базам данных SQL Tableau Server Basics
- Введение в Pentaho BI
- Многомерные модели. Аналитические услуги Pentaho
- Машинные методы обработки данных
- Культура сбора и источники данных
- Предварительная обработка и визуализация данных в pandas
- Повышение качества работы с данными
- Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
- Основы работы в Hadoop и MapReduce
- Работа с облачными платформами: AWS, EMR, Azure
- Расширенные подходы в MapReduce
- Организация команды по работе с данными. КРИСП ДМ
Раздел 5: Дипломная работа и помощь в работе
- Работа над дипломным проектом для портфолио
- Подготовка резюме
- Подготовка к интервью
- Заключительная защита и советы.
Новые выпускники получают свидетельство об успешном прохождении курса – что вместе с дипломным проектом будет хорошим аргументом для трудоустройства.
Курс «Data Engineering» — robot_dreams
https://robotdreams.cc/course/data-engineering
Стоимость: нет информации
Пройдите курс DE, и вы сможете:
- Храните и обрабатывайте огромные объемы данных.
- Освойте инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и
- Создайте собственную масштабируемую вычислительную платформу.
- Освоить профессию, актуальную в 5-10-15 лет.
- Улучшайте свои навыки и доход.
Кому будет полезен курс:
- Специалист по данным / Аналитик данных
Вы углубите свои знания в работе с данными, научитесь строить пайплайны, более эффективно создавать, обрабатывать и анализировать данные.
Со знанием курса вы можете претендовать на должность архитектора. - Разработчик программного обеспечения/SQL/ETL
Вы укрепите свои навыки работы с данными, научитесь самостоятельно строить системы хранения и обработки данных.
На курсе вы получите знания, необходимые для должности компьютерного инженера. - Компьютерный инженер (новичок)
Вы углубите свои знания в работе с данными, научитесь строить пайплайны, более эффективно создавать, обрабатывать и анализировать данные.
Со знанием курса вы можете претендовать на должность архитектора.
Программа курса
- Введение в компьютерную инженерию
Узнайте все, что вы когда-либо хотели знать о профессии компьютерного инженера: цели, направления, задачи, обязанности и функции в команде. Сравните инженера данных и инженера больших данных. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Понимать, какие задачи решает та или иная технология Big Data. - Python для вычислительной техники
Научитесь работать с разными структурами данных: строка, список, кортеж, набор, словарь. Начните загружать данные из внешних источников с помощью Python. Изучите детали работы с модулями Python: модули импорта и относительного импорта. - SQL для вычислительной техники
Узнайте, для чего SQL используется в больших данных. Научитесь объединять наборы данных с помощью SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группировка данных, оконные функции. Поймите, как писать быстродействующий SQL. - Аналитические базы данных
Узнайте о различиях между системами OLTP и OLAP. Понимать техническую реализацию системы управления базами данных, предназначенной для аналитики. Научитесь описывать структуру базы данных, используя модель ER для ее будущего построения (нотация гусиной лапки). - Дизайн хранилища данных
Узнайте, какова цель хранилища данных и какие подходы к проектированию существуют. Узнайте, как проектировать (создавать) хранилища данных. Овладейте навыками «представления данных в виде марса». Просмотрите примеры существующих хранилищ данных. - Передача данных между системами. Часть 1
Разработайте ETL-решение. Понять, как передавать данные между системами. Научитесь извлекать данные из внешних источников, преобразовывать и очищать. - Передача данных между системами. Часть 2
Узнайте, как создавать, запускать и отслеживать ETL с помощью Apache Airflow. Начните описывать процессы ETL с помощью направленного ациклического графа. Напишите заявление Airflow для доступа к API. Подключайтесь к внешним источникам данных с помощью Apache Airflow. - Распределенных вычислений. Лекция
Понимать концепцию распределенных систем и вычислений. Узнайте, какие проблемы они решают и какие готовые решения уже существуют. Определите отличия распределенных систем от обычных систем, проанализируйте их преимущества и недостатки. Поймите, что свойства распределенных систем и ограничения распределенных систем в теореме CAP означают для вашей работы. Узнайте, о чем следует помнить при построении распределенных систем и чем можно пожертвовать для решения конкретной проблемы. - Экосистема Hadoop для распределенной работы с файлами
Узнайте, как использовать экосистему Hadoop. Узнайте назначение каждой технологии в экосистеме Hadoop. Изучите альтернативы Hadoop. Начните использовать распределенную файловую систему Hadoop. - Распределенная файловая система (HDFS)
Узнайте, как работать с распределенной файловой системой Hadoop. Ознакомьтесь с кругом решаемых задач. Изучите внутреннюю архитектуру HDFS и то, как она реализована. Узнайте, как управлять файлами, загружать, загружать данные, управлять кластером с помощью HDFS. - Архитектуры больших данных
Освойте технологию MapReduce для параллельных вычислений с большими наборами данных в кластерах данных. Узнайте о проблемах, которые решает MapReduce. Научитесь анализировать большие объемы данных с помощью MapReduce - Распределенные вычисления в памяти (Apache Spark)
Начните обзор технологии Apache Spark, определите отличия от MapReduce. Узнайте, почему Apache Spark является флагманской технологией в мире больших данных. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных. - Работа со структурированными данными в SparkSQL. Часть 1
Начните работу с SparkSQL, одним из синтаксисов Apache Spark. Узнайте, как загружать данные в Spark. Узнайте, как Spark работает с внешними источниками данных. Преобразование структурированных данных с помощью SparkSQL. - Работа со структурированными данными в SparkSQL. Часть 2
Начните загружать данные из Spark. Узнайте, как выполнять анализ структурированных данных в Spark. - Оптимизация выполнения задач в Apache Spark
Узнайте, как писать эффективный код и ускорить обработку больших данных в Apache Spark. Узнайте, как определить основные проблемы с производительностью Spark и исправить их. Организуйте свои данные в кластере Apache Spark. - Потоки данных в Apache Spark
Поймите разницу между обработкой потоковых данных и статических данных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Рассмотрим пример программы для анализа потоковых данных. - Краткое содержание
Объедините все полученные знания. Создайте платформу данных. Создайте обзор всего цикла подготовки и реализации проекта. Начните готовить свой курсовой проект. - Защита курсового проекта
Получить тему курсового проекта. Ознакомьтесь со способом работы. Выполнить ряд обязательных требований для реализации проекта. Защитите его успешно.
Курс «Data Quality Engineering» — EPAM Systems
https://careers.epam.by/training/training-listings/training.3515
Стоимость: нет информации
Data Engineering — это работа с данными и большими данными: программирование сбора, хранения, обработки, поиска и визуализации.
Тренинг поможет вам:
- изучить современные технологии обработки и анализа данных;
- Научитесь использовать Python (включая пакеты Pandas, NumPy);
- Освоить SQL как универсальный «язык доступа к данным»;
- Получите опыт работы с хранилищами данных;
- Изучите основы Linux для использования облачных сервисов;
- Познакомиться с классической теорией тестирования программного обеспечения.
Для кого:
- Для студентов 4-6 курсов технических специальностей, недавних выпускников и молодых специалистов;
- Для тех, кто хочет учиться и развиваться в направлении Data Quality.
Курс «Data Engineering and Analytics» — DATALEARN
https://datalearn.ru/
Стоимость: бесплатно
Список курсов:
- Начало работы с компьютерной инженерией и анализом (DE-101)
~10 недель, с одним вебинаром в неделю и домашними заданиями, от простого к сложному, как и моя 10-недельная карьера. - Начало работы с машинным обучением и наукой о данных (ML-101)
Для прохождения курса требуется много мотивации и самоотверженности, и если вы освоите все модули курса ML-101, вы легко сможете справиться с базовым уровнем задач на позициях Data Science Intern, Junior Data Scientist, Applied Scientist - Курс по поиску работы для аналитических специальностей в России и за рубежом (JH — 101)
- Начало работы с SQL для начинающих
Практический видеокурс по работе с базами данных с использованием языка структурированных запросов (SQL).
Подходит для тех, кто слышал о SQL, но боялся попробовать - Женщины в компьютерном сообществе
Наша цель — создать максимально комфортную среду для девушек, заинтересованных в карьере компьютерщика. В дополнение к основным курсам сообщество представляет собой платформу, где вы можете общаться с девушками-компьютерщиками, узнавать о компьютерных профессиях и задавать любые интересующие вас вопросы.
Для кого эти курсы:
- Аналитики
Изучите инструменты и станьте более востребованными профессионалами - Маркетологи
Вы сможете структурировать данные, повысить эффективность рекламных каналов - Лидеры
Вы сможете анализировать продажи в разных разделах и в динамике - Подрядчики
Постройте систему анализа и найдите точки роста для вашей компании - Инженеры
Вы сможете сменить специализацию и зарабатывать больше, ваши технические знания облегчат обучение - Фрилансеры
Вы можете предлагать дополнительные услуги своим клиентам или работать в западных компаниях - Финансисты
Скачивайте, анализируйте данные, стройте отчеты.