Channel: DataEng
Apache Kafka For Python Developers
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Confluent
Introduction to Python for Kafka
In this lecture, you will learn why Python has become such a popular language for developing real time event streaming applications that take advantage of the Apache Kafka platform.
Если вы активно пользуетесь (или пользовались) Kinesis Data Firehose, то Amazon объявил, что теперь этот сервис поддерживает zero buffering. Что означает, что им можно пользоваться для загрузки данных почти в режиме real-time streaming (с незначительной задержкой до нескольких секунд на обработку).
Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.
А как вы строите доставку данных внутри AWS?
Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.
А как вы строите доставку данных внутри AWS?
Amazon
Amazon Kinesis Data Firehose now supports zero buffering
У Haki Benita вышла полезная статья про эффективное чтение Excel файлов в Python 😉 Как ни крути, а дата инженерам часто приходится копаться в csv/excel файлах, поэтому наверняка его заметка может вам пригодиться, если вы оперируете действительно огромными excel файлами.
FYI: Pandas оказался худшим решением.
FYI: Pandas оказался худшим решением.
Hakibenita
Fastest Way to Read Excel in Python
Reading 500K rows in less than 4 seconds
Обзор разных подходов для построения распределенного хранилища на базе PostgreSQL: https://www.crunchydata.com/blog/an-overview-of-distributed-postgresql-architectures
Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
Crunchy Data
An Overview of Distributed PostgreSQL... | Crunchy Data Blog
Marco just joined Crunchy Data and he reflects on his career in distributed systems in this post. He provides an overview of several options for approaching distributed Postgres workloads and the pros and cons of each approach.
Релиз Luigi 3.5.0
Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
GitHub
Release 3.5.0 · spotify/luigi
What's Changed
worker: Log which outputs are missing when task is unexpectedly incomplete by @progval in #3258
Update dropbox.py for compatibility with Dropbox SDK v11.X.X by @smrohrer in #325...
worker: Log which outputs are missing when task is unexpectedly incomplete by @progval in #3258
Update dropbox.py for compatibility with Dropbox SDK v11.X.X by @smrohrer in #325...
Data Engineering for Beginners
На ютуб-канале freeCodeCamp вышел курс Data Engineering Course for Beginners. Продолжительность курса 3 часа, в нём автор разбирает докер, базу данных PostgreSQL и работу с Airflow для написания несложного ETL-процесса. Для новичков в теме в самый раз! 🚀
На ютуб-канале freeCodeCamp вышел курс Data Engineering Course for Beginners. Продолжительность курса 3 часа, в нём автор разбирает докер, базу данных PostgreSQL и работу с Airflow для написания несложного ETL-процесса. Для новичков в теме в самый раз! 🚀
YouTube
Data Engineering Course for Beginners
Learn the essentials of data engineering in this course for beginners. You'll learn about Databases, Docker, and analytical engineering. You'll explore advanced topics like data pipeline building with Airflow, and engage in batch processing with Spark and…
Tim Berglund своего рода легенда в мире распределенных систем, популяризатор этой темы. Я познакомился с его творчеством через классный доклад про распределённые системы на Ютубе около 6 или 7 лет назад: Distributed Systems in One Lesson. Он какое-то время работал в компании Confluent (авторы Apache Kafka), где активно продвигал Кафку в массы. Сейчас же он работает в StarTree, cloud-решение на базе Apache Pinot. Его новый доклад как раз посвящен Apache Pinot, распределенному OLAP хранилищу.
Собственно сам доклад в рамках GOTO Conference: Introduction to Real-Time Analytics with Apache Pinot
И краткое и понятное видео что из себя представляет Apache Pinot от него же: What is Apache Pinot? (and User-Facing Analytics)
Собственно сам доклад в рамках GOTO Conference: Introduction to Real-Time Analytics with Apache Pinot
И краткое и понятное видео что из себя представляет Apache Pinot от него же: What is Apache Pinot? (and User-Facing Analytics)
📣One Day Offer для Data Engineer📣
10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer.
One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованная ИТ-компания в составе группы компаний «Спортмастер».
Мы находимся в поисках Middle Data Engineer, c хорошим знанием Python и SQL, с опытом работы от 2-х лет. Для нас важно наличие опыта использования экосистемы Hadoop
(HDFS, Hive, Spark) и Apache AirFlow.
📍Немного про задачи:
- Реализация ETL в Hadoop (с помощью Airflow).
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы.
- Батч и стримы с помощью PySpark и Kafka.
- Подготовка витрин для анализа (Hive + Spark + SQL).
🔹 Наш стек: Python, Pyspark, Hive/hdfs, Airflow, ClickHouse, Kafka, Tableau.
🔥Успейте отправить форму до 6 февраля!
Мы свяжемся с вами в течение трех дней и проведем предварительный этап.
10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer.
One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованная ИТ-компания в составе группы компаний «Спортмастер».
Мы находимся в поисках Middle Data Engineer, c хорошим знанием Python и SQL, с опытом работы от 2-х лет. Для нас важно наличие опыта использования экосистемы Hadoop
(HDFS, Hive, Spark) и Apache AirFlow.
📍Немного про задачи:
- Реализация ETL в Hadoop (с помощью Airflow).
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы.
- Батч и стримы с помощью PySpark и Kafka.
- Подготовка витрин для анализа (Hive + Spark + SQL).
🔹 Наш стек: Python, Pyspark, Hive/hdfs, Airflow, ClickHouse, Kafka, Tableau.
🔥Успейте отправить форму до 6 февраля!
Мы свяжемся с вами в течение трех дней и проведем предварительный этап.
Airflow Evolution at Snap
На платформе Medium появилась статья про эволюцию Apache Airflow в компании Snap: Airflow Evolution at Snap
Преимущественно в статье речь идёт о работе с RBAC и масштабированием Airflow.
Также помимо статьи, вы можете посмотреть на Ютубе доклад с прошедшего в 2023 году Airflow Summit: Airflow at Snap: Managing permissions, migrations and internal tools
На платформе Medium появилась статья про эволюцию Apache Airflow в компании Snap: Airflow Evolution at Snap
Преимущественно в статье речь идёт о работе с RBAC и масштабированием Airflow.
Также помимо статьи, вы можете посмотреть на Ютубе доклад с прошедшего в 2023 году Airflow Summit: Airflow at Snap: Managing permissions, migrations and internal tools
Medium
Airflow Evolution at Snap
Yuri Desyatnik, Zhengyi Liu, Han Gan, Nanxi Chen, Jun Gao
Экскурс в устройство современных OLAP баз данных в рамках ежегодного курса от Carnegie Mellon University — Advanced Database Systems: Modern OLAP Database Systems
YouTube
S2024 #01 - Modern OLAP Database Systems (CMU Advanced Database Systems)
Andy Pavlo (https://www.cs.cmu.edu/~pavlo/)
Slides: https://15721.courses.cs.cmu.edu/spring2024/slides/01-modernolap.pdf
Notes: https://15721.courses.cs.cmu.edu/spring2024/notes/01-modernolap.pdf
15-721 Advanced Database Systems (Spring 2024)
Carnegie Mellon…
Slides: https://15721.courses.cs.cmu.edu/spring2024/slides/01-modernolap.pdf
Notes: https://15721.courses.cs.cmu.edu/spring2024/notes/01-modernolap.pdf
15-721 Advanced Database Systems (Spring 2024)
Carnegie Mellon…
Гайд о том как развернуть Apache Airflow локально через Kubernetes: https://blog.det.life/setting-up-apache-airflow-on-kubernetes-for-local-development-f873115fbe93
Medium
Setting Up Apache Airflow on Kubernetes for Local Development
In the ever-evolving realm of software development, transformative technologies come in wave after wave, shaping the way we conceive and…
Привет! В рамках возобновления работы над своим старым проектом по агрегации вакансий с удалённым форматом работы, я запустил отдельный телеграм-канал, где в автоматическом режиме публикуются вакансии из категории Data Engineering и DataOps: https://hottg.com/dataeng_jobs
Попадают они туда в процессе сбора и анализа вакансий с различных профильных сайтов типа Хабр Карьера, VC, DevBy и т.д. Классифицируются они через API сервиса OpenAI, проще говоря GPT4.
Если вы в поиске работы, то моя инициатива вероятно поможет вам найти нужный оффер быстрее 🚀
Подписывайтесь
Попадают они туда в процессе сбора и анализа вакансий с различных профильных сайтов типа Хабр Карьера, VC, DevBy и т.д. Классифицируются они через API сервиса OpenAI, проще говоря GPT4.
Если вы в поиске работы, то моя инициатива вероятно поможет вам найти нужный оффер быстрее 🚀
Подписывайтесь
Telegram
Data Engineering & DataOps Jobs
data engineering & dataops jobs
Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?
Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
DuckDB
An in-process SQL OLAP database management system
DuckDB is an in-process SQL OLAP database management system. Simple, feature-rich, fast & open source.
В очередной раз наткнулся в сети на статью про эксплуатацию Apache Airflow в среде Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. У автора развёрнут Airflow с 300 дагами и около 5 000 задачами. Преимущественно они запускают лёгкие таски по типу dbt-трансформаций, поэтому при использовании
В нашей команде Airflow также является ключевым инструментом для выполнения регулярных и критических задач. Прямо сейчас в нём 5614 дагов, работает это всё на Amazon MWAA (Managed Airflow от AWS). Накидайте 👍🏻, если вам интересно почитать о моём опыте эксплуатации Airflow.
KubernetesExecutor
столкнулись с тем, что инициализация Pod занимает больше времени чем выполнение самой задачи. Выбор в итоге пал на CeleryExecutor. В целом статья не столько про нюансы работы Airflow внутри Kubernetes-кластера сколько про опыт эксплуатации инструмента в их конкретном случае. Полезно.В нашей команде Airflow также является ключевым инструментом для выполнения регулярных и критических задач. Прямо сейчас в нём 5614 дагов, работает это всё на Amazon MWAA (Managed Airflow от AWS). Накидайте 👍🏻, если вам интересно почитать о моём опыте эксплуатации Airflow.
Medium
What we learned after running Airflow on Kubernetes for 2 years
Apache Airflow is one of the most important components in our Data Platform, used by different teams inside the business. It powers all of…
Всем привет!
Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайны
Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 году я писал небольшой обзорный пост на Luigi у себя в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайны
Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 году я писал небольшой обзорный пост на Luigi у себя в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Startdatajourney
Введение в Data Engineering: дата-пайплайны
Построение масштабируемых дата-пайплайнов на Python и Luigi
Курс про Apache Airflow бесплатно
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Startdatajourney
Apache Airflow 2.2: практический курс
Практический курс по основам Apache Airflow версии 2.2 и выше
Ребята, всем привет! 🤝
Вас стало ещё больше и поэтому я хотел напомнить о существовании моего другого телеграм-канала с вакансиями в области DataEng, DataOps и DBA: https://hottg.com/dataeng_jobs
В этот канал автоматически попадают вакансии по вышеупомянутым категориям, классификация происходит через OpenAI API.
Подписывайтесь, скоро источников с вакансиями станет ещё больше, и возможно именно вы найдёте лучшее для себя предложение — @dataeng_jobs
Вас стало ещё больше и поэтому я хотел напомнить о существовании моего другого телеграм-канала с вакансиями в области DataEng, DataOps и DBA: https://hottg.com/dataeng_jobs
В этот канал автоматически попадают вакансии по вышеупомянутым категориям, классификация происходит через OpenAI API.
Подписывайтесь, скоро источников с вакансиями станет ещё больше, и возможно именно вы найдёте лучшее для себя предложение — @dataeng_jobs
Telegram
Data Engineering & DataOps Jobs
data engineering & dataops jobs
Убийца DuckDB 🔫
А вы уже видели аналог DuckDB от ребят из ClickHouse? Называется это чудо chDB. Представляет из себя встроенную OLAP базу данных под капотом которой пыхтит движок ClickHouse. Умеет в Parquet, Arrow, ORC и кучу других форматов, есть биндинги для Python, Go, Rust, NodeJS, Bun. Работает на Linux и MacOS, жаль Windows не поддерживает.
Узнал я о существовании этой БД из новости о том, что chDB присоединяется к ClickHouse: https://auxten.com/chdb-is-joining-clickhouse/
А вы уже видели аналог DuckDB от ребят из ClickHouse? Называется это чудо chDB. Представляет из себя встроенную OLAP базу данных под капотом которой пыхтит движок ClickHouse. Умеет в Parquet, Arrow, ORC и кучу других форматов, есть биндинги для Python, Go, Rust, NodeJS, Bun. Работает на Linux и MacOS, жаль Windows не поддерживает.
Узнал я о существовании этой БД из новости о том, что chDB присоединяется к ClickHouse: https://auxten.com/chdb-is-joining-clickhouse/
a Database guy
chDB is joining ClickHouse
The Start During the Lunar New Year in February last year, in order to solve the efficiency problem of the machine learning model sample data I was facing at the time, I created chDB. Of course, compared to everything that the creators of ClickHouse have…
У ребят из PostgresPro есть отличные, а главное бесплатные, книги по PostgreSQL: https://postgrespro.ru/education/books
postgrespro.ru
Книги
Postgres Professional - российская компания, разработчик систем управления базами данных
Airflow 2.9
Буквально час назад вышла новая версия Apache Airflow — 2.9. В релизе очень много изменений и фиксов, а также новых фич:
— поддержка Python 3.12
— Listener API стабилизировался и его можно использовать в продакшене
— Поддержка multiple executors (AIP-61 Hybrid Execution)
— DatasetOrTimeSchedule, срабатывание по Timetable расписанию и Dataset событиям
— @task.bash декоратор. Возвращаемое значение обёрнутой в этот декоратор функции будет выполнено в виде bash-команды
Полный список изменений смотрите по ссылке.
Буквально час назад вышла новая версия Apache Airflow — 2.9. В релизе очень много изменений и фиксов, а также новых фич:
— поддержка Python 3.12
— Listener API стабилизировался и его можно использовать в продакшене
— Поддержка multiple executors (AIP-61 Hybrid Execution)
— DatasetOrTimeSchedule, срабатывание по Timetable расписанию и Dataset событиям
— @task.bash декоратор. Возвращаемое значение обёрнутой в этот декоратор функции будет выполнено в виде bash-команды
Полный список изменений смотрите по ссылке.
GitHub
Release Apache Airflow 2.9.0 · apache/airflow
Significant Changes
Following Listener API methods are considered stable and can be used for production system (were experimental feature in older Airflow versions) (#36376):
Lifecycle events:
on_...
Following Listener API methods are considered stable and can be used for production system (were experimental feature in older Airflow versions) (#36376):
Lifecycle events:
on_...
HTML Embed Code: