Инжиниринг Данных

Я часто пишу про инсайты в мире аналитики и технологий связанных с данными.

Но сегодня хотел поделиться другим инсайтом, который не может не радовать - кол-во русскоязычных постов в LinkedIn и аудитории растет. Если раньше все пытались подстроиться по платформу и писать на английском, то теперь все хотят быть сами собой и писать так как им нравится. В общем мега круто, всегда интересно читать посты на русском - diversity и inclusion, как говорится🇷🇺

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡6241❤‍🔥16🌚6💯3🐳1🍾1🎄1

7.15K viewsDmitry, edited 05:46

Инжиниринг Данных

В статье SSDs Have Become Ridiculously Fast, Except in the Cloud затронули интересную тему.

SSD диски сейчас стали лучше и быстрей. Но оказывается, что облачные провайдеры AWS, Azure, GCP не спешат заменять свой парк, и их диски до сих пор на уровне 2017 года.

Получается, аналитика (и не только) on-premise может быть быстрей и дешевле.

Другой вопрос, что делать если вы купили on-premise железо в 2017 и ранее, не выкидывать же его

⚡4🤷4🎄1

7.35K viewsDmitry, 01:49

Инжиниринг Данных

DuckDB посчитал быстрей кол-во строк в CSV, чем UNIX wc -l.

Unix:


time wc -l services-2023.csv

21239394 services-2023.csv
wc -l services-2023.csv  2.66s user 0.29s system 99% cpu 2.966 total

DuckDB:


time duckdb -c "select count(*) from read_csv('services-2023.csv', header = false)"

count_star()
int64
21239394

duckdb -c "select count(*) from read_csv('services-2023.csv', header = false)" 11.17s user 0.57s system 930% cpu 1.261 total

Если еще не начали использовать, то самое время попробовать.

Из DuckDB white paper:

Перевод как обычно 🙌

DuckDB — это встроенная аналитическая база данных с открытым исходным кодом, созданная для выполнения аналитических SQL-запросов непосредственно внутри процесса хост-приложения.

Она решает ограничения существующих встраиваемых решений, таких как SQLite, которая не подходит для аналитических (OLAP) нагрузок, и заполняет пробел в таких сценариях, как интерактивный анализ данных (например, в R или Python) и edge computing.

Основные моменты:

Проблема: Традиционные базы данных работают как отдельные серверные процессы и требуют значительных ресурсов. SQLite широко используется, но оптимизирована для транзакционных (OLTP) задач, что делает её неэффективной для аналитики. Необходима встроенная аналитическая система.

Особенности DuckDB:

- Высокая производительность для OLAP, сохраняя базовые возможности OLTP.
Устойчивость: предотвращение сбоев хост-приложения и безопасное завершение запросов при нехватке ресурсов.

- Эффективный обмен данными внутри процесса между базой данных и приложением.
- Портативность и минимум внешних зависимостей.

Дизайн и реализация:

- Используется модульная архитектура (parser, optimizer, execution engine), адаптированная для встроенной аналитики.

- Применяется векторизированное выполнение (vectorized execution) для повышения производительности и портативности, избегая сложных зависимостей, таких как LLVM.

- Обеспечивается поддержка ACID через Multi-Version Concurrency Control (MVCC).

- Используется оптимизированный формат хранения данных с компрессией и индексированием.

Демонстрация:

- DuckDB сравнивается с SQLite, MonetDBLite и HyPer на идентичном оборудовании с использованием TPC-H benchmarks, чтобы показать её превосходство при обработке больших объёмов данных.

- Позволяет пользователям запускать запросы и в реальном времени проверять масштабируемость и производительность.

Применение и будущее развитие:

- Подходит для сценариев, где требуется встроенная аналитика, например, edge computing или интерактивный анализ в лёгких инструментах.

- Планируется добавление intra-query параллелизма, балансировки ресурсов и механизмов устойчивости к аппаратным сбоям.

Видео (4 года назад)- Dissecting DuckDB:
The internals of the “SQLite for Analytics”

Бесплатная Книга - DuckDB in Action"

DuckDB официально поддерживается dbt.

В целом, если вы хотите сделать аналитическое решение с Open Source для небольшого объема (данные помещаются на одной машине), то в качестве SQL движка можно использовать DuckDB вместе с:
- Minio для object storage
- dbt для трансформаций
- Metabase/Superset для BI
- Airflow/Dagster/Prefect для оркестрации
- Prometheus/Grafana для data observability
- Open Metadata/Data Hub для бизнес каталога и lineage
- GitHub/GitLab для версионности и CI/CD
- Terraform или Tofu для инфраструктуры как код
- Можно и streaming добавить Redpanda, Flink, Kafka, Debezium

Все это дело можно запустить в контейнерах или на (managed) Kubernetes кластере.

Вместо DuckDB можно и кучу других решений - Trino, ClickHouse, Greenplum или коммерческий продукт (я обычно не экономлю на storage инструменте)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡30🌚5🫡3💯2🎄1

8.24K viewsDmitry, 18:12

Инжиниринг Данных

Визуализация из Канадской действительности - Shopify нарисовал карту доставок 1 Ноября 2023 - 31 Декабря 2023:

Shopify attached the above image in the letter, claiming it illustrates domestic urban and rural orders (in blue and red, respectively) from Shopify merchants that were fulfilled by Canada Post from Nov. 1, 2023 to Dec. 31, 2023. Shopify said a 2024 map “wiped clean” due to prolonged strike action would “devastate” the economy.

Open letter claims at least 67,000 Shopify-powered small businesses rely on Canada Post.

Даже я сам affected от такого беспредела, потому что не могу заказать в своем же магазине shop.surfalytics.com себе же одежду и подарки знакомым.

Canada Post мусолит эту тему с 25 октября. Сначала это было по фану всем, а теперь совсем нет. У многих зависли визы и паспорта, а скоро отпуска. И нет никакой альтернативы.

Теперь мы знаем почем Amazon зарубил профсоюзы накорню - How Amazon Crushes Unions.

😭11🙊5💯3🙉3🎄1👾1

6.95K viewsDmitry, edited 00:01

Инжиниринг Данных

Недавно я писал про приятный инсайт и русский линкедин. Но теперь мне хотелось бы поделиться инсайтом, какие посты я вижу. Там почти не пишут про инструменты или архитектуру, или про какие-то вещи с индустрией. Если полистать и присмотреться, что пишут, то оказывается что каждый второй, если не каждый первый пост будет попадать в следующую категорию:
- HR (бывшие) теперь консультанты и коучи, могут быстро прокачать вас до нужного уровня, составить резюме и помочь найти работу.
- Специалисты (особенно в области product), могут вас поменторить и прокачать, составить резюме и помочь найти работу.
- Success stories как кто-то нашел работу благодаря консультации тех самых специалистов
- Скриншоты переписки при поиске работы. Тут возможно 2 вариант: Кандидат отжигает или HR отжигает.

Тем неменее, все равно прикольно читать, разбавляет индуских data influencers!

А что вам попадется в Linkedin на русском? 😝

Please open Telegram to view this post

VIEW IN TELEGRAM

137🙈9🎄7👨‍💻4😭1

7.18K viewsDmitry, edited 07:25

Инжиниринг Данных

Snowflake знают все, даже если вы его никогда не использовали, но если вы работаете в области аналитики данных или инжиниринга данных, вы точно о нём слышали.

Главная его особенность заключается в том, что Snowflake фактически создал концепцию Lake House до того, как она стала популярной в 2020-2021 годах. Идея заключалась в разделении Compute (вычисления на виртуальных машинах) и Storage (хранение данных на S3, Azure Storage, GCP Storage).

То есть все данные хранятся в одном большом хранилище (storage), а вычисления могут выполняться на любом подходящем ресурсе.

Речь, в данном случае, о кластерах Snowflake (Compute Warehouse). Единственный недостаток этой технологии — данные хранятся в закрытом формате, представляющем собой black box для конечного пользователя, что также приводит к эффекту vendor lock.

Чтобы упростить продажу продукта, Snowflake позиционируется как хранилище данных. Если бы в 2016-2017 годах компания пыталась объяснять клиентам, что это нечто большее, чем классическое хранилище, и не совсем хранилище, это значительно усложнило бы продажи.

С 2020 года стали активно развиваться открытые форматы таблиц, которые заменили классический каталог Apache Hive: Delta, Iceberg и Hudi.

Hudi стух. Delta стал стандартом для Databricks. Iceberg занял лидерство в индустрии.

Snowflake также добавил поддержку каталога Iceberg. В свою очередь, Databricks приобрел компанию Tabular (создателей Iceberg), чтобы унифицировать формат внутри своего lake house — Delta Lake Universal Format (UniForm).

И теперь снова о Snowflake, который считается дорогим, но при этом удобным и простым в использовании. В сети полно информации о том, как можно оптимизировать затраты, самый популярный метод — включить AUTO Suspend.

Однако мы наблюдаем сдвиг в сторону унификации аналитических решений. По умолчанию Snowflake скрывает свои данные и хранит их в собственном формате, как любая база данных. Но с развитием интеграции Iceberg появилась возможность переносить часть данных из Snowflake во внешнее хранилище и создавать Snowflake-Iceberg Managed Catalog.

Это открывает множество возможностей использовать каталог Snowflake, задействуя внешние вычислительные движки, такие как DuckDB, Trino, Spark, Polars и PyArrow.

Несколько ссылок по теме:
- Quack, Quack, Ka-Ching: Cut Costs by Querying Snowflake from DuckDB
- Execute Snowflake queries locally on DuckDB
- Processing Trillions of Records at Okta with Mini Serverless Databases

Пока это не полноценная замена Snowflake или унификация методов хранения и доступа к данным, но видно как это направление набирает обороты и позволяет уже сейчас сократить расходы Snowflake.

❤‍🔥25⚡11🙉3🎄2

6.53K viewsDmitry, 17:53

Инжиниринг Данных

И в продолжение последних нескольких постов про Apache Iceberg - Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads

То есть можно сразу писать в S3 и подключать SQL/Compute engineer. Все в одно месте. Будет интересно смотреть как дальше все будет развиваться.


# создаем таблцу в S3
$ aws s3tables create-table-bucket --name jbarr-table-bucket-2 | jq .arn
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"

# переменная с ARN бакета
$ export ARN="arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"

# получаем список таблиц в S3
$ aws s3tables list-table-buckets | jq .tableBuckets[].arn
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-1"
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"

# создаем схему MYDATA в каталоге MYTABLEBUCKET используя Spark
scala> spark.sql("""CREATE NAMESPACE IF NOT EXISTS mytablebucket.mydata""")

# создаем таблицу
spark.sql("""CREATE TABLE IF NOT EXISTS mytablebucket.mydata.table1
 (id INT,
  name STRING,
  value INT)
  USING iceberg
  """)

# проверяем, что все на месте
$ aws s3tables list-namespaces --table-bucket-arn $ARN | jq .namespaces[].namespace[] 
"mydata"
$
$ aws s3tables list-tables --table-bucket-arn $ARN | jq .tables[].name
"table1"

# вставляем записи в таблицу
spark.sql("""INSERT INTO mytablebucket.mydata.table1
  VALUES
  (1, 'Jeff', 100),
  (2, 'Carmen', 200),
  (3, 'Stephen', 300),
  (4, 'Andy', 400),
  (5, 'Tina', 500),
  (6, 'Bianca', 600),
  (7, 'Grace', 700)
  """)

Такой подход открывает огромное кол-во возможностей для создания дата инфраструктуры на AWS с использованием открытого формата Iceberg. Теперь ждем ответ от Azure, GCP. Я уже выше писал несколько постов, насколько iceberg упрощает жизнь.

Ну и конечно, интересно как у VK, Yandex с Iceberg.

Amazon

Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads - AWS

Discover more about what's new at AWS with Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads

❤‍🔥17⚡3🎄2

7.52K viewsDmitry, edited 20:55

Инжиниринг Данных

В последнее время было тихо у AWS на фоне AI. Они просто ждали свою конференцию re:Invent, чтобы анонсировать все. Уже все написали за нас, осталось попросить chat gpt перевести:

Amazon на этой неделе решил действовать жестко. Они только что анонсировали собственные foundation models, на 75% дешевле. Плюс AI Chips. Плюс суперкомпьютер. Они нацелились на ВСЕХ.

Это похоже на скоординированную атаку на всех основных фронтах искусственного интеллекта.

Amazon одновременно бросает вызов OpenAI/Microsoft в области foundation models, NVIDIA в разработке чипов, xAI в суперкомпьютерах, и заручается поддержкой мощных союзников, таких как Anthropic и Apple. Кстати, SAP в восторге от этого.

1. Доминирование в Foundation Models

- Шесть новых моделей Nova, которые соответствуют или превосходят конкурентов
- На 75% ниже стоимости по сравнению с текущими лидерами рынка
- Уже используются в 1000 приложений Amazon
- Дорожная карта на 2025 год включает революционные модели "speech-to-speech" и "any-to-any"
- Поддержка 200+ языков, в то время как конкуренты сосредоточены на английском

2. Революция в чипах

- Чипы Trainium2 демонстрируют 4-кратный прирост производительности
- Снижение стоимости на 50% по сравнению с Nvidia
- Apple подписан как крупный клиент
- Глубокое сотрудничество с Annapurna Labs
- Уже разрабатываются чипы следующего поколения Trainium3

3. Project Rainier: Суперкомпьютер

- Создание крупнейшего в мире распределённого AI-кластера
- Сотни тысяч чипов Trainium работают в унисон
- В 5 раз мощнее текущих систем Anthropic
- Многоузловой дизайн для беспрецедентного масштаба
- Прямой конкурент Colossus от xAI

4. Сделка с Anthropic

- Масштабные инвестиции в размере $8 миллиардов
- Закрепление за собой роли основного поставщика облачных услуг
- Эксклюзивный доступ к будущим моделям Claude
- Глубокое техническое сотрудничество по оптимизации чипов
- Ранний доступ для клиентов AWS

Самое впечатляющее: Amazon создаёт целую экосистему. Они одновременно решают задачи вычислительных мощностей (Project Rainier), чипов (Trainium), моделей (Nova) и партнёрств (Anthropic) — и при этом снижают цены для всех.

Source

Amazon

Introducing Amazon Nova foundation models: Frontier intelligence and industry leading price performance | Amazon Web Services

Amazon Nova foundation models deliver frontier intelligence and industry leading price-performance, with support for text and multimodal intelligence, multimodal fine-tuning, and high-quality images and videos.

❤‍🔥29⚡8🌚1🎄1🤷1

7.84K viewsDmitry, 02:25

Инжиниринг Данных

O’Reilly анонсировала новую книжку - AI Engineering: Building Applications with Foundation Models

Recent breakthroughs in AI have not only increased demand for AI products, they've also lowered the barriers to entry for those who want to build AI products. The model-as-a-service approach has transformed AI from an esoteric discipline into a powerful development tool that anyone can use. Everyone, including those with minimal or no prior AI experience, can now leverage AI models to build applications. In this book, author Chip Huyen discusses AI engineering: the process of building applications with readily available foundation models.

The book starts with an overview of AI engineering, explaining how it differs from traditional ML engineering and discussing the new AI stack.

The more AI is used, the more opportunities there are for catastrophic failures, and therefore, the more important evaluation becomes. This book discusses different approaches to evaluating open-ended models, including the rapidly growing AI-as-a-judge approach.

AI application developers will discover how to navigate the AI landscape, including models, datasets, evaluation benchmarks, and the seemingly infinite number of use cases and application patterns. You'll learn a framework for developing an AI application, starting with simple techniques and progressing toward more sophisticated methods, and discover how to efficiently deploy these applications.

- Understand what AI engineering is and how it differs from traditional machine learning engineering

- Learn the process for developing an AI application, the challenges at each step, and approaches to address them

- Explore various model adaptation techniques, including prompt engineering, RAG, fine-tuning, agents, and dataset engineering, and understand how and why they work

- Examine the bottlenecks for latency and cost when serving foundation models and learn how to overcome them
Choose the right model, dataset, evaluation benchmarks, and metrics for your needs

Вот кому-то нужно часто менять резюме и профайл:

Data Analyst -> Data Scientist -> ML Engineer -> Deep Learning Engineer -> LLMs Engineer -> AI Engineer.

Это как мне видится процесс, сам я не из sexy jobs 21 века, могу ошибаться.

У нас по проще:

Database (SQL) Developer -> ETL Developer -> Big Data Engineer -> Data Engineer.

❤‍🔥35⚡6🎄3

7.78K viewsDmitry, 20:18

Инжиниринг Данных

Теперь вы знаете как делать топ конференция!

Там реально можно набить татуху с AWS сервисом или мультяшкой!

Не благодарите за идею к вашему следующему ивенту и новогодним корпоративам))

⚡16🍾8🌚4🎄2🤷2

7.89K viewsDmitry, 07:57

Инжиниринг Данных

Весь LinkedIn пестрит постами про Apache Iceberg. Посты писать уже не достаточно, нужно снимать видео, как вот на S3 создали Iceberg таблицу, запустили Spark и написали запрос.

Все твердят о том, как Apache Iceberg одержал победу над Delta, Hudi и стал главным форматом таблиц. Кстати, на последних собеседованиях уже начали спрашивать про Iceberg и DuckDB.

Не важно, какая у вас роль, если вы работаете с данными, вы должны знать про Apache Iceberg и понимать суть и сценарии использования.

Apache Iceberg - это формат таблиц (не путать с типом файла!). Когда мы сохраняем наши данные в storage layer, например в формате Parquet, мы добавляем метаданные:
- Metadata file - содержит информацию об общей структуре таблицы, таких как схема, версии и снэпшоты.
- Manifest list - список всех файлов-манифестов, связанных с конкретным снэпшотом таблицы.
- Manifest file - указывает на конкретные файлы данных, описывая их диапазоны и разделы для эффективной фильтрации.

Полезные ресурсы:
An introduction to Apache Iceberg by Dremio.
Iceberg, Spark and Dremio - A Hands on Experience.
Data Lakehouse Basics by Dremio.
Apache Iceberg Quick start with Docker Compose.
Apache Iceberg Fundamentals: Course.
Бесплатная книга Apache Iceberg: The Definitive Guide PDF

От наших облаков из комментов:
В Yandex Cloud возможны следующие способы работы с delta-форматами файлов:
1) коннекторы iceberg и delta lake в сервисе Managed Trino, который будет доступен пользователям в рамках technical preview уже в декабре 2024 года

2) delta lake в сервисе Yandex Data Processing
https://yandex.cloud/ru/docs/data-proc/concepts/deltalake
https://github.com/yandex-cloud/yc-delta

3) в Cloudberry, на основе которого будут реализованы новые версии Greenplum'а в YC, есть поддержка iceberg в коммерческой версии, однако есть планы по релизу в open-source:
https://github.com/apache/cloudberry/discussions/667#discussioncomment-10944084
- в случае появления кода в open-source репозитории, поддержка iceberg для Cloudberry будет доступна и в Yandex Cloud

В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.

Хотя вы можете создать свой Lakehouse на Kubernetes + Minio + Iceberg + Trino/Spark.

Еще нашел:
2 отечественных продукта с managed Trino, возможно они поддерживают iceberg.
СedrusData - распределенная SQL-система для создания аналитических платформ уровня предприятия на основе open-source проекта Trino. Работает с любыми источниками и объемами данных, в облаке и on-premise.
Разрабатывается компанией Querify Labs.

Обзор Managed Trino от Cloud Ru.

PS: если хотите добавить ссылку в комментарии, используйте её как текст, а не как гиперссылку, или через markdown.


www.dataengineer.ru

BigDATAwire

How Apache Iceberg Won the Open Table Wars - BigDATAwire

Apache Iceberg has recently emerged as the de facto open-table standard for large-scale datasets, with a thriving community and support from many of the leading data infrastructure vendors. But why […]

❤‍🔥48⚡8💯3🫡2

11.9K viewsDmitry, 17:04

Инжиниринг Данных

За 200$ в месяц ChatGPT никто не пробовал в работе?

🙈3816🤷‍♀4⚡2🐳2🍾2💯1

8.82K viewsDmitry, 06:50

Инжиниринг Данных

Хотел сегодня поделится маленькими телеграмм каналами своих давних друзей. Они совсем не из ИТ, но ребята делают то, что им нравится!

ВАСО НА СТРОЙКЕ🛹👷‍♂🛠️ - Васю знаю давно, скейтер старой школы. Он подарил скейт на первый день рождение моему сыну 12 лет назад. В душе он всегда был предпринимателем, а сейчас ведет канал про строительство скейт парков в России. Он и его команда строят парки мирового уровнях в любых условиях в городах России. Контент топчик!

Welcome 2 backstage - канал про моду и стиль, ведет Женя. С Женей мы давно знакомы и познакомились на Московской Неделе Моды в гостином дворе, где работали много лет вместе. Оказалось что мы живем на соседних станциях метро. Он все знают про стиль и моды и кайфует от того, что делает. Заодно в его сторис я всегда узнаю о топ фильмах к просмотру!

❤‍🔥14🗿64🍌3⚡1

9.08K viewsDmitry, 18:35

Инжиниринг Данных

Вот это я понимаю аналитика будущего.

Вам понадобится:
- 1 iPhone или Android
- Коробка с сухим льдом для охлаждения, хотя зимой можно в форточку высунуть
- Эмулятор командной строки
- DuckDB

И можно анализировать ваши данные. Это еще они на PS5 или Steam Deck не запускали DuckDB.

Источник: https://duckdb.org/2024/12/06/duckdb-tpch-sf100-on-mobile

🙈33⚡11❤‍🔥4🌚3💯2

8.5K viewsDmitry, 19:50

Инжиниринг Данных

Нужно ли быть честным кандидатом на собеседовании и честным сотрудником?

Казалось бы, честность и открытость — это хорошо. Однако, в корпоративном мире такая честность имеет высокую цену.

Сейчас все обсуждают случай, когда компания YesMadam уволила ~~сотрудников~~ нытиков, которые жаловались на стресс. Они надеялись на понимание, а получили "пинка под зад".

Очевидный вывод: быть честным с работодателем небезопасно!

Вот примеры из личного опыта:
- На одном собеседовании меня спросили о недостатках. Я честно рассказал, как был токсичным, конфликтовал с начальством, отстаивал интересы команды и компании, в итоге попал на PIP, прошел его, снова конфликтовал и в итоге уволился. После этого уволили и директора, и VP. Реальная жизненная история. На следующий день я получил отказ от hiring manager.
- В общении с американскими коллегами выразил симпатию Трампу. Оказалось, для них это серьезная проблема, и теперь взаимодействовать с ними стало сложнее.

Это лишь пара небольших примеров.

Не забывайте: задача HR — защищать интересы компании. Все, что вы скажете, может быть использовано против вас. Я сам не раз наступал на одни и те же грабли.

Хотите роста и стабильности? Играйте по правилам компании, пока не наберете “достаточный вес”, чтобы позволить себе быть честным. Хотя, как известно, незаменимых людей не бывает.

💯145😭13❤‍🔥9⚡8🗿4🍌3🌭2

8.28K viewsDmitry, edited 20:27

Инжиниринг Данных

Обновление dataengineer.ru:

1. В карьерные треки я написал введение про управление карьерой как бизнесом имени себя и принципы Карнеги про people skills. Я считаю это очень важно для успешной карьеры. Как ни странно от такого подхода должны выигрывать компании и сотрудники.

Так сложилось, что после книги “Как завоевывать друзей и оказывать влияние на людей” Карнеги, я стал слушать книгу - “Soft Skills: The Software Developer’s Life Manual” Джона Сонмеза. В своей книги он все время ссылается на Карнеги, у которого книга написана была в 1936 году. Джон так же рассказывает про отношение к карьере как к бизнесу, где нужно принимать бизнес решения и брать на себя ответственность. Последнее время я как раз размышлял, почему у одних карьера успешнее, чем у других. Причин и путей много, но как видно бизнес подход имеет определенный смысл и эффективность.

2. Еще больше инструментов в CLI и IDE и AI в помощь
3. В облачные вычисления добавил платформы и курсы.
4. В секцию BI добавили про Инструментарий Разработчика.
5. В DevOps добавили про Git системы.
6. Добавили еще немного книг.

PS хотите добавлять ресурсы на портал? Писать простым языком про сложные вещи? Эксперт в какой-то нише? Добавляйтесь в котрибьютеры!

#dataengineer_ru

dataengineer.ru

Инжиниринг Данных · Инжиниринг Данных

Портал для Инженеров Данных и Аналитиков.

2❤‍🔥728🎄4🐳2

8.78K viewsDmitry, edited 00:59

Инжиниринг Данных

Я провел недавно эксперимент на LinkedIn. У меня там несколько компаний зарегистрировано, в каждой можно создавать Jobs. Лишь подтверждение, что платформа вообще не подходит для поиска работы, будет только сжирать время и ресурсы. А для компаний еще и кучу бабла.

В Surfalytics я воспользовался free trial на 3 дня на позицию Junior Data Engineer в Канаде.

За первый час пришло 200 откликов, за первый день почти тысяча. Всего 1400 откликов на вакансию.

В Rock Your Data я опубликовал Data Analyst в США. Там уже за $. За 3 часа три это чудо скушало 200US$ и все кандидаты попали в “No Fit” по моим вопросам, то есть условно они для меня не релевантны.

В LinkedIn это работает как в Google Ads, по кликам мы платим.

LinkedIn это такой бесконечный поток кандидатов, которым вообще пофиг на что откликаться, описание они не читают. За пределами то же самое. Таким образом кандидаты портят жизнь и себе и другим, и компаниям. HR в это процессе тоже теряются, и в итоге упускают хороших кандидатов.

Для Северной Америки искать работы в LinkedIn (откликаться на вакансии) это пустая трата время. Другой вопрос, иметь сильный профайл, чтобы вам написал рекрутер. Лучше всего это прямо идти на сайт компании, а еще лучше найти референс. На сайт мы добавили еще мест и чатов, где искать работы https://dataengineer.ru/pages/career/

Я добавил скриншоты. Что показать пример кандидатов. Каждый 2-й и 1й это блогер, шмогер, сертифицированный эксперт, с огромным списком технологий, как будто их резюме находится в шапке LinkedIn профайла. Но если, посмотреть сам LinkedIn или резюме, то там вообще не релевантный опыт или его просто нет. Как мартышки налетели на вакансию, накликали, и полетели дальше засорять интернет.

Про требования к стране, опыту или еще чего, я вообще молчу. Все, у кого есть интернет в деревне в Африки и Индии и много свободного времени считают своим долгом откликнуться, авось повезет.

Я решил пообщаться с людьми. Например, пишу: “Привет, так и так рынок тяжелый, а у тебя резюме и Linkedin не совпадает, и вообще опыт не про дату и аналитику.”, а в ответ, что-то типа мы сами все знаем не надо учить, спасибо за подсказку, мы как-то сами справимся.

Одна дама поведала, что вот прошла Rust курс для Data Engineering, я ей говорю, зачем Rust, ведь надо dbt и Snowflake лучше. На что она мне сказала, что у нее нет время учить все в подряд. И вообще недавно она прошла курсы про Node, Angular и другим Front End вещам, а работает она пока бухгалтером.

Еще я попробовал сервис ZipRecruiter. Тоже на trial. За 2 дня было 6 окликов, тоже бесполезный.

Вывод простой - доступность знаний и hype из разряда работать из дома и получать 100500 тысяч делают свое дело. Качественных кандидатов мало на рынке, но им намного сложней пробиться и найти себе работу(ы).

🙈75🫡3013🤷‍♂8⚡6🐳1

9.79K viewsDmitry, 20:40

About

Blog

Apps

Platform