Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сегодня узнал, что у StackExchange есть свой SQL интерфейс - Stack Exchange Data Explorer, который дает доступ к данным StackExchange.

Очень удобно использовать для собеседований или просто потренироваться пописать запросы. В качестве back-end используется Microsoft SQL Server.

Есть и tutorial.
🍾15🐳7👨‍💻3🫡3
Используете ли вы большие данные в принятии бизнес-решений?

Российские компании инвестируют в большие данные. Но оправданы ли эти вложения?

K2 Cloud и Arenadata провели исследование, в котором проанализировали, как проекты big data влияют на бизнес-процессы, какие барьеры возникают при внедрении и как облачные технологии помогают преодолеть эти сложности.

В карточках – основные выводы исследования. А с полным материалом знакомьтесь по ссылке>>
9
История на картинке:

Ребята кайфовали на работе от Snowflake, Databricks и других популярных и приятных в использовании решений.

А потом им сверху сказали: “Ребятушки, сейчас заживём, внедряем Microsoft Fabric + Purview”.

Ребятушки в шоке. Power BI ещё куда ни шло, норм инструмент, а вот Fabric, Synapse, Purview — это уже издевательство над инженерами и архитекторами.

Это действительно так. При мне в Microsoft выкатили Synapse и заставили всех внутри перейти с Databricks на Synapse. Это была такая боль для инженеров. Так ещё и сам Synapse был DOGFOOD (так называется internal release любого решения в Microsoft).

Потом я даже был в продуктовой команде Synapse и как раз трудился над созданием Fabric. Purview развивался параллельно.

Пользователи Power BI были в восторге — теперь они могут сами (с усами) строить Lakehouse, pipelines, и вообще там всё само работает (SaaS).

Я уже давно приметил, как работает продажа решений Microsoft. Мне это видится примерно так:
1. Компания (обычно большая, как Fortune 500) работает с Microsoft с 90-х/2000-х, и у них там всё “вась-вась” на уровне CTO/CIO/VP.
2. Сейлзы Microsoft всё время на связи и приносят “инновации” из мира технологий, просто отгружая “обещания” — data-driven, AI-driven и т. д.
3. Сверху инженерам объявляют радостные новости:
• мигрируем Microsoft on-premise в Azure,
• мигрируем SQL Server на Azure Data Warehouse,
• мигрируем Azure DW на Synapse Dedicated Pool,
• мигрируем DW на Synapse Serverless Lakehouse,
• мигрируем Synapse на Fabric.

Я, конечно, утрирую, но это моё видение. Я не знаю ни одного инженера (а я знаю очень много инженеров), кто был бы в восторге от Synapse, Fabric, Purview.

Обычно, если инженеры выбирают для себя, они могут выбрать open-source решения или коммерческие. Но никак не Fabric.

Зато у этой истории есть и положительная сторона. Если в компании внедряют Synapse/Fabric, значит, это большая жирная компания с низкой производительностью и эффективностью, и там можно затеряться. Но зарплаты там не больше. Можно удалённо штаны просиживать и своими делами заниматься.

Кстати, у Azure есть и хорошие решения:
• Azure Data Factory для оркестрации работает хорошо, если использовать API/SDK, есть возможность использовать Airflow.
• Azure Storage Accounts (аналог S3).
• Azure Databricks (считается на 50% Azure и доступен как сервис Azure).
• Snowflake on Azure (внешний продукт).

Кто-нибудь реально фигачил на Synapse/Fabrics от и до?
❤‍🔥26💯10🫡1
Миграция с Hadoop и BigQuery сэкономила 500К$ в год и +40% эффективности.

Про эффективность понятно, а вот про экономию и Snowflake обычно бывает наоборот=)

Зато белоруская компания на первой полосе, сам CEO Snowflake сказал, что обожает в танчики порубиться и с удовольствием поделился историей успеха и пригласил отечественных дата инженеров изучать Snowflake и мигрировать на data облако.
51❤‍🔥239🫡5🌚4
Всем привет, это была проверка на внимательность:)

Аналитики ведь должны быть внимательны!)
😈10🦄1
Forwarded from Data Memes
🌚28💯12😭7🙈6👾4🐳2😈21🌭1🦄1
Зима в Британской Колумбии. Это вид из коворкинга в центре Ванкувера, где обычно по пятницам собираемся с друзьями отдохнуть от Work From Home.

Как видно в центре тут корабли, пароходы, поезда, еще есть водные самолеты и вертолеты.
2❤‍🔥75🐳21🤷3🌚2💯1
Ну дела у ❄️, пампили пампили дата облако, но походу оказался ROI низкий.

Как обычно бывает качество продукта тут не так важно. Инвесторам вообще пофигу и когда появляются большие инвестиции - часто вредит.

Осталось, чтобы кто-нибудь поглотил Snowflake.

Кстати, Databricks можно купить на вторичке, он в топе там.
🙈10🍾1
AI Company Asks Job Applicants Not to Use AI in Job Applications

Anthropic, компания, создавшая одного из самых популярных в мире AI-ассистентов для написания текстов, требует от соискателей согласия на то, что они не будут использовать AI-ассистента при подаче заявки.

«Хотя мы поощряем использование AI-систем в работе для повышения скорости и эффективности, пожалуйста, не используйте AI-ассистентов в процессе подачи заявки», — говорится в тексте заявки. «Мы хотим понять вашу личную заинтересованность в Anthropic без посредничества AI-системы, а также оценить ваши навыки коммуникации без помощи AI. Пожалуйста, укажите "Да", если вы прочитали и соглашаетесь».


Вот так вот, всем продаёт свой AI, а вот на собеседовании нельзя использовать.

У меня было один раз собеседование в компания Zapier, и там прям сразу же попросили использовать AI и написать, как я его использовал для домашнего задания. Задание нужно было сделать на Databricks, и я использовал Notebooks для решения. Само задание и решение здесь - Football Teams and Competition Analytics. Им не понравилось, что я много переиспользовал ноутбуки. Хотя во всех курсах Databricks показывают примеры с ноутбуками.


├── README.md
├── __includes
│ └── utils.py # common functions and libraries for this project
├── facts # aka Gold layer
│ ├── __includes
│ │ └── dim_facts_ddl.py
│ ├── dimensions.py
│ └── facts.py
├── football_analytics_pipeline.py
└── raw # aka Bronze Layer
├── __includes
│ ├── raw_football_schemas.py # Struct Schemas for API
│ ├── raw_tables_ddl.sql # Table DDLs
│ └── seed_competition_list.py # Data seed for list of competitions
├── __tests # assertions for notebooks
│ ├── competition_assertion.py
│ ├── competitions_teams_assertion.py
│ └── teams_assertion.py
├── raw_football_api_competitions_ingest.py
├── raw_football_api_competitions_teams_ingest.py
└── raw_football_api_teams_ingest.py


В выходные Дмитрий Фошин эксперт по Azure и Databrics из 🇵🇹, с которым мы написали 2 книжки по Azure Data Factory и сейчас заканчиваем второй релиз Snowflake Jumpstart, провел очень полезный воркшоп в Surfalytics, где мы работали с Databricks, но использовали традиционный Python подход с Wheel, Pytest. То есть это полная противоположность моего подхода с ноутбуками. Видео я загружу на YouTube. Само задание и решение можно найти здесь - Building a Databricks workflow with Python wheel tasks. Такое решение подойдет для Apache Spark в целом.

PS для Surfalytics я добавил новую фичу, такие эксперты как Дмитрий Фошин могут бесплатно присоединиться к нашему сообществу в обмен на их активность - win/win. Если у вас глобальные планы на вашу карьеру по дате, лучше места не найти, можете мне написать.
13❤‍🔥7🍌5👨‍💻3🐳2🌭2🫡2
Илон говорит о важности уникального ключа в таблице🦯
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈56🗿105💯2🍌2🙉2🦄2🤷‍♀1
У Snowflake есть бесплатные свежие курсы на курсере:
- Introduction to Generative AI with Snowflake (я как раз в процессе, ведь у меня теперь в LinkedIn Data Infrastructure for AI, то есть не отсаю от трендов)
- Intro to Snowflake for Devs, Data Scientists, Data Engineers
- Introduction to Modern Data Engineering with Snowflake

Но самое ценное в этих курсах:

Sign up for a free, 120 day Snowflake trial account
The entire course can be completed using a free, 120 day Snowflake trial account. This is the recommended way of completing the course. The instructor will also be using a trial account throughout the course.

Use the link below to create your free
:

https://signup.snowflake.com/?trial=student&cloud=aws&region=us-west-2&utm_source=coursera&utm_campaign=genai1

Так намного лучше, ведь по умолчанию 30 дней Snowflake Trial.
❤‍🔥4111
Неожиданные поворот от Databricks - интеграция с SAP!

https://news.sap.com/2025/02/sap-business-data-cloud-databricks-turbocharge-business-ai/

Всем SAP инженерам самое время upskill сделать по 🧱
❤‍🔥17🍾4🙈1🎄1
Когда-то Informatica была №1 среди ETL инструментов. Но они так и не смогли адаптироваться к современным реалиям.

Последний раз я смотрел на Informatica Cloud в 2016 году, когда нужно было строить хранилище данных на AWS, выбрал в итоге Matillion ETL (сейчас бы и его не выбрал бы).

Вот что говорит CEO информатики:

«Это был квартал, в котором мы не предвидели и не достигли тех результатов, которые планировали», — сказал Валия, подчеркнув две «основные проблемы», с которыми столкнулась компания в течение этого периода.

«Первая заключается в том, что уровень продления подписок на наши облачные и некоторые не облачные решения не оправдал наших ожиданий, что снизило показатель ежегодной повторяющейся выручки (ARR)», — пояснил он, добавив: «На самом деле, у нас было значительно больше клиентов, использующих локальные решения, которые захотели перейти на облачные технологии, но это создает учетную загвоздку, из-за которой мы теряем часть доходов от локальных решений гораздо быстрее».


Надо было лучше в Bitcoin инвестировать как Microstrategy🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11🙊1
Учитесь как надо посты писать в Linkedin 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡59❤‍🔥2216🌚3👨‍💻3🦄1
Как я понимаю в каждой второй (крупной) компании в РФ есть Greenplum.

Сегодня я как обычно смотрел профили свежих подписчиков и их телеграмм каналы и увидел свежее выступление про Greenplum. Если вы с ним не работали, я думаю подойдет для ознакомления.

https://boosty.to/magician_data/posts/7ffaec19-1419-40bb-8a2d-be22afc200f1

PS если у вас есть другие классные ссылки по GP пишите в комментах. Чтобы добавить ссылку попробуйте как код это сделать


https://kuku.ru
5❤‍🔥175🫡1
Forwarded from Joni in Web
This media is not supported in your browser
VIEW IN TELEGRAM
GetMatch — это сервис, который помогает IT-специалистам находить работу, а компаниям — закрывать вакансии. В отличие от классических job-бордов, GetMatch сразу показывает зарплатные вилки.

Идея «просто» автоматизировать парсер вакансий зародилась у нас с Сашей Варламовым (канал Саши @data_bar) – как часто бывает, слово «просто» стало началом чего-то действительно масштабного. Сейчас у нас есть полноценная автоматизированная система, которая ежедневно парсит вакансии с GetMatch, загружает их в PostgreSQL, тянет курс рубля и доллара, отправляет отчеты в Telegram и полностью автоматизирует ETL-процесс для аналитики в дашборде.

Поднял Airflow в docker-compose на Timeweb (не реклама, просто нравится админка), чтобы DAG’и можно было запускать и мониторить централизованно. Добавил CI/CD на GitHub Actions, чтобы больше не заходить на виртуалку вручную — всё деплоится автоматически. Был парсер getmatch, но я его переписал под Airflow с Taskflow API. Разделил задачи, сделал их атомарными и настроил on_failure_callback, который отправляет сообщения об ошибках в Telegram-канал. Теперь, если что-то сломается, я узнаю об этом сразу, а не через неделю, когда появится дыра в данных.

База данных PostgreSQL развернута на другом VPS, чтобы разграничить вычисления и хранение данных. Создал таблицы vacancies, vacancy_skills, skills, где skills сразу вынесена в ref-таблицу, чтобы не дублировать текстовые значения. Настроил пользователей и доступы, подключил базу к Airflow. Бэкапы настроены на ежедневное обновление.

Теперь каждая вакансия и навык привязаны к конкретному дню, что позволяет анализировать динамику рынка труда. Каждое утро DAG собирает свежие вакансии, тянет курсы валют и обновляет таблицы, а в Telegram приходит сообщение с итогами работы: сколько вакансий обработано, какие ошибки возникли.

Теперь в дашборде можно:
• Смотреть историю изменения вакансий по дням
• Анализировать время жизни вакансий и скорость закрытия
• Отслеживать корреляцию зарплат с навыками
• Изучать спрос на скиллы в динамике

Раньше были просто “актуальные вакансии”, теперь есть полноценная разбивка по дням, что открывает больше возможностей для анализа.

Посмотри на наш дашборд анализа зарплатных вилок 👈

🔹 public.tableau.com иногда работает, только под VPN из РФ — держи мой VPN. Выше рассказывал, как разробатывал его в новогодние праздники @ShtormVPNBot 🫂

В планах — развернуть dbt и начать собирать слой трансформаций, чтобы сразу приводить данные в нужный вид для аналитики.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7228🍌1
Всем привет!

Хочу поделится хорошей вакансией от знакомых товарищей! Я сам лично знаком с проектом, командой и данными.

Ребята ищут ML инженера, ну или data scientist, на контракт в Европе с возможностью продления или устройством в штат (удаленка), который сможет построить несколько моделей, для продукта.

Backend на Azure, в качестве аналитических инструментах есть Snowflake. Бизнес проблемы уже сформулированы и осталось найти эксперта, кто сможет построить модель для решения поставленных задач.

Кандидат уже должен иметь возможность работать за пределами России или Беларуси.

Описание по ссылке: https://careers.softeq.com/jobs/5526008-senior-lead-ml-cv-engineer

Так же компании ищет экспертов по IOS и Android разработке.

В качестве referral указывайте Виктор Козуб.
🤷‍♂13❤‍🔥11👾3