Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Игра симулятор про CDO, попробуйте, получилось прикольно https://www.whoisthebestcdo.com
👨‍💻1912🌚21
VC заинвестировали больше 73 лярдов в AI стартапы в 2025, и теперь кошечки прыгают в олимпийский бассейн как настоящие.

https://youtube.com/shorts/Z_hSnPzztpA
30🦄10
Forwarded from Trino и CedrusData
Всем привет! В следующий четверг 26 июня мы проведем очередной онлайн-митап по lakehouse технологиям. В программе два доклада:

Trino в Авито спустя два года: от движка к аналитической экосистеме, Дмитрий Рейман, Авито
Как Авито построил lakehouse-платформу на основе Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей

CedrusData Catalog — Современный каталог для lakehouse-платформ, Владимир Озеров, Кверифай Лабс
Архитектура и возможности CedrusData Catalog — бесплатного каталога Iceberg для российского рынка. Ролевая модель доступа, обслуживание таблиц Iceberg, time-travel, ускорение аналитических запросов.

Регистрация: https://cedrusdata.timepad.ru/event/3426242/
❤‍🔥1521💯1
Оказывается есть еще очень много компаний, которые используют Microsoft Reporting Service (SSRS).

SSRS (SQL Server Reporting Services) был создан Microsoft и впервые представлен как часть SQL Server 2000 в 2004 году (в составе SQL Server 2000 Reporting Services add-on, релиз - январь 2004). Основная цель - дать пользователям SQL Server инструмент для создания отчётов, который интегрируется с экосистемой Microsoft и конкурирует с Crystal Reports (в то время популярным решением).

И вот, на конференции sqlBits в июне Microsoft объявил о завершении поддержки SSRS. В новом SQL Server будет уже Power BI Report Server (PBIRS), который будет работать с ключом лицензии SSRS.

Но обещана поддержка до 2033 года. В любом случае, если вы используете софт в РФ, поддержка вам и не нужна.

С legacy-софтом я вижу только одну проблему - это, прежде всего, проблема специалистов. Быть экспертом в устаревших системах сужает карьерные возможности. Несмотря на то, что SSRS и другие решения всё ещё отлично работают, вам, как высококлассному специалисту, делать там особо нечего. Зато для бизнеса это отличный вариант: надёжный софт, проверенный десятилетием, легко найти специалистов, и платить им много не нужно.
83❤‍🔥2
Forwarded from Data Bar | О data-проектах (Alexander Varlamov)
Tableau Lego и невозможные визуализации.

В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эксперты могут посмотреть на любую работу и примерно рассказать как она сделана. В периметре Tableau существуют "невозможные визуализации" - такие, которые мало кто может повторить без мануала, и до их создания построение считалось невозможным. Обычно на скриншот с такой визуализацией говорят что "это сделано не в Табло".

Сегодня расскажу о своей визуализации Tableau Lego. Ей 5 лет, она стала классикой в своём сегменте, но не каждый Tableau эксперт понимает как она построена. Я консультировал несколько инженеров и сейлзов внутри компании Tableau по принципам её построения. То есть, инженеры, создающие продукт, хотели понять на что способен продукт, и что можно ещё создать. И внутри компании создают 3D проекты чтобы расширить понимание возможностей продукта.

Сама визуализация "Tableau Lego" - это эмулятор конструктора, где можно по шагам эмулировать сборку лего домика, а также смотреть на него под разными углами. Всё работает на чистой математике, без внешних модулей.

Когда-то для меня 3D в Tableau казалось космосом. Но надо было разобраться и добавить что-то своё. Месяца на 4 погружался в 3D, принципы, что было сделано и что можно сделать. Сверхсложного ничего нет - просто нужно время. Из своего - добавил работу с OBJ файлами - это сильно изменило картинку. До этого 3D модели описывались форматом стереолитографии, и полигоны делились на треугольники. С моим подходом можно работать с любым числом вершин в полигоне.

Самое сложное - создать датасет, остальное - дело техники. Визуализация - это набор полигонов с заданными координатами вершин и формулы проекции на плоскость плюс алгоритм сортировки полигонов. Максимально подробно всё описал в статье "3D модели в Tableau". Её до сих пор читают и делают 3D. Мы даже конкурс один раз проводили на индийском TUG с призами.

Мне нравится концепция Лего, когда из базовых кубиков создаёшь примитивные конструкции, а и из примитивных конструкций создаёшь сложные сооружения. Как в жизни.

После создания таких визуализаций мне посчасливилось сотрудничать с людьми из Pixar, они создавали ещё первую "Историю игрушек". Про это рассказывал в одном из постов.

Зачем всё это? В русскоязычном пространстве такой вопрос возникает часто, а в англоязычном - нет. В англоязычном комьюнити просят статьи, вебинары и объяснения. Мне просто интересно делать то, что считают невозможным. Это классно, когда ты ограничен инструментом (нет циклов, скриптов и т.п.), и приходится придумывать вычисления для реализации идеи.
В СНГ такие вещи никому не нужны, и это печально. А в англоязычном пространстве всегда ищут что-то необычное и тех кто это делает. В твиттере (благодаря таким работам) на мой профиль подписаны CEO Salesforce, CEO Tableau, CTO Twitter/Facebook (сейчас - Sierra AI) - это люди, определяющие куда пойдёт мировое IT. И им это надо.
❤‍🔥496💯32
Фан факт: я поступил в 2 вуза из топ-3 в этом списке, но учиться пошел в другие места.

Физтех всегда был для меня первым из всех технических вузов, а вот Иннополис удивил
❤‍🔥17💯65🤷3
Вот это я понимаю чувак курсы по SQL Server и dba рекламирует на фоне своего Porsche с hello kitty, мужик красавчик, я бы купил. А то у нас люкс только у бизнес коучей, рэперах и в телеграмм розыгрышах.
59❤‍🔥25💯12🐳4
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳15❤‍🔥3😈3🫡22🙈1
Свежий квадрант Gartner по BI системам. Как видите MicroStrategy все еще в нем, но уже Strategy, несмотря на их увлечение bitcoin.

Microsoft абсолютный лидер с Power BI и Fabric.

Следом Tableau и Looker, как проверенные временем надежные BI инструменты.

Sigma BI замыкает список с конца, мне очень нравится инструмент, но мы платим 50k $ в год только platform fee в одном стартапе👹 (быть в таком уважаемом квадранте не бесплатное удовольствие для вендора)

Не хватает тут Metabase и Superset, а зря.

Помню как раньше тут был отечественный Прогноз… кстати как он поживает?
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻139❤‍🔥1
Я выбирал курсы на лето для детей 10+ лет связанные с CS и AI.

Самый лучший вариант будет курс CS50 от Harvard на английском https://www.edx.org/cs50, там есть несколько курсов и все они хорошие, включая Python и AI.

Сегодня увидел в канале Минцифры пост про бесплатные курсы для школьников, обязательно воспользуйтесь!

Так же сегодня увидел цитату основателя антропика (claude) о том, что в 2026 году мы можем увидеть компанию единорог, в которой всего один основатель, а все остальное завязано на AI.

Хочу летом поближе детей познакомить с концептом vibe-coding и надеюсь они смогут закодить, что-нибудь прикольное. Думать абстракциями и давать инструкции (prompts) вместо написания кода намного веселей.

Что еще есть для детей по теме?
❤‍🔥31🦄13💯85👨‍💻1
Вот исправленный и грамматически выверенный вариант текста, с сохранением неформального и живого стиля:

😇


Попалась моя старая запись из Amazon, на которой был слайд про сообщества. Думаю, это примерно 2017 год.

Amazon - одна из лучших компаний, где мне доводилось работать. Там было много сообществ, и они реально работали.

Я сам руководил тремя из них:

BI Tech Talks - я унаследовал это сообщество от другого инженера, который стал SDM-менеджером. В нём было больше 90 BI/DE-команд со всего мира. Я старался проводить вебинары, на которых команды делились опытом, а иногда приглашал титулованных спикеров из LinkedIn. Amazon открывал все двери.

Subsidiary BI Collaboration - сообщество, в которое входили IMDb, Whole Foods (я помогал им с онбордингом в дата-инфраструктуру Amazon после поглощения — у них была Teradata), Amazon Robotics, AbeBooks, Zappos и т.д. Все очень крутые компании со своей уникальной культурой. Я несколько раз выступал на Subsidiary Summits.

Amazon Tableau User Group - тоже досталась мне от крутого чувака из Amazon (до сих пор с ним на связи). Когда я уходил, у нас было уже 2500+ пользователей. Я часто приглашал Tableau Zen Masters делать онлайн-доклады для нас.

Заметьте, в 2016-2017 году в ходу было слово BI. Data Engineering и Analytics практически не использовались в обиходе.

Сумарно меня знало больше 7т человек в Амазон, все кто работал с данными, что давало мне нереальное преимущество по смене команд внутри Амазона. Даже когда перешел в Майкрософт, меня там уже знали, некоторые инженеры.

Я попытался сделать тоже самое в Майкрософт, но это оказалось совершенно не рабочим вариантом. Майкрософт вообще очень плохо функционирует в плане сообществ и взаимодействия с другими командами, если вы не работаете над одним проектом.
28❤‍🔥11🐳8🌚2
В Чикагском Культорном центре, есть зал - Preston Bradley Hall с куполом из витражей Tiffany - крупнейшим в мире стеклянным куполом ручной работы.

Под куполом цитата:

Books are the legacies that a great genius leaves to mankind, which are delivered down from generation to generation as presents to posterity.”

«Книги — это наследие, которое великий гений оставляет человечеству и которое передаётся из поколения в поколение как дар потомкам.»


Несмотря на обилие контента, видео, аудио, книги все еще являются самым лучшим способом, чтобы делиться информацией, учиться, ну и оставлять дар потомкам.
❤‍🔥79
В статье I Don’t Want My Career to DIE (So should I consider myself a Data Intelligence Engineer)? автор рассуждает про важную тему - будущее профессии инженера данных.

Очевидно, что AI меняет подход к работе, но есть много НО. По умолчанию GenAI повышает продуктивность (генерация кода, документации и тп), но он несет в себе риски, так как уже много раз было новости про косяки в безопасности, про утечку персональных данных и пароли в открытом доступе.

Изначально мы все радовались (радуемся) vibe coding, но часто под этим подразумевается бездумная генерация кода по принципу %як-%як и продакшн. Поэтому автор предлагает другой термин - "Augmented coding” - то есть используем GenAI только как помощника, при этом инженер отвечает за безопасность, устойчивость и качество решений.

Другой concern (проблема) у автора, что бездумная генерация кода убивает развитие навыков и приводит к некачественным системам.

Таким образом появляется новый термин Data Intelligence Engineer (AI-Augmented Data Engineer), это дата инженер, который владеет AI инструментами, понимает System Design, архитектуру и безопасность, знает и умеет, как культивировать культуру качества в дата командах.

В целом для традиционного road map для дата инженера теперь нужно дорисовать еще одну ветку про GenAI.
❤‍🔥31💯114
В последнем выпуске подкаста All-In подняли интересную тему связанную с обучением. Как известно в США самое дорогое (и возможно престижное) образование. Оно дорогое не только для иностранных студентов, но и для местных. У университетов есть рейтинг, чем круче университет, тем дороже. Вроде бы все логично.

Но что происходит последние годы?

Цитата из подкаста:

«Потому что обещание, которое мы дали в Америке — это Американская мечта: если ты поступишь в колледж, ты выпустишься, будешь зарабатывать, у тебя будет стабильность, ты сможешь купить дом.»


Я думаю сейчас это относится не только к образованию в США, но и во всем мире. Известный факт, что большинство выпускников в США выпускаются с огромным долгом, так называемый студенческий кредит. У меня много коллег все еще его выплачивают.

«Люди могли поступить в университет, и выпуститься с долгом в 200–300 тысяч долларов, а потом никогда не получить работу. Этот парень никогда не имел настоящей работы. И это правда для 32 миллионов молодых американцев.»

«У всех у них так называемый “отрицательный капитал”. У них есть долги, и они никогда не смогут выбраться из этого круга.»

Получается, что в большинстве случаев высшее образование вам ничего не гарантирует, кроме огромных долгов. А есть еще программы переквалификации, магистратуры, MBA - все это стоит очень дорого.

Например, ко мне на Surfalytics иногда залетают ребята с топового канадского MBA, но у них совершенно нет скилов для поиска работы, да и скилов, чтобы эту работу делать. Они потратили огромный капитал на образование, жилье, и на выходе у них есть строчка в резюме и профессиональная портретная фотка, которую всем делает в университете. Им обязательно проведут курсы по составлению резюме и поиску работу. Обычно это делают люди, которые сами никогда работу не искали.

Таким образом получается, что высшее образование необходимо, оно дорогое, но совершенно ничего не гарантируют. В каждый конкретный момент, есть рабочие варианты, например, сейчас студенты Computer Science еще могут рассчитывать на стажировку в BigTech компаниях и последующее трудоустройство. А как будет через 5-10 лет?
🙈4314😭9❤‍🔥21
Летом у меня было собеседование в Zapier, я сделал скриншот с их оргструкторой. Я уже откликнулся в конце процесса, поэтому быстро получил отказ.

В качестве платформы данных они используют Databricks. На картинке видно структуры дата комманд.

Согласно Гуглу у них около 1000 сотрудников.
🍌21👨‍💻11🙉94💯3❤‍🔥1
Если у вы используете GitHub, то вы можете добавить Copilot, и он будет писать свой PR description и рассказывать какие файлы поменялись.

Так же можно использовать copilot, чтобы он за вас писал описание PR

Есть и другие способы интегрировать LLMs в ваш code review процесс. Можно использовать свой бот, можно использовать готовые решения от AWS, Anthropic и тд.

При желании можно даже разрешить агентам редактировать код за вас, но тогда уже не найти концов. Такое мы в проде нигде не используем.

Как у вас проходит code review?
❤‍🔥103💯1
Как построить data-driven культуру, а не просто BI, в который никто не заходит?

🟣В прошлом посте я писала:
данные ≠ актив, если вы с ними ничего не делаете.

Но чтобы начали делать, нужна не просто BI-система.
Нужна культура.
И как и всё важное в бизнесе, она начинается с головы.

Я вообще выросла в аналитической среде.
Когда я начинала карьеру в консалтинге, ни Big Data, ни ChatGPT ещё не было,
но мышление
«данные → вывод → решение»
у нас тренировали так, как будто от этого зависела судьба миллионов (и иногда — правда зависела).

🟣Этот майндсет остался со мной до сих пор.
И я вижу: чем дальше, тем чаще компании говорят, что они аналитичные,
но при этом продолжают принимать решения на летучках в духе «ну по ощущениям».

А BI-системы — просто красивые панели, на которые никто не заходит.

Вот 5 элементов, которые реально помогают построить культуру решений на данных.

1️⃣ Всё начинается с фаундера и C-Level:
Если CEO говорит «я чувствую, что надо пушить эту фичу» и не дает задачу проверить гипотезу — всё, приехали.

Команда будет делать то же самое.

Data-driven культура начинается с того, что лидер принимает решения на данных.
✸ Он задаёт вопросы.
✸ Просит цифры.
✸ Не ведёт обсуждения в стиле «мне кажется».

2️⃣ Без инструментария — ничего не взлетит:
Не надо думать, что культура вырастет на энтузиазме.
Если у людей нет доступных и понятных дешбордов —
никакая data-driven культура не сложится.

Метрики должны быть:
✸ Привязаны к бизнес-целям
✸ Регулярно обновляемы
✸ С возможностью копать вглубь, а не просто «доход-расход»

Иначе всё закончится в Excel на 17 вкладок у одного аналитика.

3️⃣ Люди должны понимать, что их перформанс считают по данным:
Не метафорически, а буквально.

✸ Если в компании бонус зависит от бизнес-результатов —
значит, сотрудник должен видеть свои метрики.
✸ Если продуктовая команда оценивается по росту retention — она должна уметь его мерить, а не угадывать.

Когда оценка и рост человека связаны с метриками —
у него появляется привычка на них смотреть.

4️⃣ Нормализуйте «сначала смотрим → потом решаем»:
Я обожаю команды, в которых принято начинать обсуждение с цифр.
Прямо нормализовать это:

✸ Хотите запустить фичу? Где данные?
✸ Хочешь отключить воронку? Что на неё влияет?
✸ Думаешь, надо пушить что-то в маркетинге? Где проверка гипотез?

Это становится привычкой.
А привычка → поведение → культура.

5️⃣ Культуру нужно растить через обучение:
Если вы строите команду посильнее или у вас уже есть масштаб, то работа с данными = отдельная компетенция.

🟣 Что можно делать:
✸ Обучение по интерпретации ключевых метрик
✸ Мини-тренинги по юнитке, ретеншну, воронкам
✸ Кейсы «что сказали данные и к чему это привело»
✸ Отправлять на курсы или собирать внутренний чек-лист

Если компания маленькая — то хотя бы:
✸ Привычка делиться аналитикой
✸ 1 инсайт недели в чат
✸ Простые дешборды для всей команды

🟣 Пример
Плохой сценарий:
✸ «У нас упала конверсия с лендинга!!!»
✸«Паника!!!»

Хороший:
✸ «Конверсия упала, но трафик вырос в 2 раза, потому что залили TikTok с нерелевантной аудиторией. А CTR по email — остался стабильным».

Это и есть мышление на данных.
Контекст, динамика, гипотеза, вывод.

В итоге, data-driven культура — это про то, чтобы каждый в команде реально начал думать через данные, а не через «мне кажется» или «ну, так всегда делали».
Чтобы цифры стали не страшным отчётом, а привычкой — первым делом смотреть на них, задавать вопросы и искать ответы.

А как часто вы в команде обращаетесь к данным и стараетесь ли вы формировать привычку в команде? Пишите в комментариях 🚀.

#Data_driven
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥41💯144