Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Labubu и Vibe Coding

Недавно дочка загорелась монстриками Labubu. Это такие брелоки - стоят недорого, но достать их почти невозможно. Кто-то вешает их на дорогие сумки, кто-то кринжует по-другому.

Дочка захотела Labubu. Окей, подумал я, всего-то $30. Нашёл сайт, где их продают - https://www.popmart.com/ca, и понял, что там какие-то дропы: ограниченное количество игрушек.

Была надпись: старт продаж в 18:30. Я поставил будильник на 18:25. Зашёл на сайт и начал кликать. Сайт дико тормозил, и уже в 18:30 все игрушки были зарезервированы.

«Так значит?» - подумал я. У меня же есть Cursor. Сейчас как на вайбе закодю - мало не покажется.

Поставил себе задачу для плагина:
- Зайти на сайт
- Ровно в 18:30 нажать Shake the Box и добавить в корзину (ADD TO CART)

Решил начать с Google Chrome плагина. Я ведь уже купил один за $7 - не работает. Cursor быстро накатал мне плагин, который умел:
- запускаться по времени,
- добавлять в корзину,
- обновлять страницу,
- показывать логи.

Даже работал на простых товарах. Дети бегали в восторге и кричали: «Папа, хакер!»

Но с Labuba — это реальный high-load. Я решил масштабировать вкладки, и в итоге всё зависло. MacBook Pro с 32 GB оперативки пришлось перезагружать вручную — hard reset🪦

Спросил у ChatGPT, какие есть варианты на Python с headless-браузером.

Стал фигачить: сначала на Playwright, потом на Selenium. Нужно было логиниться, качать cookies. В итоге потратил часов восемь на всё это. Оно вроде как работало, но было сыровато и оставалось еще много недоделок.

Было очень интересно, настоящий deep work и поток. Но, увы, другие дела-то не делаются…

На следующий день, пока я собирался на новый заход, жена прислала фото с коробками Labubu. Нашла магазинчик, где они были в наличии. Так что… вы поняли, кто тут настоящий хакер.

Когда дочка принесла их в школу — был дикий ажиотаж. Ни у кого нет, а у неё аж три.

А у вас есть Labubu?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11269🙉25🦄75💯3🐳2🌚2
Игра симулятор про CDO, попробуйте, получилось прикольно https://www.whoisthebestcdo.com
👨‍💻1912🌚21
VC заинвестировали больше 73 лярдов в AI стартапы в 2025, и теперь кошечки прыгают в олимпийский бассейн как настоящие.

https://youtube.com/shorts/Z_hSnPzztpA
30🦄10
Forwarded from Trino и CedrusData
Всем привет! В следующий четверг 26 июня мы проведем очередной онлайн-митап по lakehouse технологиям. В программе два доклада:

Trino в Авито спустя два года: от движка к аналитической экосистеме, Дмитрий Рейман, Авито
Как Авито построил lakehouse-платформу на основе Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей

CedrusData Catalog — Современный каталог для lakehouse-платформ, Владимир Озеров, Кверифай Лабс
Архитектура и возможности CedrusData Catalog — бесплатного каталога Iceberg для российского рынка. Ролевая модель доступа, обслуживание таблиц Iceberg, time-travel, ускорение аналитических запросов.

Регистрация: https://cedrusdata.timepad.ru/event/3426242/
❤‍🔥1521💯1
Оказывается есть еще очень много компаний, которые используют Microsoft Reporting Service (SSRS).

SSRS (SQL Server Reporting Services) был создан Microsoft и впервые представлен как часть SQL Server 2000 в 2004 году (в составе SQL Server 2000 Reporting Services add-on, релиз - январь 2004). Основная цель - дать пользователям SQL Server инструмент для создания отчётов, который интегрируется с экосистемой Microsoft и конкурирует с Crystal Reports (в то время популярным решением).

И вот, на конференции sqlBits в июне Microsoft объявил о завершении поддержки SSRS. В новом SQL Server будет уже Power BI Report Server (PBIRS), который будет работать с ключом лицензии SSRS.

Но обещана поддержка до 2033 года. В любом случае, если вы используете софт в РФ, поддержка вам и не нужна.

С legacy-софтом я вижу только одну проблему - это, прежде всего, проблема специалистов. Быть экспертом в устаревших системах сужает карьерные возможности. Несмотря на то, что SSRS и другие решения всё ещё отлично работают, вам, как высококлассному специалисту, делать там особо нечего. Зато для бизнеса это отличный вариант: надёжный софт, проверенный десятилетием, легко найти специалистов, и платить им много не нужно.
83❤‍🔥2
Forwarded from Data Bar | О data-проектах (Alexander Varlamov)
Tableau Lego и невозможные визуализации.

В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эксперты могут посмотреть на любую работу и примерно рассказать как она сделана. В периметре Tableau существуют "невозможные визуализации" - такие, которые мало кто может повторить без мануала, и до их создания построение считалось невозможным. Обычно на скриншот с такой визуализацией говорят что "это сделано не в Табло".

Сегодня расскажу о своей визуализации Tableau Lego. Ей 5 лет, она стала классикой в своём сегменте, но не каждый Tableau эксперт понимает как она построена. Я консультировал несколько инженеров и сейлзов внутри компании Tableau по принципам её построения. То есть, инженеры, создающие продукт, хотели понять на что способен продукт, и что можно ещё создать. И внутри компании создают 3D проекты чтобы расширить понимание возможностей продукта.

Сама визуализация "Tableau Lego" - это эмулятор конструктора, где можно по шагам эмулировать сборку лего домика, а также смотреть на него под разными углами. Всё работает на чистой математике, без внешних модулей.

Когда-то для меня 3D в Tableau казалось космосом. Но надо было разобраться и добавить что-то своё. Месяца на 4 погружался в 3D, принципы, что было сделано и что можно сделать. Сверхсложного ничего нет - просто нужно время. Из своего - добавил работу с OBJ файлами - это сильно изменило картинку. До этого 3D модели описывались форматом стереолитографии, и полигоны делились на треугольники. С моим подходом можно работать с любым числом вершин в полигоне.

Самое сложное - создать датасет, остальное - дело техники. Визуализация - это набор полигонов с заданными координатами вершин и формулы проекции на плоскость плюс алгоритм сортировки полигонов. Максимально подробно всё описал в статье "3D модели в Tableau". Её до сих пор читают и делают 3D. Мы даже конкурс один раз проводили на индийском TUG с призами.

Мне нравится концепция Лего, когда из базовых кубиков создаёшь примитивные конструкции, а и из примитивных конструкций создаёшь сложные сооружения. Как в жизни.

После создания таких визуализаций мне посчасливилось сотрудничать с людьми из Pixar, они создавали ещё первую "Историю игрушек". Про это рассказывал в одном из постов.

Зачем всё это? В русскоязычном пространстве такой вопрос возникает часто, а в англоязычном - нет. В англоязычном комьюнити просят статьи, вебинары и объяснения. Мне просто интересно делать то, что считают невозможным. Это классно, когда ты ограничен инструментом (нет циклов, скриптов и т.п.), и приходится придумывать вычисления для реализации идеи.
В СНГ такие вещи никому не нужны, и это печально. А в англоязычном пространстве всегда ищут что-то необычное и тех кто это делает. В твиттере (благодаря таким работам) на мой профиль подписаны CEO Salesforce, CEO Tableau, CTO Twitter/Facebook (сейчас - Sierra AI) - это люди, определяющие куда пойдёт мировое IT. И им это надо.
❤‍🔥496💯32
Фан факт: я поступил в 2 вуза из топ-3 в этом списке, но учиться пошел в другие места.

Физтех всегда был для меня первым из всех технических вузов, а вот Иннополис удивил
❤‍🔥17💯65🤷3
Вот это я понимаю чувак курсы по SQL Server и dba рекламирует на фоне своего Porsche с hello kitty, мужик красавчик, я бы купил. А то у нас люкс только у бизнес коучей, рэперах и в телеграмм розыгрышах.
59❤‍🔥25💯12🐳4
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳15❤‍🔥3😈3🫡22🙈1
Свежий квадрант Gartner по BI системам. Как видите MicroStrategy все еще в нем, но уже Strategy, несмотря на их увлечение bitcoin.

Microsoft абсолютный лидер с Power BI и Fabric.

Следом Tableau и Looker, как проверенные временем надежные BI инструменты.

Sigma BI замыкает список с конца, мне очень нравится инструмент, но мы платим 50k $ в год только platform fee в одном стартапе👹 (быть в таком уважаемом квадранте не бесплатное удовольствие для вендора)

Не хватает тут Metabase и Superset, а зря.

Помню как раньше тут был отечественный Прогноз… кстати как он поживает?
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻139❤‍🔥1
Я выбирал курсы на лето для детей 10+ лет связанные с CS и AI.

Самый лучший вариант будет курс CS50 от Harvard на английском https://www.edx.org/cs50, там есть несколько курсов и все они хорошие, включая Python и AI.

Сегодня увидел в канале Минцифры пост про бесплатные курсы для школьников, обязательно воспользуйтесь!

Так же сегодня увидел цитату основателя антропика (claude) о том, что в 2026 году мы можем увидеть компанию единорог, в которой всего один основатель, а все остальное завязано на AI.

Хочу летом поближе детей познакомить с концептом vibe-coding и надеюсь они смогут закодить, что-нибудь прикольное. Думать абстракциями и давать инструкции (prompts) вместо написания кода намного веселей.

Что еще есть для детей по теме?
❤‍🔥31🦄13💯85👨‍💻1
Вот исправленный и грамматически выверенный вариант текста, с сохранением неформального и живого стиля:

😇


Попалась моя старая запись из Amazon, на которой был слайд про сообщества. Думаю, это примерно 2017 год.

Amazon - одна из лучших компаний, где мне доводилось работать. Там было много сообществ, и они реально работали.

Я сам руководил тремя из них:

BI Tech Talks - я унаследовал это сообщество от другого инженера, который стал SDM-менеджером. В нём было больше 90 BI/DE-команд со всего мира. Я старался проводить вебинары, на которых команды делились опытом, а иногда приглашал титулованных спикеров из LinkedIn. Amazon открывал все двери.

Subsidiary BI Collaboration - сообщество, в которое входили IMDb, Whole Foods (я помогал им с онбордингом в дата-инфраструктуру Amazon после поглощения — у них была Teradata), Amazon Robotics, AbeBooks, Zappos и т.д. Все очень крутые компании со своей уникальной культурой. Я несколько раз выступал на Subsidiary Summits.

Amazon Tableau User Group - тоже досталась мне от крутого чувака из Amazon (до сих пор с ним на связи). Когда я уходил, у нас было уже 2500+ пользователей. Я часто приглашал Tableau Zen Masters делать онлайн-доклады для нас.

Заметьте, в 2016-2017 году в ходу было слово BI. Data Engineering и Analytics практически не использовались в обиходе.

Сумарно меня знало больше 7т человек в Амазон, все кто работал с данными, что давало мне нереальное преимущество по смене команд внутри Амазона. Даже когда перешел в Майкрософт, меня там уже знали, некоторые инженеры.

Я попытался сделать тоже самое в Майкрософт, но это оказалось совершенно не рабочим вариантом. Майкрософт вообще очень плохо функционирует в плане сообществ и взаимодействия с другими командами, если вы не работаете над одним проектом.
28❤‍🔥11🐳8🌚2
В Чикагском Культорном центре, есть зал - Preston Bradley Hall с куполом из витражей Tiffany - крупнейшим в мире стеклянным куполом ручной работы.

Под куполом цитата:

Books are the legacies that a great genius leaves to mankind, which are delivered down from generation to generation as presents to posterity.”

«Книги — это наследие, которое великий гений оставляет человечеству и которое передаётся из поколения в поколение как дар потомкам.»


Несмотря на обилие контента, видео, аудио, книги все еще являются самым лучшим способом, чтобы делиться информацией, учиться, ну и оставлять дар потомкам.
❤‍🔥79
В статье I Don’t Want My Career to DIE (So should I consider myself a Data Intelligence Engineer)? автор рассуждает про важную тему - будущее профессии инженера данных.

Очевидно, что AI меняет подход к работе, но есть много НО. По умолчанию GenAI повышает продуктивность (генерация кода, документации и тп), но он несет в себе риски, так как уже много раз было новости про косяки в безопасности, про утечку персональных данных и пароли в открытом доступе.

Изначально мы все радовались (радуемся) vibe coding, но часто под этим подразумевается бездумная генерация кода по принципу %як-%як и продакшн. Поэтому автор предлагает другой термин - "Augmented coding” - то есть используем GenAI только как помощника, при этом инженер отвечает за безопасность, устойчивость и качество решений.

Другой concern (проблема) у автора, что бездумная генерация кода убивает развитие навыков и приводит к некачественным системам.

Таким образом появляется новый термин Data Intelligence Engineer (AI-Augmented Data Engineer), это дата инженер, который владеет AI инструментами, понимает System Design, архитектуру и безопасность, знает и умеет, как культивировать культуру качества в дата командах.

В целом для традиционного road map для дата инженера теперь нужно дорисовать еще одну ветку про GenAI.
❤‍🔥31💯114
В последнем выпуске подкаста All-In подняли интересную тему связанную с обучением. Как известно в США самое дорогое (и возможно престижное) образование. Оно дорогое не только для иностранных студентов, но и для местных. У университетов есть рейтинг, чем круче университет, тем дороже. Вроде бы все логично.

Но что происходит последние годы?

Цитата из подкаста:

«Потому что обещание, которое мы дали в Америке — это Американская мечта: если ты поступишь в колледж, ты выпустишься, будешь зарабатывать, у тебя будет стабильность, ты сможешь купить дом.»


Я думаю сейчас это относится не только к образованию в США, но и во всем мире. Известный факт, что большинство выпускников в США выпускаются с огромным долгом, так называемый студенческий кредит. У меня много коллег все еще его выплачивают.

«Люди могли поступить в университет, и выпуститься с долгом в 200–300 тысяч долларов, а потом никогда не получить работу. Этот парень никогда не имел настоящей работы. И это правда для 32 миллионов молодых американцев.»

«У всех у них так называемый “отрицательный капитал”. У них есть долги, и они никогда не смогут выбраться из этого круга.»

Получается, что в большинстве случаев высшее образование вам ничего не гарантирует, кроме огромных долгов. А есть еще программы переквалификации, магистратуры, MBA - все это стоит очень дорого.

Например, ко мне на Surfalytics иногда залетают ребята с топового канадского MBA, но у них совершенно нет скилов для поиска работы, да и скилов, чтобы эту работу делать. Они потратили огромный капитал на образование, жилье, и на выходе у них есть строчка в резюме и профессиональная портретная фотка, которую всем делает в университете. Им обязательно проведут курсы по составлению резюме и поиску работу. Обычно это делают люди, которые сами никогда работу не искали.

Таким образом получается, что высшее образование необходимо, оно дорогое, но совершенно ничего не гарантируют. В каждый конкретный момент, есть рабочие варианты, например, сейчас студенты Computer Science еще могут рассчитывать на стажировку в BigTech компаниях и последующее трудоустройство. А как будет через 5-10 лет?
🙈4314😭9❤‍🔥21
Летом у меня было собеседование в Zapier, я сделал скриншот с их оргструкторой. Я уже откликнулся в конце процесса, поэтому быстро получил отказ.

В качестве платформы данных они используют Databricks. На картинке видно структуры дата комманд.

Согласно Гуглу у них около 1000 сотрудников.
🍌21👨‍💻11🙉94💯3❤‍🔥1
Если у вы используете GitHub, то вы можете добавить Copilot, и он будет писать свой PR description и рассказывать какие файлы поменялись.

Так же можно использовать copilot, чтобы он за вас писал описание PR

Есть и другие способы интегрировать LLMs в ваш code review процесс. Можно использовать свой бот, можно использовать готовые решения от AWS, Anthropic и тд.

При желании можно даже разрешить агентам редактировать код за вас, но тогда уже не найти концов. Такое мы в проде нигде не используем.

Как у вас проходит code review?
❤‍🔥103💯1