Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Дата все! Озвучили мысль, что данных больше нет для тренировки AI, и не предвидится. Синтетические не в счет.
🤷2813🐳6❤‍🔥5🙈1
В продолжение прошлого поста:

Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.

Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.


Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.

Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут🔫
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈21🫡64🌚1💘1
Databricks is Raising $10B Series J Investment at $62B Valuation - мощно!

Today’s announcement comes on the heels of Databricks’ recent momentum which includes:

Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year



Мне кажется сотрудники Databricks уже устали ждать IPO🏃‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11
Вот еще одна стратегия быть в +. Если Databricks реально создает Инновационный, надежный продукт, в котором есть все, что нужно для data engineering, machine learning, AI, data analytics, то Microstrategy просто скупает биткойны💪


MicroStrategy обанкротится только если астероид ударит по Земле.

За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.

Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.

Основываясь только на BTC, цена ликвидации составляет $16.5K.


Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)
Please open Telegram to view this post
VIEW IN TELEGRAM
💯25❤‍🔥3🙈2
Clickhouse strong💪
Please open Telegram to view this post
VIEW IN TELEGRAM
💯50👨‍💻3🙈1
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
❤️‍🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.

Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten

Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.

Ниже привожу текст от Кристины:

«Дорогие все.

Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.

Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.

В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.

Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.

Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.

P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»
❤‍🔥18😭15🗿2🍾1
Наконец привел в порядок папочку, где были решения для домашнего задания с собеседований https://github.com/dimoobraznii1986/Assignments

Тут 3 проекты/задания

1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.

Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.

Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633
2❤‍🔥64💘2🍾1🎄1
Performance Optimization в Apache Spark это лес дремучий! Но оказывается есть супер видео, которое прям хорошо объясняет: https://youtu.be/daXEp4HmS-E?feature=shared

PS Спасибо Юре, который поделился в Surfalytics Discord.
❤‍🔥35🫡8💯5🍾3
Forwarded from Грокс
Стартап Databricks, который представляет собой аналитическую платформу на базе Apache Spark поднял $10 млрд при оценке в $62 млрд (около 25 годовых выручек), что стало крупнейшим венчурным раундом в истории. Кажется, новый пузырь созрел для того, чтобы начать о нём говорить.

https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/
🫡257🙈3🍾1
Как выглядит busy день инженера данных в рассвете сил:
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop

PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.
2👨‍💻5021🍾97🗿4❤‍🔥3👾2🤷1
Forwarded from LEFT JOIN
Media is too big
VIEW IN TELEGRAM
Дмитрий Аношин про разницу между туризмом и иммиграцией, выгорание в Amazon и work-life balance
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.

И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.

Обсудили не только трудности.

🔵 Как сегодня переехать в Северную Америку и найти работу в IT?
🔵 Сколько платят дата-инженерам в Amazon?
🔵 Что нужно, чтобы стать востребованным специалистом и построить карьеру в IT на западе?

🔜 YouTube
🔜 VK
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥479🍾5🎄32
Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.

Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.

Вы можете самостоятельно все проделать.

Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd

Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project

Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro


Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE

Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
❤‍🔥492🗿2
Вчера написал пост как можно быстро пофиксить резюме. Через меня достаточно много проходит резюме и мы коллективно докручиваем резюме, чтобы оно было Ок и с ним можно было уже откликаться.

В статье я указал основные моменты, на которые обращаем внимание. И оно обязательно к прочтению для всех кто планирует искать работу на рынке с высокой конкуренцией (США, Канада, Европа, Австралия и тп), где на каждую вакансию по 500-1000 откликов и рекруты тратят по 5-10 секунд на ваш профиль.

В РФ все проще, можно иметь профайл на HH, в котором есть SQL, Python, Airflow, Clickhosue/Greenplum и несколько лет опыта.
❤‍🔥3614
Как ML помогает ритейлу

В продуктовом ритейле автоматизировано множество процессов, и даже у банки сгущенки есть свой цифровой след. О том, как торговые сети прогнозируют предпраздничный ажиотаж, оптимизируют HR-процессы и принимают решения о внедрении ИИ, в подкасте «Деньги любят техно» рассказали директор по управлению данными X5 Tech Тигран Саркисов и директор по развитию искусственного интеллекта Х5 Tech Михаил Неверов.

Ведущий эпизода, начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев, обсудил с гостями подходы к построению команд и процессов, роли дата-инженеров и дальнейшие перспективы развития сервисов с ИИ, актуальных для ритейла.

В предновогоднем выпуске также подвели итоги года в Data Science и попробовали заглянуть в будущее.

Рекомендуем посмотреть эпизод или послушать его в аудиоверсии.
2
Сервис Cleve AI сделали прикольную штуку - мы даем ей ссылку на LinkedIn, а она нам создает summary за целый год.

Мне кажется я постил в этом году больше чем нас 5 лет в сумме, но когда увидел сколько другие постят (1000-1500) постов в год, понимаю, что я еще noob.

Из 3х самых популярных постов 2 было про семью и детей.

Мне кажется сейчас все стали блогерами и генерят контент и ценность LinkedIn очень сильно размывается.

Если я задам себе вопрос, чтобы изменилось, если бы не было LinkedIn? Мне кажется ничего, работу я искал через сайты для поиска работы, нетворкинг там что есть, что нет. Но альтернативы для “профессиональной” сети нет.
💯426