Я провел недавно эксперимент на LinkedIn. У меня там несколько компаний зарегистрировано, в каждой можно создавать Jobs. Лишь подтверждение, что платформа вообще не подходит для поиска работы, будет только сжирать время и ресурсы. А для компаний еще и кучу бабла.
В Surfalytics я воспользовался free trial на 3 дня на позицию Junior Data Engineer в Канаде.
За первый час пришло 200 откликов, за первый день почти тысяча. Всего 1400 откликов на вакансию.
В Rock Your Data я опубликовал Data Analyst в США. Там уже за $. За 3 часа три это чудо скушало 200US$ и все кандидаты попали в “No Fit” по моим вопросам, то есть условно они для меня не релевантны.
В LinkedIn это работает как в Google Ads, по кликам мы платим.
LinkedIn это такой бесконечный поток кандидатов, которым вообще пофиг на что откликаться, описание они не читают. За пределами то же самое. Таким образом кандидаты портят жизнь и себе и другим, и компаниям. HR в это процессе тоже теряются, и в итоге упускают хороших кандидатов.
Для Северной Америки искать работы в LinkedIn (откликаться на вакансии) это пустая трата время. Другой вопрос, иметь сильный профайл, чтобы вам написал рекрутер. Лучше всего это прямо идти на сайт компании, а еще лучше найти референс. На сайт мы добавили еще мест и чатов, где искать работы https://dataengineer.ru/pages/career/
Я добавил скриншоты. Что показать пример кандидатов. Каждый 2-й и 1й это блогер, шмогер, сертифицированный эксперт, с огромным списком технологий, как будто их резюме находится в шапке LinkedIn профайла. Но если, посмотреть сам LinkedIn или резюме, то там вообще не релевантный опыт или его просто нет. Как мартышки налетели на вакансию, накликали, и полетели дальше засорять интернет.
Про требования к стране, опыту или еще чего, я вообще молчу. Все, у кого есть интернет в деревне в Африки и Индии и много свободного времени считают своим долгом откликнуться, авось повезет.
Я решил пообщаться с людьми. Например, пишу: “Привет, так и так рынок тяжелый, а у тебя резюме и Linkedin не совпадает, и вообще опыт не про дату и аналитику.”, а в ответ, что-то типа мы сами все знаем не надо учить, спасибо за подсказку, мы как-то сами справимся.
Одна дама поведала, что вот прошла Rust курс для Data Engineering, я ей говорю, зачем Rust, ведь надо dbt и Snowflake лучше. На что она мне сказала, что у нее нет время учить все в подряд. И вообще недавно она прошла курсы про Node, Angular и другим Front End вещам, а работает она пока бухгалтером.
Еще я попробовал сервис ZipRecruiter. Тоже на trial. За 2 дня было 6 окликов, тоже бесполезный.
Вывод простой - доступность знаний и hype из разряда работать из дома и получать 100500 тысяч делают свое дело. Качественных кандидатов мало на рынке, но им намного сложней пробиться и найти себе работу(ы).
В Surfalytics я воспользовался free trial на 3 дня на позицию Junior Data Engineer в Канаде.
За первый час пришло 200 откликов, за первый день почти тысяча. Всего 1400 откликов на вакансию.
В Rock Your Data я опубликовал Data Analyst в США. Там уже за $. За 3 часа три это чудо скушало 200US$ и все кандидаты попали в “No Fit” по моим вопросам, то есть условно они для меня не релевантны.
В LinkedIn это работает как в Google Ads, по кликам мы платим.
LinkedIn это такой бесконечный поток кандидатов, которым вообще пофиг на что откликаться, описание они не читают. За пределами то же самое. Таким образом кандидаты портят жизнь и себе и другим, и компаниям. HR в это процессе тоже теряются, и в итоге упускают хороших кандидатов.
Для Северной Америки искать работы в LinkedIn (откликаться на вакансии) это пустая трата время. Другой вопрос, иметь сильный профайл, чтобы вам написал рекрутер. Лучше всего это прямо идти на сайт компании, а еще лучше найти референс. На сайт мы добавили еще мест и чатов, где искать работы https://dataengineer.ru/pages/career/
Я добавил скриншоты. Что показать пример кандидатов. Каждый 2-й и 1й это блогер, шмогер, сертифицированный эксперт, с огромным списком технологий, как будто их резюме находится в шапке LinkedIn профайла. Но если, посмотреть сам LinkedIn или резюме, то там вообще не релевантный опыт или его просто нет. Как мартышки налетели на вакансию, накликали, и полетели дальше засорять интернет.
Про требования к стране, опыту или еще чего, я вообще молчу. Все, у кого есть интернет в деревне в Африки и Индии и много свободного времени считают своим долгом откликнуться, авось повезет.
Я решил пообщаться с людьми. Например, пишу: “Привет, так и так рынок тяжелый, а у тебя резюме и Linkedin не совпадает, и вообще опыт не про дату и аналитику.”, а в ответ, что-то типа мы сами все знаем не надо учить, спасибо за подсказку, мы как-то сами справимся.
Одна дама поведала, что вот прошла Rust курс для Data Engineering, я ей говорю, зачем Rust, ведь надо dbt и Snowflake лучше. На что она мне сказала, что у нее нет время учить все в подряд. И вообще недавно она прошла курсы про Node, Angular и другим Front End вещам, а работает она пока бухгалтером.
Еще я попробовал сервис ZipRecruiter. Тоже на trial. За 2 дня было 6 окликов, тоже бесполезный.
Вывод простой - доступность знаний и hype из разряда работать из дома и получать 100500 тысяч делают свое дело. Качественных кандидатов мало на рынке, но им намного сложней пробиться и найти себе работу(ы).
🙈75🫡30 13🤷♂8⚡6🐳1
Forwarded from Книжный куб (Alexander Polomodov)
Research Insights Made Simple #6 - Interview with Nikolay Golov about data platforms (Рубрика #Data)
И, продолжая тему систем хранения данных, я решил сегодня поделиться новым выпуском подкаста про инсайты. В этот раз ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает все о том как построить OLAP и OLTP системы, интенсивно работающие с данными. Выпуск доступен в виде подкаста на Ya Music и Podster.fm
За время подкаста мы обсудили темы
- Как развивалась карьера Коли в разных компаниях и как он стал преподавать базы данных параллельно с основной работой
- Как можно строить платформы данных (централизованно, гибридно и децентрализованно)
- Как выглядят принципы федерализации данных (аля data mesh) в теории
- Во что этот подход превращается на практике
- Как строить дата платформы в стартапах, средних, а также крупных компаниях в 2025 году
- Что не так с классическими базами данных (Postgres и иже с ним)
- Что не так с MPP базами данных (Vertica, Greenplum, ClickHouse, ...)
- Как data mesh превращается в data mash и как цепочки дата продуктов работают на практике
- Как выделять базовый домен данных, чтобы уменьшить длину цепочек дата продуктов
- Почему облачные аналитические базы так быстры: колоночное хранение + разделение storage и compute
- Что такое medalion architecture
- Куда дальше будут развиваться технологии обработки данных и почему нельзя полагаться на старые подходы и ограничения
Дополнительные материалы
- Статьи из периода работы в Avito "Vertica+Anchor Modeling = запусти рост своей грибницы"
- Статья из периода работы в Manychat: 1 и 2
- Запись "Data Modeling Meetup Munich: From Data Vault to Anchor Modeling with Nikolai Golov"
- Запись "DataVault / Anchor Modeling / Николай Голов"
- Научная статья "Golov N., Ronnback L., Big Data Normalization for Massively Parallel Processing Databases" //Computer Standards & Interfaces, 09-May-2017, https://doi.org/10.1016/j.csi.2017.01.009
- Научная статья "Golov N., Filatov A., Bruskin S.,Efficient Exact Algorithm for Count Distinct Problem", Computer Algebra in Scientific Computing, July 2019
#Data #Datamesh #Processes #Management #Architecture
И, продолжая тему систем хранения данных, я решил сегодня поделиться новым выпуском подкаста про инсайты. В этот раз ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает все о том как построить OLAP и OLTP системы, интенсивно работающие с данными. Выпуск доступен в виде подкаста на Ya Music и Podster.fm
За время подкаста мы обсудили темы
- Как развивалась карьера Коли в разных компаниях и как он стал преподавать базы данных параллельно с основной работой
- Как можно строить платформы данных (централизованно, гибридно и децентрализованно)
- Как выглядят принципы федерализации данных (аля data mesh) в теории
- Во что этот подход превращается на практике
- Как строить дата платформы в стартапах, средних, а также крупных компаниях в 2025 году
- Что не так с классическими базами данных (Postgres и иже с ним)
- Что не так с MPP базами данных (Vertica, Greenplum, ClickHouse, ...)
- Как data mesh превращается в data mash и как цепочки дата продуктов работают на практике
- Как выделять базовый домен данных, чтобы уменьшить длину цепочек дата продуктов
- Почему облачные аналитические базы так быстры: колоночное хранение + разделение storage и compute
- Что такое medalion architecture
- Куда дальше будут развиваться технологии обработки данных и почему нельзя полагаться на старые подходы и ограничения
Дополнительные материалы
- Статьи из периода работы в Avito "Vertica+Anchor Modeling = запусти рост своей грибницы"
- Статья из периода работы в Manychat: 1 и 2
- Запись "Data Modeling Meetup Munich: From Data Vault to Anchor Modeling with Nikolai Golov"
- Запись "DataVault / Anchor Modeling / Николай Голов"
- Научная статья "Golov N., Ronnback L., Big Data Normalization for Massively Parallel Processing Databases" //Computer Standards & Interfaces, 09-May-2017, https://doi.org/10.1016/j.csi.2017.01.009
- Научная статья "Golov N., Filatov A., Bruskin S.,Efficient Exact Algorithm for Count Distinct Problem", Computer Algebra in Scientific Computing, July 2019
#Data #Datamesh #Processes #Management #Architecture
YouTube
Research Insights Made Simple #6 - Interview with Nikolay Golov about data platforms
В этом выпуске подкаста про инсайты ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает…
❤🔥35⚡9🙉3 3
Модуль 2 курса Getting Started with Analytics and Data Engineering на английском готов:
Введение - по классике из центра Ванкувера.
Урок 1: что такое база данных и какие бывают.
Урок 2: подключаемся к базе данных и SQL (А тут где учить SQL https://dataengineer.ru/hard-skills/2023-06-04-sql.html)
Урок 3: модели данных
Урок 4: базы данных в облаках
Урок 5: про визуализацию запросов, как бы BI на минималках
Урок 6: NoSQL базы данных для нас (аналитиков и инженеров) и про MongoDB + hands on
Урок 7: топчик БД -DuckDB вместе с hands-on
Ссылка на модуль 1 https://t.me/rockyourdata/4739
Ссылка на модуль 0 https://t.me/rockyourdata/4553
Модуль 1 и 0 просто MUST HAVE!
И не забывает читать про карьеру успешную, особенно если вы вот только начинаете https://dataengineer.ru/pages/careertracks/
PS а тут наши проекты: https://github.com/surfalytics/data-projects почти каждую неделю делаем что-то новое
Введение - по классике из центра Ванкувера.
Урок 1: что такое база данных и какие бывают.
Урок 2: подключаемся к базе данных и SQL (А тут где учить SQL https://dataengineer.ru/hard-skills/2023-06-04-sql.html)
Урок 3: модели данных
Урок 4: базы данных в облаках
Урок 5: про визуализацию запросов, как бы BI на минималках
Урок 6: NoSQL базы данных для нас (аналитиков и инженеров) и про MongoDB + hands on
Урок 7: топчик БД -DuckDB вместе с hands-on
Ссылка на модуль 1 https://t.me/rockyourdata/4739
Ссылка на модуль 0 https://t.me/rockyourdata/4553
Модуль 1 и 0 просто MUST HAVE!
И не забывает читать про карьеру успешную, особенно если вы вот только начинаете https://dataengineer.ru/pages/careertracks/
PS а тут наши проекты: https://github.com/surfalytics/data-projects почти каждую неделю делаем что-то новое
Surfalytics
Introduction · Surfalytics
Surfalytics is your online launchpad into data analytics, offering a comprehensive, hands-on curriculum that focuses on the crucial 20% of knowledge that yields 80% of results, effectively preparing you for a rewarding career globally.
⚡53❤🔥27🫡9🍾2🦄1
Работают над проектом в Surfalytics, чтобы научить базовым вещам в CI/CD, DevOps для аналитиков и инженеров данных. Первая половина готова: https://github.com/surfalytics/data-projects/blob/main/dataops-projects/01_git_and_ci_cd/readme.md
Пока это совсем простой пример, где у нас даже нет Python, всего лишь SQL файлик + DuckDB и Docker контейнер.
План такой:
- все делаем на локальной машине
- все делаем внутри Docker
- добавляем локальную проверку с
- добавляем PR шаблон
- добавляем
- добавляем
- добавляем шаг CI через GitHub Actions - запуск
- добавляем шаг Integration test в CI. Будем сверять SQL результат, что наша логика не поменялась.
На этом закончится первая половина. На следующей неделе добавлю часть про CD, tags, Release, может быть попробую blue-green deployment.
В
- Data Analyst Role landing
- Data Engineer Role Landing
- Analytics Engineer Role Landing
- BI Engineer Role Landing
На большинство проектов, где я работал даже таких базовых вещей не было, поэтому классно разобраться в этом и на собеседования рассказывать или уже идти и внедрять к себе сразу.
Пока это совсем простой пример, где у нас даже нет Python, всего лишь SQL файлик + DuckDB и Docker контейнер.
План такой:
- все делаем на локальной машине
- все делаем внутри Docker
- добавляем локальную проверку с
Pre-commit (Yaml, SQLfmt)- добавляем PR шаблон
- добавляем
makefile- добавляем
.gitignore, .dockerignore- добавляем шаг CI через GitHub Actions - запуск
Pre-commit удаленно- добавляем шаг Integration test в CI. Будем сверять SQL результат, что наша логика не поменялась.
На этом закончится первая половина. На следующей неделе добавлю часть про CD, tags, Release, может быть попробую blue-green deployment.
В
readme все очень хорошо описано. Создаете новый GitHub репозиторий и погнали. Ну или к нам присоединяйтесь, тогда уже все вам на пальцах расскажут:- Data Analyst Role landing
- Data Engineer Role Landing
- Analytics Engineer Role Landing
- BI Engineer Role Landing
На большинство проектов, где я работал даже таких базовых вещей не было, поэтому классно разобраться в этом и на собеседования рассказывать или уже идти и внедрять к себе сразу.
GitHub
data-projects/dataops-projects/01_git_and_ci_cd/readme.md at main · surfalytics/data-projects
Surfalytics projces on Data Engineering and Analytics - surfalytics/data-projects
2❤🔥85⚡16🌚3🫡2
Дата все! Озвучили мысль, что данных больше нет для тренировки AI, и не предвидится. Синтетические не в счет.
🤷28 13🐳6❤🔥5🙈1
В продолжение прошлого поста:
Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.
Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.
Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.
Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут🔫
Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.
Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.
Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.
Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈21🫡6 4🌚1💘1
Databricks is Raising $10B Series J Investment at $62B Valuation - мощно!
Today’s announcement comes on the heels of Databricks’ recent momentum which includes:
Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year
Мне кажется сотрудники Databricks уже устали ждать IPO🏃♂️
Today’s announcement comes on the heels of Databricks’ recent momentum which includes:
Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year
Мне кажется сотрудники Databricks уже устали ждать IPO
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥11
Вот еще одна стратегия быть в +. Если Databricks реально создает Инновационный, надежный продукт, в котором есть все, что нужно для data engineering, machine learning, AI, data analytics, то Microstrategy просто скупает биткойны💪
MicroStrategy обанкротится только если астероид ударит по Земле.
За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.
Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.
Основываясь только на BTC, цена ликвидации составляет $16.5K.
Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)
MicroStrategy обанкротится только если астероид ударит по Земле.
За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.
Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.
Основываясь только на BTC, цена ликвидации составляет $16.5K.
Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)
Please open Telegram to view this post
VIEW IN TELEGRAM
💯25❤🔥3🙈2
Please open Telegram to view this post
VIEW IN TELEGRAM
💯50👨💻3🙈1
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
❤️🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.
Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten
Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.
Ниже привожу текст от Кристины:
«Дорогие все.
Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.
Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.
В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.
Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.
Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.
P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»
Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten
Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.
Ниже привожу текст от Кристины:
«Дорогие все.
Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.
Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.
В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.
Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.
Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.
P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»
Behance
The air we breathe
❤🔥18😭15🗿2🍾1
Наконец привел в порядок папочку, где были решения для домашнего задания с собеседований https://github.com/dimoobraznii1986/Assignments
Тут 3 проекты/задания
1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.
Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.
Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633
Тут 3 проекты/задания
1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.
Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.
Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633
GitHub
GitHub - dimoobraznii1986/Assignments
Contribute to dimoobraznii1986/Assignments development by creating an account on GitHub.
2❤🔥64💘2🍾1🎄1
Performance Optimization в Apache Spark это лес дремучий! Но оказывается есть супер видео, которое прям хорошо объясняет: https://youtu.be/daXEp4HmS-E?feature=shared
PS Спасибо Юре, который поделился в Surfalytics Discord.
PS Спасибо Юре, который поделился в Surfalytics Discord.
YouTube
Apache Spark Core—Deep Dive—Proper Optimization Daniel Tomes Databricks
Optimizing spark jobs through a true understanding of spark core. Learn: What is a partition? What is the difference between read/shuffle/write partitions? How to increase parallelism and decrease output files? Where does shuffle data go between stages? What…
❤🔥35🫡8💯5🍾3
Forwarded from Грокс
Стартап Databricks, который представляет собой аналитическую платформу на базе Apache Spark поднял $10 млрд при оценке в $62 млрд (около 25 годовых выручек), что стало крупнейшим венчурным раундом в истории. Кажется, новый пузырь созрел для того, чтобы начать о нём говорить.
https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/
https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/
🫡25⚡7🙈3🍾1
Как выглядит busy день инженера данных в рассвете сил:
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop
PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop
PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.
2👨💻50⚡21🍾9 7🗿4❤🔥3👾2🤷1
Forwarded from LEFT JOIN
Media is too big
VIEW IN TELEGRAM
Дмитрий Аношин про разницу между туризмом и иммиграцией, выгорание в Amazon и work-life balance
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.
И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.
Обсудили не только трудности.
🔵 Как сегодня переехать в Северную Америку и найти работу в IT?
🔵 Сколько платят дата-инженерам в Amazon?
🔵 Что нужно, чтобы стать востребованным специалистом и построить карьеру в IT на западе?
🔜 YouTube
🔜 VK
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.
И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.
Обсудили не только трудности.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥47 9🍾5🎄3⚡2
Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.
Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.
Вы можете самостоятельно все проделать.
Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd
Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project
Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro
Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE
Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.
Вы можете самостоятельно все проделать.
Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd
Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project
Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro
Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE
Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
❤🔥49⚡2🗿2
В продолжение прошлого поста - Why DataOps is a new DevOps.
YouTube
Pete DeJoy, Astronomer | Cloud AWS re:Invent Coverage
AT the Cloud AWS re:Invent, Coverage event John Furrier of theCUBE Research talks to Pete DeJoy, co-founder and SVP of product at Astronomer, as they discuss the evolving role of data infrastructure in generative AI and modern business operations. DeJoy shared…
🐳6🌚2
Вчера написал пост как можно быстро пофиксить резюме. Через меня достаточно много проходит резюме и мы коллективно докручиваем резюме, чтобы оно было Ок и с ним можно было уже откликаться.
В статье я указал основные моменты, на которые обращаем внимание. И оно обязательно к прочтению для всех кто планирует искать работу на рынке с высокой конкуренцией (США, Канада, Европа, Австралия и тп), где на каждую вакансию по 500-1000 откликов и рекруты тратят по 5-10 секунд на ваш профиль.
В РФ все проще, можно иметь профайл на HH, в котором есть SQL, Python, Airflow, Clickhosue/Greenplum и несколько лет опыта.
В статье я указал основные моменты, на которые обращаем внимание. И оно обязательно к прочтению для всех кто планирует искать работу на рынке с высокой конкуренцией (США, Канада, Европа, Австралия и тп), где на каждую вакансию по 500-1000 откликов и рекруты тратят по 5-10 секунд на ваш профиль.
В РФ все проще, можно иметь профайл на HH, в котором есть SQL, Python, Airflow, Clickhosue/Greenplum и несколько лет опыта.
Surfalytics
Check list for fixing your Data Resume
Expert Tips to Tailor Your Resume for Initial Screening Success
❤🔥36⚡14