Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Я заметил интересную особенность - рост аудитории телеграмм канала “Инжиниринг данных” или ютуб “datalearn” очень медленный. Сначала это расстраивало, но потом я понял это даже хорошо, так как тут меньше хайпа как с AI/ML. Тут реальные вещи и знания, которые решают конкретные задачи, ну и конкуренция на рынке меньше, так как все ломятся в data science🤗
Из канала slack data learn, который про SQL
Forwarded from Smart Data
Всем привет!

Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)

Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.

Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.

Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)

И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)

P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.
Сейчас многие хотят в штатах работать, может в 2027, все захотят в Китае быть, если они станут топ страной, хотя там уже будет все автоматизировано и роботизировано. Интересное выступление, не знаю насколько оно правидивое. А может к 2027 Россия встанет с колен, ну или точнее после 2036.
Импортозамещение? Open-source? Интересно зачем покупать Postgres Pro за 267млн рублей, наверно кто-то потом дачу новую построит себе и не одну. Сколько можно облачных сервисов гонять в облаке за эти деньги. Кто-нибудь знает, что это за pro?
Недавно я скидывал про анонс мероприятия от СЕО Microsoft про аналитику. Он презентовал Azure Synapse Analytics. Это облачное хранилище данных от Microsoft с интеграцией других продуктов Azure. Когда мы будем делать Redshift на Datalearn, сделаем synapse тоже.
Snowflake подарил книжку (я же data hero) - The rise of the data cloud.
Forwarded from TechSparks
В США случился новый и несколько неожиданный наезд на Facebook, который может коснуться и других технологических компаний -- и уж точно не останется без их внимания. Министерство юстиции объявило, что выдвигает обвинения против Фейсбука; компания виновна в том, что с 2018 года последовательно дискриминировала граждан Америки при найме, предпочитая им иммигрантов. Компания при этом помогала с получением временных рабочих виз.
"Our message to all employers -- including those in the technology sector -- is clear: you cannot illegally prefer to recruit, consider, or hire temporary visa holders over U.S. workers."
Интересно, насколько пострадает ФБ и как изменится практика глобального найма, которая не только для ФБ характерна

https://abcnews.go.com/Business/justice-department-alleges-facebook-discriminated-american-workers-lawsuit/story?id=74523040
Adobe’s experience platform data lake currently processing ~1 million batches per day, which equates roughly to 13TB of data and 32 billion events. Data management at scale brings unique challenges of data reliability, read reliability, and scalability. Adobe writes an excellent post with an overview of the data lake and the effective usage of Apache Iceberg to manages the data lake.
Сегодня можно будет посмотреть dbt101 на английском. Важный элемент экосистемы инженера данных, можно не использовать, но надо знать, что это такое.
The Future Job Report.pdf
10.6 MB
Отчет за октябрь по профессиям будущего. Data Engineer в списке, сразу после AI.🚀
Я немного изучаю Databricks. У них курсы бесплатные онлайн. Моя идея, эмигрировать все на databricks для gears. Сейчас у нас HDInsight+Hive, Azure Data Factory, SQL Server, SSIS. Я хочу все заменить на Databricks. Мне это даст возможность использовать данные стриминга (game telemetry) и легче интегрировать ML, иначе это будет зоопарк технологий. Конечно можно было все тоже самое сделать на Azure Synapse (облачное хранилище данных, можно сделать lakehouse), но я специально хочу Spark + Python. Чтобы я могу точно ответить чем DataBricks c Delta Lake отличается от Redshift и Snowflake.

Я уже писал, что у DataBricks все курсы онлайн бесплатно, вот интересный курс для всех - Just Enough Python for Apache Spark

PS если вы учитесь на инженера данных или вы инженер данных, то важно знать назначение всех технологий выше и разницу между, например, озером данных или хранилищем данных, а есть еще lake house. Все обязательно пройдем на datalearn.