Инжиниринг Данных – Telegram

Инжиниринг Данных

23.9K subscribers

2.17K photos

63 videos

194 files

3.3K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.9K subscribers

Инжиниринг Данных

Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)

Лёгкое субботнее чтение.

Лёша Долотов, долгое время бывший главным аналитиком Яндекса, написал статью о своём пути внутри компании и даёт важные советы тем, кто принимает решения на основе данных.

https://habr.com/ru/company/yandex/blog/447822/

@internetanalytics

Почти уволен. Как я построил отдел аналитики Яндекса

Меня зовут Алексей Долотов, я 10 лет не писал на Хабр. Отчасти дело в том, что когда мне было 22 года, я начал строить отдел аналитики Яндекса, затем семь лет им руководил, а теперь придумал и строю...

103 views15:59

Инжиниринг Данных

Вы уже знаете, Snowflake это облачное хранилище данных нового поколения, очень популярное в Штатах и Европе. На него даже мигрируют с Redshift. Он доступен на Azure и AWS. Вот ближайший вебинар https://www.snowflake.com/webinar/snowflake-on-azure-modern-data-analytics-apac/

Snowflake on Azure: Modern Data Analytics | Snowflake

The need to store, transform, analyze and share data is growing exponentially, with demand for Azure-based data analytics and data warehouse solutions

1.1K views16:47

Инжиниринг Данных

А вот серия вебинаров по Tableua про Dashboards https://www.tableau.com/learn/series/dashboards

864 views16:48

Инжиниринг Данных

https://www.snowflake.com/ultimate-sql-challenge/

The Ultimate SQL Challenge

Do you have what it takes to become a real-life SQL Slayer?! Challenge your inner SQL genius by answering a series of short multiple-choice questions. Make it past the second level to win a SQL Slayer t-shirt and a chance to be one of three winners to receive…

976 views03:55

Инжиниринг Данных

Новый whitepaper - Инструкция для Машинного Обучения. Ничего нового, красивый документ и introduction to ML.

734 views18:39

Инжиниринг Данных

Прошел Google Next. Google серьезно инвестирует в аналитические решения. Сейчас очень много новостей про новый сервис для интеграции данных - Cloud Data Fusion. Можете ознакомиться. Я думаю из плюсов хорошая интеграция с BigQuery и Google сервисами. Но из минусов - нет преднастроенных коннекоторов, например SalesForce, Jira и тп. И нет удобного механизма для создания трансформаций. https://cloud.google.com/blog/products/data-analytics/google-cloud-smart-analytics-accelerates-your-business-transformation?utm_medium=nu_ne_hrena_sebe

Google Cloud Blog

From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation | Google Cloud…

We’re announcing a number of new services and updates that transform the way businesses engage with their data.

792 viewsedited 04:12

Инжиниринг Данных

https://www.datasciencecentral.com/profiles/blogs/little-bee-books-tough-topics-simply-explained

Datasciencecentral

Little Bee books: Tough topics simply explained

This is a nice collection of free eBooks to learn the ropes on topics covering Hadoop, machine learning, Spark, analytics, and more.
The Little Bee series of b…

828 views06:49

Инжиниринг Данных

Еще один вебинар по теме модернизации хранилища данных https://tdwi.org/webcasts/2019/04/arch-all-cloud-data-warehouse-modernization.aspx?tc=page0

Transforming Data with Intelligence

Cloud Data Warehouse Modernization | Transforming Data with Intelligence

Is it time to reassess your current business processes and future demands to liberate your legacy data warehouse? Learn key modernization steps as you explore data discovery, data catalogs, self-service data access, and other key cloud DW features that let…

765 views17:04

Инжиниринг Данных

https://www.computerweekly.com/feature/How-modern-BI-shapes-up-to-big-data

ComputerWeekly.com

How modern business intelligence shapes up to big data

How have business intelligence and analytics strategies evolved in recent years in the face of big data? Here, we get a supplier CEO perspective, some analyst counsel, and testimony from Nationwide...

759 viewsedited 02:23

Инжиниринг Данных

https://www.forbes.com/sites/forbestechcouncil/2019/04/03/why-machine-learning-models-crash-and-burn-in-production/#5a959462f437

Why Machine Learning Models Crash And Burn In Production

You will need to invest in order to maintain the accuracy of the machine learning products and services that your customers use.

900 viewsedited 05:09

Инжиниринг Данных

https://www.inc.com/jeff-haden/heres-how-google-knows-in-less-than-5-minutes-if-someone-is-a-great-leader.html

Here's How Google Knows in Less Than 5 Minutes if Someone Is a Great Leader

After years of study, Google uses a few simple questions to identify the company's best leaders.

856 views07:01

Инжиниринг Данных

989 views15:16

Инжиниринг Данных

897 views22:15

Инжиниринг Данных

Амазон проводит много конференция, но самая инновационная это re:MARS.

Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space

На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))

В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.

После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.

US About Amazon

718 views20:09

Инжиниринг Данных

Из моей презентации, Озеро Данных - для чайников. На примере, мы делаем фотку, сохраняем в облаком (Ingestion and Storage), фото обрабатывается и собираются метаданные (Process), и мы можем обращаться к данным (Catalog and Search), ну конечно все очень Secure.

633 views20:55

Инжиниринг Данных

А так выглядит data lake by AWS. Все данных сохраняются в S3. Главный challenge это собрать метаданные, чтобы люди могли самостоятельно найти данные, которые им нужны.

665 views20:58

Инжиниринг Данных

Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.

676 views21:02

Инжиниринг Данных

626 views21:03

Инжиниринг Данных

614 views21:03

Инжиниринг Данных

А вот ребята из Twitch, у них все по взрослому, 96 нод Redshift Cluster и 2.2 PB Parquet озеро данных в котором 1300 exernal tables. Главный challenge - Metadata

602 views21:04