Инжиниринг Данных

Насколько все серьезно в вашем городе? У нас (в Канаде) уже послабления собираются вводить, люди послушно отсиделись дома, пошло на спад.

lenta.ru

Математическая модель предсказала пик эпидемии коронавируса в России

Математическая модель Сбербанка предсказала сроки пика эпидемии коронавируса в России — первая декада мая. Согласно реализующемуся сценарию распространения коронавируса, пик заболеваемости в Москве наступит «несколькими днями ранее». Модель была создана на…

1.71K views05:59

3 comments

Инжиниринг Данных

Меня попросили расшарить, может кому будет интересно:

«4 мая ребята из сообщества Data Engineering проведут бесплатный митап: «Data Engineer or Die».
Соберутся хорошие эксперты по теме: Егор Матешук (CDO Qvant), Денис Хуртин (DMP Яндекс.Маркет). Организаторы: Dodo Pizza и New Professions Lab.
Встреча будет актуальна для тех, кто работает с доставкой данных, backend-developers, ну и конечно для тех, кто в теме Data Engineering (или только начинает в ней вариться).

Ссылка на ивент: https://deordie.timepad.ru/event/1303716/».

1.76K viewsedited 17:15

Add a comment

Инжиниринг Данных

У меня есть знакомый канадец, он делает стартап на Twilio API. Он ищет специалиста/разработчика, если у кого есть интерес и навыки, напишите ему письмо на brettleach@gmail.com возможно получится получить удаленную подработку. Пожалуйста, пишите, если вы действительно сможете программировать😉

Twilio

Communications APIs with AI and data for SMS, Voice, Email | Twilio

Create amazing customer experiences with our Customer Engagement Platform (CEP) that combines communication APIs with AI. Build solutions for SMS, WhatsApp, voice, and email.

1.65K views18:52

Add a comment

Инжиниринг Данных

https://www.cio.com/article/3537368/april-may-2020-why-analytics-initiatives-still-fail.html

CIO

April/May 2020: Why analytics initiatives still fail

Read on to learn the four key areas that are hindering analytics success and how to address them.

1.64K views00:56

Add a comment

Инжиниринг Данных

5 мая онлайн митап - data science for good by quantum black https://www.meetup.com/Singapore-Artificial-Intelligence-Meetup-Group/events/269474926/

Meetup

Not a Meetup member yet? Log in and find groups that host online or in person events and meet people in your local community who share your interests.

1.68K views15:55

2 comments

Инжиниринг Данных

Tesla? AI? ML? и все это в одно видео https://www.youtube.com/watch?v=hx7BXih7zx8

YouTube

Andrej Karpathy - AI for Full-Self Driving at Tesla

For more talks and to view corresponding slides, go to scaledml.org, select [media archive].

Presented at the 5th Annual Scaled Machine Learning Conference 2020
Venue: Computer History Museum

scaledml.org | #scaledml2020

1.55K views19:18

Add a comment

Инжиниринг Данных

И другое видео от Intel про закон Мура https://www.youtube.com/watch?v=8eT1jaHmlx8

YouTube

Jim Keller - Moore's Law in the age of AI Chips

1.6K viewsedited 19:20

Add a comment

Инжиниринг Данных

Друзья, для ресурса https://www.datalearn.ru нам нужно использовать реальные данные для заданий (структурированные и не структурированные данные). У меня есть на примете сайт, который я делал родственникам tradoonline.ru. Типичный пример онлайн магазина, маркетинговые каналы (Adwords, Metrica), данные трафика Google Analytics. То есть хороший пример, чтобы потренироваться, но не солидно.

Поэтому я подумал, что может, кто-то может предоставить датасеты? А может быть ваша компанию захочет принять участие в проекте? Вы даете нам обезличенные данные, мы на них тренируемся в условиях близких к реальным. Такое вот спонсорство (без денег), а данными и кейсами.

У нас уже больше 200 заявок на курс, и мы пытаемся привести впорядок механику сайта, и я заказа трипод на амазоне, скоро придет и я запишу первое видео.

Напомню цель ресурса, помочь вам не столько овладеть навыками data engineer (навыками овладеете, и поймете куда дальше копать, в зависимости от цели) а сколько понять, как можно помочь бизнесу разгрести данные, и извлечь из них ценность. Мы не будем нудеть про настройки хадупа, а постараемся по делу разложить по полочкам базовые вещи, ну и походу подправить.

Был кстати вопрос, почему не положить курс на степик? Степик это крутой ресурс, если вы хотите изучить конкретный предмет. Мы хотим решать комплексную задачу. Часть это задачи, куда пристроить новые навыки, как их монетизировать. Возможно получится создать экосистему и найти компании, которым нужны активные и умные ребята и девчата; Не найдем, тоже неплохо, создадим конкуренцию ребятам из Индии на международном рынке.

В общем, если интересно регистрируемся (это первая официальная реклама😜) .

Отдельное спасибо Роману Понамореву, которые взял на себя обязательства администратора ресурса, создал сайт и делает всякие интеграции по digital marketing. Хотите внести вклад и добавить результат в портфолио? Присоединяйтесь к data ambassadors (после регистрации можно добавиться в slack) и занимайтесь тем, чем вам нравиться;

datalearn.ru

Курсы Data | курс инженер данных | курс дата аналитика | инжиниринг данных | DataLearn

⭐⭐⭐⭐⭐ Запишись на курс и получи востребованную специальность дата инженера, дата аналитика и BI аналитика - БЕСПЛАТНО. У нас очень большое и дружелюбное сообщество людей, увлеченных data

2.04K views22:06

9 comments

Инжиниринг Данных

26 мая попробую провести вебинар с фокусом на Канаду (поэтому и картинки канадские).

1.67K views22:08

1 comment

Инжиниринг Данных

Ресурсы для продукт менеджера

Sachin Rekhi's Blog

Top 100 Resources for Product Managers

I'm often asked what's the best way for a new product manager to learn the fundamentals of the role or for an experienced product manager to continue to master their craft. Most folks are looking for

1.87K views16:30

Add a comment

Инжиниринг Данных

Как лучше всего получить доступ к платным ресурсам? Записаться на бету. Например бета Matillion для Azure Synapse (SQL DW) дает доступ к Matillion (можно подтянуть cloud data integration), Azure Data Plarform (можно подтянуть Cloud DW, Databricks, и еще что-нибудь).

Matillion

Matillion ETL for Azure Synapse is Now Available for Early Access

Enterprises are generating large volumes of data that originate from a variety of source systems. In some cases, businesses are drawing from over 400 different data sources, creating a...

1.64K views03:34

Add a comment

Инжиниринг Данных

Для Rock Your Data Я хочу пост написать про Azure Synapse + ETL Matillion. Для меня ничего нового, теже кейсы что и AWS, но просто надо кнопки нажимать, а может быть кто-то хочет за меня кнопки понажимать? Я скажу, что нужно сделать, дам доступ, а вы уже пофигачите. Зато научитесь и может чего нового узнаете.

Из кейсов:
1)Distribution Styles для Azure DW (это во всех MPP системах)
2)Статистика для DW
3)Партиционирование
4)Polybase и внешние таблицы
5)Загрузка данных из озера данных
6)Отправка уведомлений в Slack
7)Загрузка данных из Google Analytics (или другой системы).

С меня теория и среда разработки. Пишите в личку, если интересно.

1.77K views04:38

Add a comment

Инжиниринг Данных

Когда для datalearn мы разберемся с базовыми вещами, хочется начать продвигаться в более серьезные вещи и приносить лучшие практики с запада. Например, хочется разобраться с kedro от quantum black. Сделать небольшой тренинг, в котором будет понятно зачем кедро и какие задачи решает, какие альтернативы существуют и тп. Туда же mlflow, DBT tool, и другие интересные инструменты. Самое главное это заложить фундамент базовых знаний по работе с данными, а потом нанизывать уже более сложные вещи. Кто-нибудь работал с кедро? Может хочет начать ковырять и потом выступить с докладом/презентацией?

YouTube

Introduction to Data Pipelines and Kedro - Writing Data Pipelines With Kedro 1

Data Engineering is a tough job, and it can be made tougher by complex, difficult to understand data pipelines. In this series, we will be covering Kedro and how to use it to make data pipelines easier to read, write, and maintain.

In this video we cover:…

1.79K views19:21

2 comments

Инжиниринг Данных

Think Stats with Python http://greenteapress.com/thinkstats2/thinkstats2.pdf

2.01K views00:45

2 comments

Инжиниринг Данных

Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).

В ноутбуке создал data frame

df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")

а затем создал SQL VIew и написал запрос с фильтром по тексту:

df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
      FROM dataset_csv
          WHERE text LIKE '%music%' and locale = 'en_US'
          and date between '2020-03-31' and '2020-04-05'
      """
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()

Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.

В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.

2.09K viewsedited 05:34

35 comments

Инжиниринг Данных

Прикольная вакансия https://www.amazon.jobs/en/jobs/1113645/startup-business-development-russia-and-cis

1.77K views23:20

8 comments

Инжиниринг Данных

Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.

В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.

Я пока не соглашался, но если соберется народ, человека 3, то можно написать.

1.7K views04:14

10 comments

Инжиниринг Данных

А вот про Snowflake на русском, правда статья 2015 года. Много изменилось с тех времен. https://habr.com/ru/company/lifestreet/blog/270167/

Хабр

Обзор первого эластичного хранилища данных Snowflake Elastic Data Warehouse

В нашей компании мы регулярно пробуем и анализируем новые интересные технологии в области хранения и управления большими данными. В апреле с нами связались представители компании Snowflake Computing и...

1.8K viewsedited 04:33

Add a comment

Инжиниринг Данных

https://www.forbes.ru/newsroom/milliardery/400061-policeyskoe-gosudarstvo-krepostnoe-pravo-durov-nazval-sem-prichin-ne

Forbes.ru