Apache Super Set - open source BI, интересный пост и пример работы инструмента https://preset.io/blog/2020-04-15-github-community-dashboard/
preset.io
Open Sourcing a GitHub Engagement Dashboard
This post details the process of building a GitHub community dashboard by extracting data out of the GitHub API, loading it into a database, and building a Superset dashboard on top of it.
Про Data Engineer и Data Scientist на русском от нетологии:
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают
Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).
Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают
Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).
Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
Хабр
Data Engineer и Data Scientist: какая вообще разница?
Профессии Data Scientist и Data Engineer часто путают. У каждой компании своя специфика работы с данными, разные цели их анализа и разное представление, кто из специалистов какой частью работы должен...
Не пропустите 20 апреля, презентацию от меня. Сижу рисую слайды для вас, от души;) https://netology.ru/free-lessons/kak-razvivatsya-v-data-engineering-v-rossii-i-zagranicej
ML Well Architected Stack от AWS https://d1.awsstatic.com/whitepapers/architecture/wellarchitected-Machine-Learning-Lens.pdf
Screenshot_20200414-102937.png
373.2 KB
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Хабр
Нечёткий поиск в тексте и словаре
Введение Алгоритмы нечеткого поиска (также известного как поиск по сходству или fuzzy string search ) являются основой систем проверки орфографии и полноценных поисковых систем вроде Google или...
Презентация про Data Engineering. Пришло 50 человек, что говорит о зрелости рынка и об интересе к вакансии, точнее его отсутствия. https://docs.google.com/presentation/d/1_UysT1KWOaPczXgZ3V5DX_-E4pWIQz5dIndEnqS0UsI/edit#slide=id.gc6f9544c1_0_53
Google Docs
Нетология | про дата инжинеринг
Как развиваться в Data Engineering: в России и за границей Дмитрий Аношин, Data Engineer, Amazon Alexa
Товарищ очень классно и по современному описал, что такое современный дашборд. С картинками!
Картинки из вебинара ML на Snowflake. На самом деле не важно, какая у вас платформа или хранилище данных, цикл примерно одинаковый. Мне кажется если вы можете разбираться в таких диаграммах, то вы уже не новичок в инжиниринг данных. Как вы считаете полезный скин уметь рисовать архитектурные диаграммы и умение в них разбираться? У вас есть примеры диаграмм? Поделитесь.