Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Pavel
Встреча в разгаре.
Возможно вы слышали, что Амазон купил старейшую студию MGM https://press.aboutamazon.com/news-releases/news-release-details/amazon-and-mgm-have-signed-agreement-amazon-acquire-mgm

Чтобы добавить больше контента в Amazon Prime и догнать (может и обогнать Netflix и Disney). На картинке страница из свежей книги, где в 2004 году похожую идею обсуждали про Kindle.

Так же действует и Xbox, покупая крутые студии.
Вы слышали про Chrome Music Lab? Дети в школе изучают, можно послушать как звучит слова data или сделать свое что-нибудь, а детям будет вообще интересно. https://musiclab.chromeexperiments.com/Song-Maker/song/5422805158461440
И последняя полезная ссылка, тоже из школы, я обожаю этот ресурс https://www.getepic.com/app/

Это что-то вроде библиотеки детских книжек, где есть разные уровни. У меня дочь в 6 лет научилась читать сама по ней, можно выбрать книжки с картинками на любую тему, и вам будут их читать с выражением и каждое слово выделять, а вы можете повторять. Для детей must have! Да и взрослым должно подойти, кто только начинает изучать язык. Из всех школьных программ это моя самая любимая! Есть ещё https://ca.ixl.com/ там как игра RPG с заданиями, но так себе.
Хочу вам рассказать про интересную технологию - Azure Data Explorer. Это аналог Splunk и Elastic Search/Log Stash.

В статье есть история продукта и его кодовое название - Kusto, в честь того самого водолаза (я в детстве смотрел по телевизору его погружения). История началась с 4х разработчиков Power BI, которым надо было делать troubleshooting.

Сейчас это отдельный продукт, которой может собирать и хранить структурированные, полу и не структурированные данные. Может писать в него огромное количество данных и сразу писать к ним запросы языком KQL. Хорошо развита text analytics и есть функции ML.

Идеально подходит для логов и телеметрии. Но в Microsoft Gaming многие студии используют его вместо data platform и из палок и секретного ингредиента создают BI решение, которое работает.

Я всегда разделяю аналитику на операционную и на обычную (DW, big data, Lakehouse, data platform). Операционная удобна для быстрого доступа к текущим данных, почти как стриминг. Мы можем писать все логи и телеметрию и получаем доступ к данным с задержкой в секунды. Разработчики игр и QA могут легко отлавливать баги в реальном времени, что удобно, а вот для серьезного аналитического решения этого не хватает.

PS Но так то, можно и экселем обойтись. Не бывает хорошего и плохого решения, бывает более удобное и менее удобное. Кому с чем удобней.

В курсе я хочу рассмотреть операционную аналитику на примере Splunk и Azure Data Explorer (модуль 6 или 8).
Когда начался кипишь по Data Science в 2012-2013 году, было 2 супер книжки по этой теме, и они все еще актуальны:
Doing Data Science - в этой книги мне понравилось как автор искал Data Modeller для DS, и попадались только DW data modeller и они поняли, что это вообще разные вещи))
Data Science for Business

Эти книжки можно легко найти в PDF.
Principal Engineer.pdf
563.1 KB
Презентация - Principal Engineers - Who Needs Them? Интересные bullet points. Сама презентация про SDE, но для DE тоже подойдет.

Для меня это идеальная карьерная цель стать Principal Data Engineer в Microsoft или Amazon, не знаю насколько она реальная, но точно хорошая альтернатива менеджера и по $ не обижают😎
Несмотря на то, что Delta Lake ,книга выйдет в Апреле 2022, уже сейчас можно получить к ней доступ на O'Reilly
https://www.oreilly.com/library/view/delta-lake-the/9781098104580/
Никто не пробовал Amazon Warehouse Services?)) Читаю Game Analytics Maximizing the Value of Player Data. Купил в ноябре и вот теперь только начал читать, так как стал пользоваться метро и появилось доп время на чтение.
Сегодня посмотрел Key Note Data+AI, очень качественный эвент. Сначала минут тридцать играет диджей, потом сам ПАПА хранилищ данных, Бил Инмон, рассказывает о Lakehouse и о своей новой книге. Раза 4 он говорит, что писать 61ю книгу ему лучше, чем играть в гольф, он видите ли, так отдыхает. Он показывает несколько картинок из своей новой книги (или все таки документации databricks), короче он продался…Но нам не жалко, databricks хороший продукт и delta lake ничего!

Затем Atlassian рассказывает о своей дата эволюции, которую вы видите на картинке: Postgres->Redshift->Data Lake on S3 -> Lakehouse. Все логично, я бы так же сделал🤙

А потом рассказывают про новые фичи, главная из них это Delta Lake V1 и Data Catalog внутри Databricks (наконец-то!), ну еще парочка.

В конце, чувак из Microsoft, говорит нам про Synapse, я не понял зачем он там со своим Synapse, рановато пока, надо еще годика 2 его до ума доводить, а потом понял, они же спонсоры конференции))
Немного из истории Канады. Мы знаем, что Северная Америка это была земля индейцев (aboriginal people или first nations), потом приплыли колонизаторы, европейцы и дальше вы знаете. Сейчас вскрылось ужасное преступление, о котором даже написали в медузе - В Канаде нашли останки 215 воспитанников интерната для детей из коренных народов.

Канаде всего 150+ лет, но в ее истории очень много темных мест. Одно из них это Residential School (школы интернаты). Идея была простоя, “диких” детей индейцев отбирали у родителей и помещали в интернат, где из них хотели сделать “нормальных”людей. Многие погибали, кто выживал - получал травму на всю жизнь. По сути это был геноцид, который начался с временем завоевания Северной Америки. Школы интернаты закрыли в 1996 году. Страшно представить сколько горя перенесли эти люди.

Я не эксперт в этом вопросе, но решил добавить немного информации, чтобы у вас был контекст. Сейчас у first nations много benefits от государства, они не платят налоги, рыбачат и охотятся когда хотят и где хотят и тп., но при этом государство продолжает игнорировать их требования/просьбы/традиции и законы (мягко говоря). Зачем им benefits, если реки и озера загрязнены и отравлены, рыбы в океане нет, и лес на их земли вырубили и продали в Китай.

Сейчас происходит еще одна история, но уже локальная - вырубка Old Grown леса (это деревья, которым по 1000-2000 лет на острове Ванкувер). Их всего осталось в Канаде единицы. В этом раз много людей и наших знакомых “вписались” за деревья. Вопрос пока не решен, но все больше и больше людей пытается спасти эти деревья. Я даже написал в Microsoft Indigenous Community (группа, которая представляет интересы First Nations в Microsoft), может они как-нибудь смогут спасти деревья. Лично я поддерживаю first nations, они действительно заботятся о природе и окружающей среде.
Можно будет теперь коллег просвещать. Для моих детей у нас обязательный ежегодный просмотр Брат, Брат 2, Сестры в воспитательных целях🤠 Есть ещё рекомендации?