В блоге Uber Engineering полезная заметка об оптимизации формата Parquet [1] с точки зрения сжатия, хранения и скорости работы. Автор рассказывает как они используют Parquet в экосистеме Hadoop'а у себя внутри для обработки и хранения данных измеряемых петабайтами и том что хранение в таких объёмах обходится дорого и после многих экспериментов они остановились на формате Parquet со сжатием через ZSTD и что это значительно эффективнее чем Snappy/Gzip по балансу скорости обращения к данным и уровню сжатия.
Но что интереснее автор приводит ещё и трюк с сортировкой данных который позволяет значительно улучшить сжатие предварительно проведя сортировку данных в колонках. Причём очень многое зависит от порядка сортировки полей, в их случае при порядке начинающегося с поля uuid достигается наилучший результат. В основе этого эксперимента статья Reordering Rows for Better Compression: Beyond the Lexicographic Order [2].
Случай Uber'а с хранением таких объёмов, конечно, довольно редкий, такое есть только в крупнейших стартапах/корпорациях. Есть много задач сильно меньше, до терабайтов, где также надо работать с разными форматами данных и Parquet выглядит всё более привлекательным для хранение и распространения данных для аналитической работы.
Ссылки:
[1] https://eng.uber.com/cost-efficiency-big-data/
[2] https://arxiv.org/pdf/1207.2189.pdf
#parquet #data #reading #dataengineering
Но что интереснее автор приводит ещё и трюк с сортировкой данных который позволяет значительно улучшить сжатие предварительно проведя сортировку данных в колонках. Причём очень многое зависит от порядка сортировки полей, в их случае при порядке начинающегося с поля uuid достигается наилучший результат. В основе этого эксперимента статья Reordering Rows for Better Compression: Beyond the Lexicographic Order [2].
Случай Uber'а с хранением таких объёмов, конечно, довольно редкий, такое есть только в крупнейших стартапах/корпорациях. Есть много задач сильно меньше, до терабайтов, где также надо работать с разными форматами данных и Parquet выглядит всё более привлекательным для хранение и распространения данных для аналитической работы.
Ссылки:
[1] https://eng.uber.com/cost-efficiency-big-data/
[2] https://arxiv.org/pdf/1207.2189.pdf
#parquet #data #reading #dataengineering
Для тех кто недавно подписался и в качестве многочисленных напоминания о том кто я, чем занимаюсь и о чём тут пишу.
Я больше 12 лет занимаюсь занимаюсь тематикой открытости государства и открытыми данными, возглавляю АНО "Инфокультура" (@infoculture) [1] внутри которого мы создавали и поддерживаем такие проекты как Госзатраты [2], Открытые НКО [3], Хаб открытых данных [4], Простой язык [4] и многие другие [5], а также День открытых данных в Москве [6].
Всё это время я занимался и занимаюсь экспертной работой в экспертных советах при Пр-ве и разных органах власти и за пределами государства.
С 2019 г. по май 2021 г. я был соавтором проекта Госрасходы [7], по мониторингу бюджетных средств. Этот проект был поддержан Алексеем Кудриным (главой Счетной палаты) и я работал над ним в Счетной палате, а сейчас этим проектом продолжает заниматься моя коллега Ольга Пархимович, в телеграме @ahminfin.
Уже более полугода я сделал фокус на коммерческие проекты, наша команда разрабатывает проекты в области сбора и анализа данных, инженерии данных и комплаенса. В частности мы делаем проект APICrafter [8] в виде высокопроизводительного API к ЕГРЮЛ, базе госконтрактов и другим сведениям о юр лицах с гибкой тарификацией, а также создаём продукт DataCrafter [9] в котором собираем крупнейший каталог данных в России, преимущественно открытых данных и преимущественно открытый каталог.
Параллельно я возглавляю Ассоциацию участников рынка данных АУРД (@AURData) [10] выступающую в интересах малого и среднего бизнеса, преимущественно и доступности данных для бизнеса.
А также я много пишу про данные, открытые данные, государственные данные и, в последнее время, всё больше пишу про технологии работы с данными у себя в телеграм канале @begtin, в блоге begtin.tech тексты среднего размера [11] и в рассылке на Substack лонгриды [12]. Раньше я писал больше про гостехнологии, госзакупки и государство в целом, сейчас тоже иногда, но уже реже. Поэтому если Вы подписались, то будьте готовы что про данные и технологии я буду писать много, про остальное реже.
Ах да, я совсем забыл, что веду ещё и проект Национального цифрового архива по архивации сайтов и иных digital-born объектов [13] с фокусом на сайты в зоне риска исчезновения. Самое главное дело, жаль времени на него уходит мало.
Cсылки:
[1] https://infoculture.ru
[2] https://clearspenging.ru
[3] https://openngo.ru
[4] https://plainrussian.ru
[5] https://infoculture.ru/projects
[6] https://opendataday.ru
[7] https://spending.gov.ru
[8] https://apicrafter.ru
[9] https://data.apicrafter.ru
[10] https://aurd.ru
[11] https://begtin.tech
[12] https://begtin.substack.com
[13] https://ruarxive.org
#data #reading #blogging
Я больше 12 лет занимаюсь занимаюсь тематикой открытости государства и открытыми данными, возглавляю АНО "Инфокультура" (@infoculture) [1] внутри которого мы создавали и поддерживаем такие проекты как Госзатраты [2], Открытые НКО [3], Хаб открытых данных [4], Простой язык [4] и многие другие [5], а также День открытых данных в Москве [6].
Всё это время я занимался и занимаюсь экспертной работой в экспертных советах при Пр-ве и разных органах власти и за пределами государства.
С 2019 г. по май 2021 г. я был соавтором проекта Госрасходы [7], по мониторингу бюджетных средств. Этот проект был поддержан Алексеем Кудриным (главой Счетной палаты) и я работал над ним в Счетной палате, а сейчас этим проектом продолжает заниматься моя коллега Ольга Пархимович, в телеграме @ahminfin.
Уже более полугода я сделал фокус на коммерческие проекты, наша команда разрабатывает проекты в области сбора и анализа данных, инженерии данных и комплаенса. В частности мы делаем проект APICrafter [8] в виде высокопроизводительного API к ЕГРЮЛ, базе госконтрактов и другим сведениям о юр лицах с гибкой тарификацией, а также создаём продукт DataCrafter [9] в котором собираем крупнейший каталог данных в России, преимущественно открытых данных и преимущественно открытый каталог.
Параллельно я возглавляю Ассоциацию участников рынка данных АУРД (@AURData) [10] выступающую в интересах малого и среднего бизнеса, преимущественно и доступности данных для бизнеса.
А также я много пишу про данные, открытые данные, государственные данные и, в последнее время, всё больше пишу про технологии работы с данными у себя в телеграм канале @begtin, в блоге begtin.tech тексты среднего размера [11] и в рассылке на Substack лонгриды [12]. Раньше я писал больше про гостехнологии, госзакупки и государство в целом, сейчас тоже иногда, но уже реже. Поэтому если Вы подписались, то будьте готовы что про данные и технологии я буду писать много, про остальное реже.
Ах да, я совсем забыл, что веду ещё и проект Национального цифрового архива по архивации сайтов и иных digital-born объектов [13] с фокусом на сайты в зоне риска исчезновения. Самое главное дело, жаль времени на него уходит мало.
Cсылки:
[1] https://infoculture.ru
[2] https://clearspenging.ru
[3] https://openngo.ru
[4] https://plainrussian.ru
[5] https://infoculture.ru/projects
[6] https://opendataday.ru
[7] https://spending.gov.ru
[8] https://apicrafter.ru
[9] https://data.apicrafter.ru
[10] https://aurd.ru
[11] https://begtin.tech
[12] https://begtin.substack.com
[13] https://ruarxive.org
#data #reading #blogging
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
The Economics of Data Businesses [1] полезный текст от Abraham Thomas о том как устроен внутри бизнес основанный на данных продуктами которого являются дата-продукты. Если ещё проще, то это ответ на вопрос "чем живут те кто торгуют данными?". Текст включает много инсайтов и полезных мыслей для тех, так что могу его порекомендовать всем кто изучает этот рынок.
Автор известен как основатель Quandl, стартапа по агрегации альтернативных данных купленного Nasdaq. Так что его мнение о продуктах на данных более чем обосновано.
В России, кстати, очень много тех кто пытается создавать дата-продукты. Системы проверки контрагентов такие как делает Интерфакс, нормативно-справочные системы вроде Консультанта и Гаранта и др. Рынки правда устроены так что первые/лидеры если не совершают грубых ошибок то со временем накапливают критическую массу данных (преимущества) которую новичкам надо компенсировать другими возможностями.
Ссылки:
[1] https://pivotal.substack.com/p/economics-of-data-biz
#databusiness #reading
Автор известен как основатель Quandl, стартапа по агрегации альтернативных данных купленного Nasdaq. Так что его мнение о продуктах на данных более чем обосновано.
В России, кстати, очень много тех кто пытается создавать дата-продукты. Системы проверки контрагентов такие как делает Интерфакс, нормативно-справочные системы вроде Консультанта и Гаранта и др. Рынки правда устроены так что первые/лидеры если не совершают грубых ошибок то со временем накапливают критическую массу данных (преимущества) которую новичкам надо компенсировать другими возможностями.
Ссылки:
[1] https://pivotal.substack.com/p/economics-of-data-biz
#databusiness #reading
Pivotal
The Economics of Data Businesses
How data businesses start, and how they keep going, and growing, and growing.
Кстати, не могу не похвастаться, что более всего из всех площадок где я что-либо писал, получалось на Quora, англоязычной площадке вопросов и ответов. Я там был особенно активен в 2016-2017 годах [1] и до сих пор мои ответы смотрят по 2000 просмотров в неделю, в общем-то там и потребление контента не новостное с резким всплеском, а постоянное.
В последние годы как-то стало больше других дел, но в целом приятно что всё ещё читают.
А Quora неплохой источник не только ответов, но и ссылок на разного рода продукты/проекты в области открытости и данных.
Ссылки:
[1] https://www.quora.com/profile/Begtin-Ivan
#quora #reading #data
В последние годы как-то стало больше других дел, но в целом приятно что всё ещё читают.
А Quora неплохой источник не только ответов, но и ссылок на разного рода продукты/проекты в области открытости и данных.
Ссылки:
[1] https://www.quora.com/profile/Begtin-Ivan
#quora #reading #data
У Бэна Стэнсила, основателя и руководителя аналитиками в стартапе Mode, замечательная заметка в его рассылке, с рефлексией о том как компании сейчас потребляют данные и как это возможно в будущем [1]. Основной посыл заметки в том что "фронтэнд разваливается" и приводит в пример десятки разных способов донесения данных через дашборды, тетрадки, сервисы визуализации, разные виды, формы и ориентации BI продукты и так далее. Идея в том что можно ли сделать открытый продукт к которому разные формы потребления данных можно было бы добавлять плагинами? По аналогии с Wordpress'ом и другими аналогичными экосистемными продуктами.
Идея интересная, созвучная многим, включая меня. Хотя я пока и не чувствую что разваливается именно фронтэнд и конечное потребление данных, скорее современный стек данных превращается в набор для сборки, а для кого-то и в паззл где своими силами ты делаешь только то что не можешь собрать из кубиков. Или делаешь то что хочешь продать/продавать. Отсюда и растущий запрос не просто на дата-инженеров, а на платформенных дата-инженеров, а может уже пора ввести понятие data-constructor ?
Когда я сейчас проектирую стартап и продукт по анализу и/или/или не обработки данных, я, как и многие, не мыслю категориями разработать его с нуля. Я смотрю на open source и облачные продукты и понимаю что: вот тут для ELT можно взять вот это, вот тут для BI вот это, вот тут для хранилища вот это, вот тут для сбора данных в реальном времени вот это, для пользовательского интерфейса вот это и так далее.
А рассылка Бэна весьма популярна в среде аналитиков и дата инженеров, всячески его рекомендую.
Ссылки:
[1] https://benn.substack.com/p/business-in-the-back-party-in-the-front
#data #thoughts #reading #dataengineering #bi
Идея интересная, созвучная многим, включая меня. Хотя я пока и не чувствую что разваливается именно фронтэнд и конечное потребление данных, скорее современный стек данных превращается в набор для сборки, а для кого-то и в паззл где своими силами ты делаешь только то что не можешь собрать из кубиков. Или делаешь то что хочешь продать/продавать. Отсюда и растущий запрос не просто на дата-инженеров, а на платформенных дата-инженеров, а может уже пора ввести понятие data-constructor ?
Когда я сейчас проектирую стартап и продукт по анализу и/или/или не обработки данных, я, как и многие, не мыслю категориями разработать его с нуля. Я смотрю на open source и облачные продукты и понимаю что: вот тут для ELT можно взять вот это, вот тут для BI вот это, вот тут для хранилища вот это, вот тут для сбора данных в реальном времени вот это, для пользовательского интерфейса вот это и так далее.
А рассылка Бэна весьма популярна в среде аналитиков и дата инженеров, всячески его рекомендую.
Ссылки:
[1] https://benn.substack.com/p/business-in-the-back-party-in-the-front
#data #thoughts #reading #dataengineering #bi
benn.substack
Business in the back, party in the front
Sorting through the chaos in the consumption layer.
В Forbes вышла моя колонка [1] по регулировании Метавселенных в России
Вначале я хотел добавить юмора, описать будущее чего-то вроде Росметаконтроля или Федеральной службы виртуального патриотизма или Министерства внутривиртуальных дел, но в какой-то момент юмор засбоил и получился серьёзный текст про усиление госконтроля.
Ссылки:
[1] https://www.forbes.ru/mneniya/455185-metavselennye-pod-kontrolem-pocemu-novye-tehnologii-v-rossii-vosprinimaut-kak-ugrozu
#privacy #vr #ar #metauniverses #reading
Вначале я хотел добавить юмора, описать будущее чего-то вроде Росметаконтроля или Федеральной службы виртуального патриотизма или Министерства внутривиртуальных дел, но в какой-то момент юмор засбоил и получился серьёзный текст про усиление госконтроля.
Ссылки:
[1] https://www.forbes.ru/mneniya/455185-metavselennye-pod-kontrolem-pocemu-novye-tehnologii-v-rossii-vosprinimaut-kak-ugrozu
#privacy #vr #ar #metauniverses #reading
Forbes.ru
Метавселенные под контролем: почему новые технологии в России воспринимают как угрозу
Российские власти задумались о том, как регулировать метавселенные и виртуальную реальность. Чиновники видят риски не столько в технологиях, как таковых, сколько в распространении информации. Метавселенные дадут гражданам дополнительные возможности д
Полезное чтение про разное
- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.
- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.
- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.
- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.
- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.
- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.
Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/
#reading #data #tech
- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.
- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.
- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.
- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.
- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.
- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.
Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/
#reading #data #tech
stackoverflow.blog
How often do people actually copy and paste from Stack Overflow? Now we know. - Stack Overflow
Полезное чтение о данных и их регулировании:
- Data saves lives: reshaping health and social care with data (draft) [1] черновик регулирования в Великобритании, с примерами и целеполаганием на использование данных в целях спасения жизни и здоровья граждан. Четко и внятно написанный документ,стоит почитать чтобы понимать как развивается регулирование в UK. Можно обратить внимание на то что кроме данных планируется и раскрытие кода под лицензиями MIT and OGLv3
- Public bodies’ access to private sector data [2] научная статья о том как в 12 европейских локальных юрисдикциях органы власти взаимодействуют с бизнесом для получения данных частного сектора
- Open Data Governance and Its Actors [3] свежая книга о регулировании открытых данных от Max Kassen. Я её ещё не читал, но планирую. Судя по содержанию, похоже книга про систематизацию того как устроено раскрытие данных и кто за это отвечает
- Data Federalism [4] очень систематизирующий и длинный лонгрид о взаимодействии властей между собой через призму данных. Автор юрист, очень много конституционных аспектов и особенностей связанных с работой с данными в госорганах США.
- The Political Philosophy of AI: An Introduction [5] политические аспекты применения ИИ. Любопытная книга, я её также пока не читал, и также планирую прочитать.
Ссылки:
[1] https://www.gov.uk/government/publications/data-saves-lives-reshaping-health-and-social-care-with-data-draft/data-saves-lives-reshaping-health-and-social-care-with-data-draft
[2] https://firstmonday.org/ojs/index.php/fm/article/view/11720
[3] https://link.springer.com/book/10.1007/978-3-030-92065-4
[4] https://harvardlawreview.org/2022/02/data-federalism/
[5] https://www.politybooks.com/bookdetail?book_slug=the-political-philosophy-of-ai-an-introduction--9781509548538
#ai #data #policy #books #reading
- Data saves lives: reshaping health and social care with data (draft) [1] черновик регулирования в Великобритании, с примерами и целеполаганием на использование данных в целях спасения жизни и здоровья граждан. Четко и внятно написанный документ,стоит почитать чтобы понимать как развивается регулирование в UK. Можно обратить внимание на то что кроме данных планируется и раскрытие кода под лицензиями MIT and OGLv3
- Public bodies’ access to private sector data [2] научная статья о том как в 12 европейских локальных юрисдикциях органы власти взаимодействуют с бизнесом для получения данных частного сектора
- Open Data Governance and Its Actors [3] свежая книга о регулировании открытых данных от Max Kassen. Я её ещё не читал, но планирую. Судя по содержанию, похоже книга про систематизацию того как устроено раскрытие данных и кто за это отвечает
- Data Federalism [4] очень систематизирующий и длинный лонгрид о взаимодействии властей между собой через призму данных. Автор юрист, очень много конституционных аспектов и особенностей связанных с работой с данными в госорганах США.
- The Political Philosophy of AI: An Introduction [5] политические аспекты применения ИИ. Любопытная книга, я её также пока не читал, и также планирую прочитать.
Ссылки:
[1] https://www.gov.uk/government/publications/data-saves-lives-reshaping-health-and-social-care-with-data-draft/data-saves-lives-reshaping-health-and-social-care-with-data-draft
[2] https://firstmonday.org/ojs/index.php/fm/article/view/11720
[3] https://link.springer.com/book/10.1007/978-3-030-92065-4
[4] https://harvardlawreview.org/2022/02/data-federalism/
[5] https://www.politybooks.com/bookdetail?book_slug=the-political-philosophy-of-ai-an-introduction--9781509548538
#ai #data #policy #books #reading
GOV.UK
[Withdrawn] [Withdrawn] Data saves lives: reshaping health and social care with data (draft)
В блоге Fivetran весьма интересные размышления [1] о популярности dbt, инструмента по преобразованию данных с помощью SQL, с акцентом на то что dbt решает одну из главных системных проблем SQL - невозможность использования библиотек и шаблонов. В dbt это решается через их менеджер пакетов куда входят многочисленные рецепты работы с данными.
Авторы также ссылаются на статью середины прошлого года Against SQL [3] где как раз проблемы SQL четко актикулировались.
Я, кстати, также совершенно не в восторге от языка SQL, слишком много разных реализаций значительно меняющих/расширяющих SQL стандарт и сам по себе текст стандарта SQL 2016 составляет 1732 страницы. В целом то критика в адрес SQL идёт давно, многие NoSQL продукты появлялись как раз как замена SQL и, по ощущениям, как раз с появлением dbt происходит какое-то экспоненциальное перерождение подходов к работу с этим языком.
Ссылки:
[1] https://www.fivetran.com/blog/can-sql-be-a-library-language
[2] https://hub.getdbt.com/
[3] https://www.scattered-thoughts.net/writing/against-sql
[4] https://blog.ansi.org/2018/10/sql-standard-iso-iec-9075-2016-ansi-x3-135/
#reading #sql #data
Авторы также ссылаются на статью середины прошлого года Against SQL [3] где как раз проблемы SQL четко актикулировались.
Я, кстати, также совершенно не в восторге от языка SQL, слишком много разных реализаций значительно меняющих/расширяющих SQL стандарт и сам по себе текст стандарта SQL 2016 составляет 1732 страницы. В целом то критика в адрес SQL идёт давно, многие NoSQL продукты появлялись как раз как замена SQL и, по ощущениям, как раз с появлением dbt происходит какое-то экспоненциальное перерождение подходов к работу с этим языком.
Ссылки:
[1] https://www.fivetran.com/blog/can-sql-be-a-library-language
[2] https://hub.getdbt.com/
[3] https://www.scattered-thoughts.net/writing/against-sql
[4] https://blog.ansi.org/2018/10/sql-standard-iso-iec-9075-2016-ansi-x3-135/
#reading #sql #data
Fivetran
Can SQL be a library language? | Blog | Fivetran
The time has come for the open-source software revolution to reach SQL.
О том как устроена классификация данных, семантические типы, бизнес глоссарии у меня накопилось уже на большой лонгрид. Типизация данных сильно заточена под их понимание.
Пока вот такая картинка/схема того как будет устроен реестр идентификаторов/сементических типов Metacrafter registry [1].
Главная особенность описания данных в том что многие данные не могут идентифицироваться без ошибок, это принципиально невозможно в виду частой повторяемости одних и тех же форматов идентификаторов.
Частично это можно исправить задавая категории правил, зная язык (разговорный) текстов в данных и зная привязку к стране. Чтобы составить хорошие правила нужна хорошая модель идентификаторов/семантических типов с которыми они связаны, а таких моделей нет, только практики и несколько научных публикаций.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry
#data #reading #dataunderstanding
Пока вот такая картинка/схема того как будет устроен реестр идентификаторов/сементических типов Metacrafter registry [1].
Главная особенность описания данных в том что многие данные не могут идентифицироваться без ошибок, это принципиально невозможно в виду частой повторяемости одних и тех же форматов идентификаторов.
Частично это можно исправить задавая категории правил, зная язык (разговорный) текстов в данных и зная привязку к стране. Чтобы составить хорошие правила нужна хорошая модель идентификаторов/семантических типов с которыми они связаны, а таких моделей нет, только практики и несколько научных публикаций.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry
#data #reading #dataunderstanding