Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Хороший обзор платформы данных в Financial Times [1] вернее продолжение предыдущей их же публикации от мая 2020 г. [2] о том как внутри издания построена полноценная платформа сбора данных, с озером данных, обработкой, разными командами загружающими и обрабатывающими данные. Интересно не только с точки зрения технологий, но и с точки зрения погружения в data-driven культуру современных зарабатывающих медиа. Не знаю с какими российскими проектами можно было бы сравнить FT.com, но кто знает, может однажды спрос на полноценную инфраструктуру данных появится и в российских СМИ.

Ссылки:
[1] https://medium.com/ft-product-technology/financial-times-data-platform-from-zero-to-hero-143156bffb1d
[2] https://medium.com/ft-product-technology/enabling-data-driven-decisions-564359b79788

#data #dataplatforms #datalakes #media
В рубрике интересных продуктов на данных, Directus [1]. Ещё пару лет продвинутая безголовая CMS (headless CMS) конкурирующая с GraphCMS, Strapi и тому подобными CMS решениями и продуктами.

Сейчас позиционируют себя как modern data platform, продукт по превращению SQL баз данных в API и No-code app. Смена бизнес модели довольно существенная, не берусь предсказать насколько новый рынок будет больше, но само изменения существенное.

Как я понимаю произошло оно после того как они привлекли первые венчурные деньги в $1M в июле 2021 г.

Ссылки:
[1] https://directus.io/

#data #dataplatforms #startups
В рубрике интересных наборов данных база стоимости услуг госпиталей в США [1] размещённая на платформе Dolthub. Особенность в том что Dolthub организуют регулярные конкурсы краудсорсингового сбора данных и эта база данных также собирается волонтерами которым за это ещё и существенно платят, нельзя сказать что копейки, общий бюджет на создание такого набора данных - $15 тысяч и в списке лидеров есть те кто заработал уже более $5 тысяч.

Dolthub позиционируют себя как Git для данных и у них, действительно, хороший продукт с интересными возможностями.

Но вот свой потенциал в части организации таких конкурсов они недооценивают.

По моему скромному мнению рано или поздно их купит один из крупных международных big tech холдингов вроде MS, IBM, Oracle, Google, Amazon или кто-то вроде и поставят такие конкурсы на поток совместно с инициативами Data4Good и другими гуманитарными проектами связанными с работой с данными.

Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/hospital-price-transparency-v3

#opendata #dolthub #dataplatforms #datasets
Свежий доклад ORelly о каталогах данных сделанный в партнерстве/при поддержке стартапа Alation [1]. Хотя такие доклады при поддержке одного из коммерческих игроков нельзя назвать полностью нейтральными, но доклад полезный, определяет три вида каталогов данных: инструментальные, отраслевые и платформенные.

Плюс отсылки на интересные проекты, не все из них широко известны. Например, я неожиданно для себя открыл Ground [2], проект Google и UC Berkley по анализу контекста работы с данными.

Ссылки:
[1] https://www.alation.com/resource-center/snowflake-summit-2022/oreilly-implementing-a-modern-data-catalog
[2] http://www.ground-context.org

#datacatalogs #dataplatforms #data