Очень любопытный подход к созданию каталогов данных для распространения тяжёлых датасетов бесплатно 0$ Data Distribution [1]. Если вкратце то автор воспользовался сервисом Clouflare R2 в опции Egress и используя DuckDB и таблицы Iceberg, распространяя файлы в формате Parquet.
DuckDB там можно заменить на PyIceberg или Snowflake, главное возможность бесплатно подключить и захостить данные. У автора хорошее демо [2] с тем как это работает, ограничения только в том что надо вначале, достаточно быстро и автоматически получить ключ доступа к каталогу, но это как раз не проблема.
Это, с одной стороны, выглядит как чистый лайфхак ибо Cloudflare может изменить ценовую политику, а с другой очень даже полезная модель применения.
И сама работа с таблицами используя Apache Iceberg [3]. Если вы ещё не читали об этом подходе и инструменте, то стоит уделить время. Это тот случай когда каталог данных существует в дата инженерном контексте, а то есть по автоматизации работы с данными, но без СУБД. Однако поверх Iceberg можно построить свои системы управления данными, как открытые так и не очень. Это одна из фундаментальных технологий в том смысле что из неё и других как конструктор можно собрать свой дата продукт.
Ссылки:
[1] https://juhache.substack.com/p/0-data-distribution
[2] https://catalog.boringdata.io/dashboard/
[3] https://iceberg.apache.org/
#opensource #datacatalogs #dataengineering #analytics
DuckDB там можно заменить на PyIceberg или Snowflake, главное возможность бесплатно подключить и захостить данные. У автора хорошее демо [2] с тем как это работает, ограничения только в том что надо вначале, достаточно быстро и автоматически получить ключ доступа к каталогу, но это как раз не проблема.
Это, с одной стороны, выглядит как чистый лайфхак ибо Cloudflare может изменить ценовую политику, а с другой очень даже полезная модель применения.
И сама работа с таблицами используя Apache Iceberg [3]. Если вы ещё не читали об этом подходе и инструменте, то стоит уделить время. Это тот случай когда каталог данных существует в дата инженерном контексте, а то есть по автоматизации работы с данными, но без СУБД. Однако поверх Iceberg можно построить свои системы управления данными, как открытые так и не очень. Это одна из фундаментальных технологий в том смысле что из неё и других как конструктор можно собрать свой дата продукт.
Ссылки:
[1] https://juhache.substack.com/p/0-data-distribution
[2] https://catalog.boringdata.io/dashboard/
[3] https://iceberg.apache.org/
#opensource #datacatalogs #dataengineering #analytics
Substack
0$ Data Distribution
Ju Data Engineering Weekly - Ep 78
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.
У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.
Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.
У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.
При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.
Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.
Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets
#opendata #education #france #datasets #data #datacatalogs
У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.
Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.
У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.
При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.
Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.
Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets
#opendata #education #france #datasets #data #datacatalogs