В последние годы порталы открытых данных перестали быть чем-то новым и прорывным, в основном они все основаны на нескольких решениях: CKAN, DKAN, OpenDataSoft, Dataverse и они как выполняли так и выполняют ключевую функцию доставки данных конечным пользователям. Иногда может показаться, а что же ещё может в них появиться? Так вот главное что может появиться, а новые сервисы доставки данных без порталов. Это сервисы управления пакетами данных очень похожих на системы контроля версий или системы управления пакетами ПО в Unix.
Datahub.io
Проект компании Datopian вышедшей из Open Knowledge Foundation. Основная его идея в том чтобы публиковать тщательно упакованные наборы данных в соответствии со стандартом Frictionless Data. Там не так много данных, но есть возможность публиковать свои наборы и есть возможность получать опубликованное там через API или утилиту командной строки "data". Каждый набор данных включает метаданные для интеграции их в свои системы. Ориентирован на табличные данные. Адаптирован более всего под язык Python, но есть много примеров на разных языках.
Ссылка: https://datahub.io
Data Package Manager for R (DPMR)
Система управления пакетами для языка R. Также основана на стандарте Frictionless Data, но уже заточенный под конкретный язык
Ссылка: https://github.com/christophergandrud/dpmr
Octopub
Проект Института открытых данных по автоматизации подготовки и публикации наборов данных. Довольно давно находится в стадии Beta, но продолжает развиваться. Важный акцент делают на валидации данных, как минимум на уровне форматов
Ссылка: https://octopub.io
Data Retriever
Сервис и код по подготовке наборов данных и доступа к ним для языков Python и R. В основном ориентирован на исследовательские данные.
Ссылка: https://www.data-retriever.org/
Dolt
Можно сказать Git для данных. Не даёт данным упаковки, но даёт интерфейс похожий на систему контроля версий Git для обновления данных и поддержания их в актуальном состоянии.
Ссылка: https://github.com/liquidata-inc/dolt
Data Version Control (DVC)
Система управления версиями данных ориентированная на машинное обучение. Заточено под данные относительно большого объёма, достигло версии пререлиза 1.0 и активно развивается. Значительно заточено под облачное хранение, такое как AWS S3.
Ссылка: https://dvc.org/
Sno.Earth
Заточено под геоданные и табличные данные, основной стандарт по которому работает это GeoPackage на основе которого даёт возможность работать с данными как система версионирования.
Ссылка: https://sno.earth/
Quilt
Утилита от создателей портала QuiltData, раздающем петабайтный архив данных поверх инфраструктуры AWS. Четко ориентировано на работу с данными как с кодом. Заточено под табличные данные, но возможно пригодно и для других задач.
Ссылки: https://github.com/quiltdata/quilt
—
Это всё, безусловно, не полный список. Существует множество инструментов внутри корпоративных решений, есть продукты умеющие версионировать справочники, есть много подходов к упаковке исследовательских данных и, конечно, за пределами данных, есть множество инструментов создания пакетов с контентом в архивной среде.
#data #datapackages #opensource
Datahub.io
Проект компании Datopian вышедшей из Open Knowledge Foundation. Основная его идея в том чтобы публиковать тщательно упакованные наборы данных в соответствии со стандартом Frictionless Data. Там не так много данных, но есть возможность публиковать свои наборы и есть возможность получать опубликованное там через API или утилиту командной строки "data". Каждый набор данных включает метаданные для интеграции их в свои системы. Ориентирован на табличные данные. Адаптирован более всего под язык Python, но есть много примеров на разных языках.
Ссылка: https://datahub.io
Data Package Manager for R (DPMR)
Система управления пакетами для языка R. Также основана на стандарте Frictionless Data, но уже заточенный под конкретный язык
Ссылка: https://github.com/christophergandrud/dpmr
Octopub
Проект Института открытых данных по автоматизации подготовки и публикации наборов данных. Довольно давно находится в стадии Beta, но продолжает развиваться. Важный акцент делают на валидации данных, как минимум на уровне форматов
Ссылка: https://octopub.io
Data Retriever
Сервис и код по подготовке наборов данных и доступа к ним для языков Python и R. В основном ориентирован на исследовательские данные.
Ссылка: https://www.data-retriever.org/
Dolt
Можно сказать Git для данных. Не даёт данным упаковки, но даёт интерфейс похожий на систему контроля версий Git для обновления данных и поддержания их в актуальном состоянии.
Ссылка: https://github.com/liquidata-inc/dolt
Data Version Control (DVC)
Система управления версиями данных ориентированная на машинное обучение. Заточено под данные относительно большого объёма, достигло версии пререлиза 1.0 и активно развивается. Значительно заточено под облачное хранение, такое как AWS S3.
Ссылка: https://dvc.org/
Sno.Earth
Заточено под геоданные и табличные данные, основной стандарт по которому работает это GeoPackage на основе которого даёт возможность работать с данными как система версионирования.
Ссылка: https://sno.earth/
Quilt
Утилита от создателей портала QuiltData, раздающем петабайтный архив данных поверх инфраструктуры AWS. Четко ориентировано на работу с данными как с кодом. Заточено под табличные данные, но возможно пригодно и для других задач.
Ссылки: https://github.com/quiltdata/quilt
—
Это всё, безусловно, не полный список. Существует множество инструментов внутри корпоративных решений, есть продукты умеющие версионировать справочники, есть много подходов к упаковке исследовательских данных и, конечно, за пределами данных, есть множество инструментов создания пакетов с контентом в архивной среде.
#data #datapackages #opensource
datahub.io
Turn your markdown into a website in a couple of clicks. Avoid the hassle and complexity of deploying yourself.