Невероятный по идее и реализации геопространственный проект OpenTimes [1] в виде визуализации времени поездки на машине, велосипеде или пешком с выбором стартовой точки в виде района и далее по районам отображающий в цвете. Автор Dan Snow рассказывает подробности [2] о том как он из его создал и собрал из 300 GB файлов в несколько файлов Parquet которые хостятся в итоге на Cloudflare R2 и это обходится менее чем в $15 ежемесячно [3]. У проекта открытый исходный код [4], внутри DuckDB и Parquet файлы, Python и Javascript и много первичных данных из базы TIGER переписи населения США.
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
Ожидаемая новость, Coalesce купили каталог данных CastorDoc [1], это был один из наиболее интересных каталогов корпоративных данных или их ещё можно называть каталогами метаданных. CastorDoc сделали сильный акцент на использовании ИИ и автоматизации документирования и контроля качества данных.
Ссылки:
[1] https://coalesce.io/company-news/coalesce-expands-data-platform-castordoc-acquisition-introduces-catalog/
#dataengineering #data #datacatalogs
Ссылки:
[1] https://coalesce.io/company-news/coalesce-expands-data-platform-castordoc-acquisition-introduces-catalog/
#dataengineering #data #datacatalogs
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.
Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].
Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8
#opendata #closeddata #datasets #data
Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].
Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8
#opendata #closeddata #datasets #data