Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Open Data Armenia
[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.

It could be a great source for data visualization for everyone who would like to participate in our contest [4].

[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.

Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.

P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.

[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am

#opendata #timeseries #statistics #money #armenia #cbra #dataviz
В блоге Observable основатель, Mike Bostock пишет про Observable 2.0 который вот-вот вышел 15 февраля и в его основе теперь Observable Framework [2] являющийся генератором статических сайтов с визуализацией и с открытым кодом [3].

Выглядит всё это более чем интересно, фактически - это возможность делать общедоступные и корпоративные аналитические работы в виде гибких дашбордов и дата-историй. При этом всё проектируется в JS + Markdown, а итоговая визуализация может быть довольно продвинутая.

Интересен и сам факт того что автономный продукт с открытым кодом отделяется от облачного сервиса. Чаще всё происходит наоборот, вначале авторы создают крутой open source проект, а потом монетизируют сервис на его основе. А тут сервис есть с самого начала и он остаётся востребованным потому что даёт удобный инструмент для совместной работы.

У Observable, в итоге, получаются очень качественные продукты, как облачные, так и с открытым кодом и для нового фреймворка несомненно будет много интересных задач.


Ссылки:
[1] https://observablehq.com/blog/observable-2-0
[2] https://observablehq.com/framework/
[3] https://github.com/observablehq/framework

#dataviz #opensource
В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.

Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.

Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.

Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.

Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/

#opensource #analytics #dataviz #github
В рубрике как это работает у них городская панель управления (city dashboard) города Тайбэя [1].

Распространяется как открытый код [2] под лицензией AGPL, используется городскими властями внутри и для публики доступно общедоступное demo.

А также к продукту есть обширная документация [3].

Городские дашборды в юго-восточной Азии не редкость, например, есть такой у Гонконга как часть портала открытых данных [4], но к нему не припомню открытого кода.

А вот в Ирландии есть целый проект Building City Dashboards [5] с разными дашбордами, научными работами и открытым кодом. Можно сказать что системный подход к вопросу.

Ссылки:
[1] https://citydashboard.taipei/dashboard-demo/dashboard?index=childcare
[2] https://github.com/tpe-doit/Taipei-City-Dashboard
[3] https://tuic.gov.taipei/documentation/front-end/introduction
[4] https://data.gov.hk/en/city-dashboard#city
[5] https://dashboards.maynoothuniversity.ie/

#dataviz #opensource #opendata #opengov #cities #roc
В рубрике интересных проектов на данных Data Saudi [1] портал по визуализации и понятному представлению данных по Саудовской Аравии. Похоже что делалось всё той же командой Datawheel которые делали когда-то DataUSA [2] и ряд аналогичных проектов для Бразилии, Мексики, Эстонии и Чили [3].

Наглядно выглядит всё красиво, на практике не то чтобы очень функционально. Впрочем такие проекты делают не для аналитиков, а для тех кто вставляет статистику в презентации.

Для меня все эти проекты всё ещё оставляют вопрос в том считать ли их порталами с данными или нет. Данные там есть в VIZ Builder, вполне себе скачиваются и удобнее чем в первоисточнике, но, всё же, система визуализации - это не каталог данных.

Есть над чем подумать , возможно, стоит добавить такие проекты в реестр каталогов данных который я веду и, в будущем, индексировать в Dateno.

P.S. Я, кстати, думал про не создать ли такой проект про Армению, какие то данные под это даже есть, но работа Datawheel стоит очень дорого и интересно можно ли такое сделать дешевле и своими силами

Ссылки:
[1] https://datasaudi.mep.gov.sa/en
[2] https://datausa.io
[3] https://www.datawheel.us/

#opendata #dataviz #visualization #data #saudiarabia
Подборка полезных ссылок про данные, технологии и не только:
- drawdb [1] визуальное проектирование баз данных и SQL генератор на базе draw.io. Открытый код на JS, лицензия MIT. Выглядит очень даже неплохо
- quickwit [2] альтернатива Datadog и подобным сервисам, но с открытым кодом. Реализует поисковую систему для наблюдаемости процессов. Лицензия AGPL или коммерческая, для бизнеса. Выглядит как минимум интересно, очередной пример YAML программирования, огромного числа файлов для настройки.
- paradedb [3] альтернатива Elasticsearch на базе Postgres, обещают что внутри файлы parquet и многократно выше скорость аналитических запросов. Обещают облачный сервис, пока доступен open source продукт. Лицензия AGPL для всех и коммерческая для бизнеса.
- traefik [4] реверсный прокси для HTTP для развертывания микросервисов и API, похож на альтернативу Kong и Tyk. Открытый код под MIT лицензией

Ссылки:
[1] https://github.com/drawdb-io/drawdb
[2] https://github.com/quickwit-oss/quickwit
[3] https://github.com/paradedb/paradedb
[4] https://github.com/traefik/traefik

#opensource #data #datatools #api #dataviz
В рубрике *как это работает у них* Национальная карта Австралии [1] позволяет отображать более 13 тысяч наборов геоданных из сотен каталогов данных и геосерверов по всей стране. А также позволяет загружать собственные наборы данных и работать с ними на карте. Поддерживает слои по стандартам OGC (WMS, WFS и др.), слои ArcGIS серверов, порталы данных Socrata, OpenDataSoft, файлы GeoJSON и ещё много чего другого.

Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].

Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.

А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].

TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.

Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] http://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] http://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/


#opendata #geodata #spatial #dataviz #data #australia #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.

Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.

Автор явно создал движок под облачный стартап где такое будет из коробки.

И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.

Ссылки:
[1] https://github.com/squaredtechnologies/thread

#opensource #ai #analytics #dataviz #jupyter
Свежая бесплатная полезная книга
Visualization for Public Involvement [1] про визуализацию инфраструктурных проектов для упрощения принятия решений, в том числе с вовлечением граждан. Вся книга построена вокруг транспортных проектов и примеров их визуализации департаментами транспорта в штатах США. Она в меньшей степени про работу с данными как с данными и в большей степени про визуализацию для нетехнических специалистов, но сложным образом, с 3D моделированием и тд. и про то как это позволяет вовлекать их в принятие решений.

Ссылки:
[1] https://nap.nationalacademies.org/catalog/27882/visualization-for-public-involvement

#dataviz #transport
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.

Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.

Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.

Ссылки:
[1] https://usafacts.org/just-the-facts/budget/

#budget #government #usa #dataviz #infographics
Городские дашборды Гонконга [1] из плюсов выглядят довольно неплохо, из минусов данные не обновляли с февраля 2024 г. Интегрированы с национальным порталом открытых данных [2] где много разных данных и API.

В восточной и юго-восточной азии, в принципе, популярны городские и страновые дашборды, но всё время остаётся ощущение что они какой-то эксперимент.

Ссылки:
[1] https://dashboard.data.gov.hk/city-at-a-glance
[2] https://data.gov.hk/tc/

#opendata #data #hongkong #dashboards #dataviz
Для тех кто любит визуализировать данные нестандартными способами, сайт Printing Money [1] с визуализацией доходов или расходов, в общем, денег в час в виде напечатанных долларов. Начинает с минимальной оплаты труда, заканчивает военными расходами США и дефицитом бюджета США. Скриншот не отражает движения, лучше смотреть на сайте, а видео не прилагаю потому что файл видео или GIF получаются слишком большими.

Интересная задумка, применима не только к деньгам.

Ссылки:
[1] https://neal.fun/printing-money/

#dataviz
Пишут что Looker, сервис от Google более не работает в России для российских аккаунтов. Я сам проверить никак не могу, мой аккаунт там к РФ не был привязан, но если у вас такой есть, то проверьте на всякий случай. Всё таки Looker был и остаётся весьма качественным продуктом по визуализации данных.

#sanctions #russia #dataviz
Любопытное про визуализацию индикаторов. Смотрю публикацию в блоге World Bank с данными по их индексу бедности, замене индекса Gini [1] и она по умолчанию бинарная. Условно: всё плохо и всё не так уж плохо. Там же в той же визуализации есть возможность посмотреть детализированную раскладку по странам, но что-то есть в донесении знаний в виде двух визуализаций: простой и посложнее. Сделано всё это несложно и визуализировано популярными инструментами, вопрос самого подхода. Вначале быстрое послание, потом развернутое.

Второй пример - это рейтинг/индекс WJP Rule of Law Index. Там не все страны, например, Армении нет, но можно посмотреть на примере России [2], весьма любопытный способ визуализации позиций в индексе и многочисленных субиндексах. Создатели явно вложились в визуализацию и интерактивность, можно рассматривать как хороший пример таких визуализаций. Я вот этих индексов перевидал уже под сотню и хорошая подача - это всегда интересно.

А заодно можно увидеть как со стороны оценивают текущую открытость данных и законов в РФ. Оценивают, как ни странно, выше чем некоторые европейские страны. Впрочем тут важно помнить что в в 2021 г. Россия по открытости гос-ва была на 41 месте, в 2022 - тоже на 41, в 2023 на 42, а в 2024 на 47.

Впрочем, возвращаясь к визуализации, жаль что сайт у них не с открытым кодом.

Вообще все эти международные страновые рейтинги почти все можно было бы упаковать в один типовой движок, но почти все они про привлечение внимание и активно развиваются в части интерактивности и визуализации. Так что новые примеры посмотреть всегда любопытно.

Ссылки:
[1] https://blogs.worldbank.org/en/opendata/inside-the-world-bank-s-new-inequality-indicator--the-number-of-
[2] https://worldjusticeproject.org/rule-of-law-index/country/2024/Russian%20Federation
[3] https://worldjusticeproject.org/rule-of-law-index/factors/2024/Russian%20Federation/Open%20Government

#opendata #opengovernment #dataviz
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.

Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.

Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.

Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.

Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.

Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex

#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
Подборка ссылок про данные, технологии и не только:
- OpenSeaMap [1] аналог OpenStreetMap для морей, открытая краудсорсинговая карта морей и морской инфраструктуры. Нигде не видел сравнений масштабов проекта с коммерческими, но может быть есть шанс повторить судьбу OSM ?
- Data Formulator [2] инструмент по автоматизации визуализации данных с помощью ИИ. Создан исследователями из Microsoft в рамках научной работы. Впервые опубликовали в январе 2024, а в октябре добавили возможность запускать его локально
- 30DayMapChallenge [3] глобальный конкурс для GIS специалистов с ежедневными задачками по визуализации геоданных. В этот раз задачки на ноябрь 2024. Для тех кто хочет показать что умеет визуализировать данные - это очень хороший конкурс чтобы показать себе и другим уровень своих навыков.
- A Business Analyst’s Introduction to Business Analytics [4] книга по бизнес аналитике в открытом доступе. Все примеры на языке R, для тех кто интересуется первым и знает второе - самое оно.
- First aid for figures [5] добротная подборка ресурсов о том как учёным лучше оформлять их работы, научные иконки для замены текстов, оформление таблиц, оформление изображений и тд.
- Chart.css [6] один из самых простых инструментов рисования графиков с помощью элементов HTML и CSS стилей. Поддерживает много видов графиков, очень просто настраивается и очень легковесен.
- A vision for public sector data in Scotland [7] в Шотландии моделируют стратегию региона по работе с госданными. Для этого там создали группу экспертов из 30 человек и под названием Horizon Scan Group после чего те разработали вот такой документ долгосрочного видения
- Using Rust in Non-Rust Servers to Improve Performance [8] большой гайд о том как оптимизировать выполнение задач с помощью Rust для проектов не на Rust. Ваш код медленно работает? Так его можно переписать на Rust, во много как альтернатива переписывания его на C++.

Ссылки:
[1] http://openseamap.org
[2] https://github.com/microsoft/data-formulator
[3] https://30daymapchallenge.com/
[4] https://www.causact.com/
[5] https://helenajamborwrites.netlify.app/posts/24-10_linkcollection/
[6] https://chartscss.org/
[7] https://community.thedatalab.com/news/2187703
[8] https://github.com/pretzelhammer/rust-blog/blob/master/posts/rust-in-non-rust-servers.md

#opensource #gis #dataviz #opendata
Кстати, я вот не обращал внимание, а сегодня обнаружил что Datalens [1] существует как open source продукт.

И сразу много вопросов к залу.

Есть ли кто-то кто развертывал его в корпоративной сети или в облаке? Есть ли какие-то зависимости от чужих сервисов или можно использовать хоть в полностью закрытой сети?

И ещё вопрос, кем теперь будет развиваться этот продукт, Яндексом или Nebius ?

Есть задачи где нужны похожие BI и хочется понять стоит ли развертывать локально и экспериментировать с Datalens.

Ссылки:
[1] https://datalens.tech

#opensource #dataviz