Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Полезное чтение про данные, технологии и не только։
- Awesome Polars [1] подборка ссылок про Polars, модную альтернативу библиотеке Pandas, для обработки и анализа данных. Polars построено на языке Rust с поддержкой Python и реализует дата-фреймы на основе спецификации Apache Arrow. Если кратко - это очень быстро, существенно быстрее Pandas при почти полной совместимости

- pandas 2.0 and the Arrow revolution (part I) [2] очень близкая по смыслу тема о перезапуске pandas с поддержкой стандарта Arrow и о том как ускорить эту библиотеку. Что сказать, своевременно [2]

- Tomorrow's weather [3] руководство по тому как визуализировать погоду на глобусе с помощью R и Google Earth Engine.

- Content Moderation - Patterns in Industry [4] о том как технологически устроена модерация контента в индустрии, акцент на архитектуре подхода, без глубокого погружения в код/технические детали, но всё по делу.

- OpenAI's Foundry leaked pricing says a lot – if you know how to read it [5] о том что OpenAI будет продавать доступ к языковым моделям начиная с $250 тысяч и почему это так делается. А также вполне здравые опасения что на рынок труда это окажет сильное влияние, в первую очередь потому что GPT модели будут использовать крупнейшие корпорации для автоматизации офисной и иной работы. И хороший график по автоматизации работы фермеров, в статье.

- Leiden Declaration on FAIR Digital Objects [6] декларация принятая на конференции 1st International Conference on FAIR Digital Objects и посвящённая открытости науки и открытости научной инфраструктуры и создании доступных цифровых объектов. Очень важно для понимания направления развития науки в мире в ближайшие годы. Как ни странно, спонсор конференции Elsevier, хотя один из пунктов декларации есть пункт о приложении усилий к избежанию vendor lock-in

- DeSci Nodes [7] любопытный стартап по публикации результатов научных работ как раз в соответствии с Лейденской декларацией о FAIR объектах, они, в том числе, поддерживают децентрализованные идентификаторы вроде dPid, помимо DOI, и поддерживают исполняемые публикации (executive papers), когда научная работа представлена в виде кода с пояснениями. Интересное что тоже говорят о полной переносимости публикаций и отсутствии vendor lock-in

Ссылки:
[1] https://github.com/ddotta/awesome-polars
[2] https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i
[3] https://dominicroye.github.io/en/2023/tomorrows-weather/
[4] https://eugeneyan.com//writing/content-moderation/
[5] https://cognitiverevolution.substack.com/p/openais-foundry-leaked-pricing-says
[6] https://www.fdo2022.org/programme/leiden-declaration-fdo
[7] https://nodes.desci.com

#readings #openaccess #openscience #datatools #dataviz
В рубрике интересных наборов данных Subnational HDI [1] индекс человеческого развития на региональном уровне, например, департаментов во Франции, субъектов федерации в России, штатов в США и тд. Публикуются Global Data Lab, единственное ограничение просят зарегистрироваться у них на сайте перед выгрузкой,

На основе их данных есть самая простая визуализация по регионам.

А вот у команды Mozaiks есть уже совсем не простая визуализация и модель данных [2] для отображения этого индекса на гиперлокальном уровне.

Собственно они в марте 2023 г. опубликовали научную работу Global High-Resolution Estimates of the United Nations Human Development Index Using Satellite Imagery and Machine-learning [3]

Визуализация получается весьма наглядная.

Ссылки:
[1] https://globaldatalab.org/shdi/table/shdi/
[2] https://www.mosaiks.org/hdi
[3] https://www.nber.org/papers/w31044

#opendata #datasets #un #dataviz
В рубрике интересных наборов данных, мало кто знает что в Испании кроме официальной статистики, есть так называемая экспериментальная статистика, показатели которой рассчитываются, в основном, из разного рода информационных систем и которая прежде чем стать официальной проверяется, но при этом тоже общедоступна. Раздел с экспериментальной статистикой есть на сайте их Института статистики [1] и включает, например:
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании

И ещё много чего, интересное там есть.

Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.

Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.

Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm

#opendata #dataviz #datasets #spending #tourism #statistics
Ещё один любопытный open source продукт Evidence [1] на сей раз для изменения подхода к Business Intelligence. Вместо того чтобы делать графики и сопровождающий текст к каком-либо веб интерфейсе, подход BI-as-a-code, а то есть ты пишешь код в Markdown и он преобразуется в текст и графики.

Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.

В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.

Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.

Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.

Ссылки:
[1] https://evidence.dev

#opensource #dataviz #bi #startups
Очень забавный по подаче проект карты Github'а [1] с визуализацией 400,000+ Github репозиториев.

Автор собрал базу в 350 миллионов лайков ("звездочек" в Github) и подсчитал коэффициент Жаккара для всех репозиториев и собрал кластеры репозиториев и далее оформил в интерактивную карту. Многие делали разные базы и визуализации Github, но вот эта, пожалуй, особенно неплоха.

Например, я там нашёл "полуостров открытого кода для публикации открытых данных" (CKAN, Dataverse и тд). Там видны довольно чёткие кластер по ИИ и данным и так далее.

Практического применения этому пока не видно, но как визуализация вполне неплохо.

Ссылки:
[1] https://anvaka.github.io/map-of-github/

#opensource #dataviz #github
А теперь о хорошем, прекрасная визуализация домохозяйств в США на от Nathan Yau на Flowing Data [1]

Кроме 100 наиболее распространённых типов домохозяйств по отношениям между входящими в него людьми и визуализация крупнейшего домохозяйства 19 человек.

Крупнейшего, конечно, с оговоркой что это не данные переписи, а данные опроса 2021 American Community Survey которые автор выгрузил из IPUMS [2] это такая хорошо известная социологам сеть баз данных опросов по США и другим странам. Главное в работе с ними понимать как они устроены поскольку для неподготовленного человека можно легко запутаться в выборе переменных и их сочетаниях.

И вдогонку очень рекомендую визуализацию 2016 года разницы между структурой домохозяйств в США между 1970 годом и 2014 [3] всё кажется очень очевидным, меньше пар с детьми, больше одиночек, и очень наглядным.

Ссылки:
[1] https://flowingdata.com/2023/05/23/all-the-household-types-in-the-u-s/
[2] https://www.ipums.org/
[3] https://flowingdata.com/2016/08/09/household-types-then-and-now/

#opendata #dataviz #infographics
Mosaic [1] симпатичный опенсорсный фреймворк визуализации данных. Визуализации можно настраивать через JS, JSON или YAML, что даёт удобное разнообразие того как с этим работать. А то что это фреймворк даёт возможность удобно встраивать в свои продукты. Выглядит как минимум неплохо, стоит попробовать на реальных данных.

Кроме всего прочего обещают прозрачную интеграцию с DuckDB и поддержку больших датасетов, до миллиардов записей.

Ссылки:
[1] https://uwdata.github.io/mosaic/

#dataviz #opensource #datatools
В рубрике как это работает у них, портал визуализации статистики внешней торговли Эстонии data.stat.ee [1]. Создан командой Datawheel, стартапа которые когда-то создавали DataUSA и ещё ряд проектов с наглядной визуализацией разного рода официальной и частной статистики.

В случае Эстонии это госпортал с официальной статистикой внешней торговли, с наглядной визуализацией и с интерактивной частью где можно посмотреть.

Лично я предпочитаю порталы где можно удобно работать с данными, скачивать или делать запросы к СУБД, но вот такие визуализации хороши когда нужна наглядная визуализация для презентации.

Ссылки:
[1] https://data.stat.ee

#opendata #dataviz #estonia
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.

Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]

Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html

#opendata #datasets #digitalhumanities #france #dataviz
Наглядная визуализация датасетов Google и Microsoft с распознанными зданиями [1], а также открытый код библиотеки Leafmap[2] с помощью которой идет визуализация. Автор утверждает что для отображения всего набора данных в 165 ГБ потребовалось всего несколько строчек кода [3]

Ссылки:
[1] https://apps.opengeos.org/buildings.html
[2] https://github.com/opengeos/leafmap
[3] https://twitter.com/giswqs/status/1706800470290051548

#opendata #dataviz #geodata