Полезное чтение про данные, технологии и не только։
- Awesome Polars [1] подборка ссылок про Polars, модную альтернативу библиотеке Pandas, для обработки и анализа данных. Polars построено на языке Rust с поддержкой Python и реализует дата-фреймы на основе спецификации Apache Arrow. Если кратко - это очень быстро, существенно быстрее Pandas при почти полной совместимости
- pandas 2.0 and the Arrow revolution (part I) [2] очень близкая по смыслу тема о перезапуске pandas с поддержкой стандарта Arrow и о том как ускорить эту библиотеку. Что сказать, своевременно [2]
- Tomorrow's weather [3] руководство по тому как визуализировать погоду на глобусе с помощью R и Google Earth Engine.
- Content Moderation - Patterns in Industry [4] о том как технологически устроена модерация контента в индустрии, акцент на архитектуре подхода, без глубокого погружения в код/технические детали, но всё по делу.
- OpenAI's Foundry leaked pricing says a lot – if you know how to read it [5] о том что OpenAI будет продавать доступ к языковым моделям начиная с $250 тысяч и почему это так делается. А также вполне здравые опасения что на рынок труда это окажет сильное влияние, в первую очередь потому что GPT модели будут использовать крупнейшие корпорации для автоматизации офисной и иной работы. И хороший график по автоматизации работы фермеров, в статье.
- Leiden Declaration on FAIR Digital Objects [6] декларация принятая на конференции 1st International Conference on FAIR Digital Objects и посвящённая открытости науки и открытости научной инфраструктуры и создании доступных цифровых объектов. Очень важно для понимания направления развития науки в мире в ближайшие годы. Как ни странно, спонсор конференции Elsevier, хотя один из пунктов декларации есть пункт о приложении усилий к избежанию vendor lock-in
- DeSci Nodes [7] любопытный стартап по публикации результатов научных работ как раз в соответствии с Лейденской декларацией о FAIR объектах, они, в том числе, поддерживают децентрализованные идентификаторы вроде dPid, помимо DOI, и поддерживают исполняемые публикации (executive papers), когда научная работа представлена в виде кода с пояснениями. Интересное что тоже говорят о полной переносимости публикаций и отсутствии vendor lock-in
Ссылки:
[1] https://github.com/ddotta/awesome-polars
[2] https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i
[3] https://dominicroye.github.io/en/2023/tomorrows-weather/
[4] https://eugeneyan.com//writing/content-moderation/
[5] https://cognitiverevolution.substack.com/p/openais-foundry-leaked-pricing-says
[6] https://www.fdo2022.org/programme/leiden-declaration-fdo
[7] https://nodes.desci.com
#readings #openaccess #openscience #datatools #dataviz
- Awesome Polars [1] подборка ссылок про Polars, модную альтернативу библиотеке Pandas, для обработки и анализа данных. Polars построено на языке Rust с поддержкой Python и реализует дата-фреймы на основе спецификации Apache Arrow. Если кратко - это очень быстро, существенно быстрее Pandas при почти полной совместимости
- pandas 2.0 and the Arrow revolution (part I) [2] очень близкая по смыслу тема о перезапуске pandas с поддержкой стандарта Arrow и о том как ускорить эту библиотеку. Что сказать, своевременно [2]
- Tomorrow's weather [3] руководство по тому как визуализировать погоду на глобусе с помощью R и Google Earth Engine.
- Content Moderation - Patterns in Industry [4] о том как технологически устроена модерация контента в индустрии, акцент на архитектуре подхода, без глубокого погружения в код/технические детали, но всё по делу.
- OpenAI's Foundry leaked pricing says a lot – if you know how to read it [5] о том что OpenAI будет продавать доступ к языковым моделям начиная с $250 тысяч и почему это так делается. А также вполне здравые опасения что на рынок труда это окажет сильное влияние, в первую очередь потому что GPT модели будут использовать крупнейшие корпорации для автоматизации офисной и иной работы. И хороший график по автоматизации работы фермеров, в статье.
- Leiden Declaration on FAIR Digital Objects [6] декларация принятая на конференции 1st International Conference on FAIR Digital Objects и посвящённая открытости науки и открытости научной инфраструктуры и создании доступных цифровых объектов. Очень важно для понимания направления развития науки в мире в ближайшие годы. Как ни странно, спонсор конференции Elsevier, хотя один из пунктов декларации есть пункт о приложении усилий к избежанию vendor lock-in
- DeSci Nodes [7] любопытный стартап по публикации результатов научных работ как раз в соответствии с Лейденской декларацией о FAIR объектах, они, в том числе, поддерживают децентрализованные идентификаторы вроде dPid, помимо DOI, и поддерживают исполняемые публикации (executive papers), когда научная работа представлена в виде кода с пояснениями. Интересное что тоже говорят о полной переносимости публикаций и отсутствии vendor lock-in
Ссылки:
[1] https://github.com/ddotta/awesome-polars
[2] https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i
[3] https://dominicroye.github.io/en/2023/tomorrows-weather/
[4] https://eugeneyan.com//writing/content-moderation/
[5] https://cognitiverevolution.substack.com/p/openais-foundry-leaked-pricing-says
[6] https://www.fdo2022.org/programme/leiden-declaration-fdo
[7] https://nodes.desci.com
#readings #openaccess #openscience #datatools #dataviz
GitHub
GitHub - ddotta/awesome-polars: A curated list of Polars talks, tools, examples & articles. Contributions welcome !
A curated list of Polars talks, tools, examples & articles. Contributions welcome ! - GitHub - ddotta/awesome-polars: A curated list of Polars talks, tools, examples & articles. Co...
В рубрике интересных наборов данных Subnational HDI [1] индекс человеческого развития на региональном уровне, например, департаментов во Франции, субъектов федерации в России, штатов в США и тд. Публикуются Global Data Lab, единственное ограничение просят зарегистрироваться у них на сайте перед выгрузкой,
На основе их данных есть самая простая визуализация по регионам.
А вот у команды Mozaiks есть уже совсем не простая визуализация и модель данных [2] для отображения этого индекса на гиперлокальном уровне.
Собственно они в марте 2023 г. опубликовали научную работу Global High-Resolution Estimates of the United Nations Human Development Index Using Satellite Imagery and Machine-learning [3]
Визуализация получается весьма наглядная.
Ссылки:
[1] https://globaldatalab.org/shdi/table/shdi/
[2] https://www.mosaiks.org/hdi
[3] https://www.nber.org/papers/w31044
#opendata #datasets #un #dataviz
На основе их данных есть самая простая визуализация по регионам.
А вот у команды Mozaiks есть уже совсем не простая визуализация и модель данных [2] для отображения этого индекса на гиперлокальном уровне.
Собственно они в марте 2023 г. опубликовали научную работу Global High-Resolution Estimates of the United Nations Human Development Index Using Satellite Imagery and Machine-learning [3]
Визуализация получается весьма наглядная.
Ссылки:
[1] https://globaldatalab.org/shdi/table/shdi/
[2] https://www.mosaiks.org/hdi
[3] https://www.nber.org/papers/w31044
#opendata #datasets #un #dataviz
В рубрике интересных наборов данных, мало кто знает что в Испании кроме официальной статистики, есть так называемая экспериментальная статистика, показатели которой рассчитываются, в основном, из разного рода информационных систем и которая прежде чем стать официальной проверяется, но при этом тоже общедоступна. Раздел с экспериментальной статистикой есть на сайте их Института статистики [1] и включает, например:
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании
И ещё много чего, интересное там есть.
Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.
Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.
Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm
#opendata #dataviz #datasets #spending #tourism #statistics
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании
И ещё много чего, интересное там есть.
Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.
Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.
Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm
#opendata #dataviz #datasets #spending #tourism #statistics
Ещё один любопытный open source продукт Evidence [1] на сей раз для изменения подхода к Business Intelligence. Вместо того чтобы делать графики и сопровождающий текст к каком-либо веб интерфейсе, подход BI-as-a-code, а то есть ты пишешь код в Markdown и он преобразуется в текст и графики.
Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.
В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.
Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.
Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.
Ссылки:
[1] https://evidence.dev
#opensource #dataviz #bi #startups
Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.
В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.
Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.
Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.
Ссылки:
[1] https://evidence.dev
#opensource #dataviz #bi #startups
Очень забавный по подаче проект карты Github'а [1] с визуализацией 400,000+ Github репозиториев.
Автор собрал базу в 350 миллионов лайков ("звездочек" в Github) и подсчитал коэффициент Жаккара для всех репозиториев и собрал кластеры репозиториев и далее оформил в интерактивную карту. Многие делали разные базы и визуализации Github, но вот эта, пожалуй, особенно неплоха.
Например, я там нашёл "полуостров открытого кода для публикации открытых данных" (CKAN, Dataverse и тд). Там видны довольно чёткие кластер по ИИ и данным и так далее.
Практического применения этому пока не видно, но как визуализация вполне неплохо.
Ссылки:
[1] https://anvaka.github.io/map-of-github/
#opensource #dataviz #github
Автор собрал базу в 350 миллионов лайков ("звездочек" в Github) и подсчитал коэффициент Жаккара для всех репозиториев и собрал кластеры репозиториев и далее оформил в интерактивную карту. Многие делали разные базы и визуализации Github, но вот эта, пожалуй, особенно неплоха.
Например, я там нашёл "полуостров открытого кода для публикации открытых данных" (CKAN, Dataverse и тд). Там видны довольно чёткие кластер по ИИ и данным и так далее.
Практического применения этому пока не видно, но как визуализация вполне неплохо.
Ссылки:
[1] https://anvaka.github.io/map-of-github/
#opensource #dataviz #github
А теперь о хорошем, прекрасная визуализация домохозяйств в США на от Nathan Yau на Flowing Data [1]
Кроме 100 наиболее распространённых типов домохозяйств по отношениям между входящими в него людьми и визуализация крупнейшего домохозяйства 19 человек.
Крупнейшего, конечно, с оговоркой что это не данные переписи, а данные опроса 2021 American Community Survey которые автор выгрузил из IPUMS [2] это такая хорошо известная социологам сеть баз данных опросов по США и другим странам. Главное в работе с ними понимать как они устроены поскольку для неподготовленного человека можно легко запутаться в выборе переменных и их сочетаниях.
И вдогонку очень рекомендую визуализацию 2016 года разницы между структурой домохозяйств в США между 1970 годом и 2014 [3] всё кажется очень очевидным, меньше пар с детьми, больше одиночек, и очень наглядным.
Ссылки:
[1] https://flowingdata.com/2023/05/23/all-the-household-types-in-the-u-s/
[2] https://www.ipums.org/
[3] https://flowingdata.com/2016/08/09/household-types-then-and-now/
#opendata #dataviz #infographics
Кроме 100 наиболее распространённых типов домохозяйств по отношениям между входящими в него людьми и визуализация крупнейшего домохозяйства 19 человек.
Крупнейшего, конечно, с оговоркой что это не данные переписи, а данные опроса 2021 American Community Survey которые автор выгрузил из IPUMS [2] это такая хорошо известная социологам сеть баз данных опросов по США и другим странам. Главное в работе с ними понимать как они устроены поскольку для неподготовленного человека можно легко запутаться в выборе переменных и их сочетаниях.
И вдогонку очень рекомендую визуализацию 2016 года разницы между структурой домохозяйств в США между 1970 годом и 2014 [3] всё кажется очень очевидным, меньше пар с детьми, больше одиночек, и очень наглядным.
Ссылки:
[1] https://flowingdata.com/2023/05/23/all-the-household-types-in-the-u-s/
[2] https://www.ipums.org/
[3] https://flowingdata.com/2016/08/09/household-types-then-and-now/
#opendata #dataviz #infographics
Mosaic [1] симпатичный опенсорсный фреймворк визуализации данных. Визуализации можно настраивать через JS, JSON или YAML, что даёт удобное разнообразие того как с этим работать. А то что это фреймворк даёт возможность удобно встраивать в свои продукты. Выглядит как минимум неплохо, стоит попробовать на реальных данных.
Кроме всего прочего обещают прозрачную интеграцию с DuckDB и поддержку больших датасетов, до миллиардов записей.
Ссылки:
[1] https://uwdata.github.io/mosaic/
#dataviz #opensource #datatools
Кроме всего прочего обещают прозрачную интеграцию с DuckDB и поддержку больших датасетов, до миллиардов записей.
Ссылки:
[1] https://uwdata.github.io/mosaic/
#dataviz #opensource #datatools
В рубрике как это работает у них, портал визуализации статистики внешней торговли Эстонии data.stat.ee [1]. Создан командой Datawheel, стартапа которые когда-то создавали DataUSA и ещё ряд проектов с наглядной визуализацией разного рода официальной и частной статистики.
В случае Эстонии это госпортал с официальной статистикой внешней торговли, с наглядной визуализацией и с интерактивной частью где можно посмотреть.
Лично я предпочитаю порталы где можно удобно работать с данными, скачивать или делать запросы к СУБД, но вот такие визуализации хороши когда нужна наглядная визуализация для презентации.
Ссылки:
[1] https://data.stat.ee
#opendata #dataviz #estonia
В случае Эстонии это госпортал с официальной статистикой внешней торговли, с наглядной визуализацией и с интерактивной частью где можно посмотреть.
Лично я предпочитаю порталы где можно удобно работать с данными, скачивать или делать запросы к СУБД, но вот такие визуализации хороши когда нужна наглядная визуализация для презентации.
Ссылки:
[1] https://data.stat.ee
#opendata #dataviz #estonia
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz
Наглядная визуализация датасетов Google и Microsoft с распознанными зданиями [1], а также открытый код библиотеки Leafmap[2] с помощью которой идет визуализация. Автор утверждает что для отображения всего набора данных в 165 ГБ потребовалось всего несколько строчек кода [3]
Ссылки:
[1] https://apps.opengeos.org/buildings.html
[2] https://github.com/opengeos/leafmap
[3] https://twitter.com/giswqs/status/1706800470290051548
#opendata #dataviz #geodata
Ссылки:
[1] https://apps.opengeos.org/buildings.html
[2] https://github.com/opengeos/leafmap
[3] https://twitter.com/giswqs/status/1706800470290051548
#opendata #dataviz #geodata