Ivan Begtin
8.99K subscribers
2.62K photos
5 videos
114 files
5.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Hugging Science специальный проект Hugging Face по систематизации и доступности датасетов для исследователей в области ИИ. Почти все датасеты по естественным наукам - биология, физика, геномика, инженерия, математика, химия и медицина.

Гуманитарных наук там нет, экономики нет, да и много чего другого нет.

Выглядит интересно, надо наблюдать.

#openscience #opendata
16🤔51😢1
Zero-Click Government (Без-кликовое правительство) свежая книга от одноименной институции Zero-click government institute основанным Gustavo Moreira Maia основателем бразильского govtech стартапа Colab про коммуникацию граждан и госорганов. Книга, по сути, про проактивные госуслуги и проактивную бюрократию. Примеров у них на сайте и, как я понимаю, в книге довольно много и в разных странах. С сильным искажением в сторону опыта который им доступен - англо и испаноязычного потому что такие же проактивные услуги есть и в Восточной Азии, и в Центральной Азии, и в РФ. Разве что в Африке и арабских странах пока маловато или просто знают об этом не все.

Книга пока не опубликована, можно подписаться на уведомление о ней. В моем представлении Без-кликовое правительство/государство - это еще одна попытка придумать маркетинговое название для государства углубленного цифрового патернализма. В РФ на уровне пр-ва это называют "Государство для людей", в других странах иначе.

Собственно выходя за рамки позитивной повестки проблема в том что проактивное государство - не всегда позитивное. И вопрос области применения этой проактивности. Проактивность в автоматическом предоставлении льгот и налоговых вычетов или проактивность в раздаче цифровых повесток и мобилизации?

В любом случае материалы на эту темы интересны и буду эту книжку заказывать когда она выйдет.

#opengov #readings
👍8💯4❤‍🔥2
Новый официальный портал открытых данных Греции data.gov.gr

Из значимых изменений:
- 9524 набора данных вместо 84 в прошлой версии
- мигрировали с собственной разработки на портал на базе CKAN
- у каждого датасета теперь есть вкладка "Metadata quality" с оценкой качества метаданных
- сделали отдельный сайт с документацией https://data-gov-gr.gitbook.io/guides
- добавили каталог API (Data services)
- 601 набор данных - это данные особой ценности

Нельзя сказать что выглядит революционно (не считая числа опубликованных наборов данных), но эволюция присутствует.

P.S. Но они, конечно, жулики еще те потому что львиная часть наборов данных - это разрезанные на кусочки большие датасеты. Например, наборы данных государственного архива составляют 890 записей нарезанные по десятку и даже меньше записей в виде отдельных датасетов. Я так могу миллионы датасетов создать за полчаса 😎, так что все это опять рейтингодрочество попытки казаться, а не быть.

#opendata #datasets #greece #datacatalogs
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8👍4🔥4❤‍🔥11💯1
В рубрике как это устроено у них продолжение про открытые данные Всемирного Банка.

- https://datacatalog.worldbank.org/ - каталог данных Всемирного Банка собранный из многочисленных проектов организации и проектов ей профинансированных. Более 7 тысяч наборов данных, зачастую довольно большого объема
- https://data.worldbank.org - портал статистики и индикаторов публикуемой Всемирным Банком (агрегируемой из национальных и международных источников)
- https://data360.worldbank.org/en/economies - новый портал статистики Всемирного Банка, замещает разделы и страницы портала data.worldbank.org
- https://databank.worldbank.org/ - портал статистики в виде BI системы с возможностью визуализации показателей из базы индикаторов Всемирного Банка
- https://disabilitydata.worldbank.org/en/home - данные проекта по людям. с ограниченными возможностями
- https://wbl.worldbank.org/en/data - данные проекта Women Business and the Law
- https://ssbtax.worldbank.org/ - база данных по налогам на сладкие напитки (напитки подслащенные сахаром). Выгружается через каталог данных
- https://digitalfinance.worldbank.org/country - данные проекта по цифровым финансам (можно скачать в Excel)
- https://opendatatoolkit.worldbank.org - руководство Всемирного Банка по публикации открытых данных, подробный гайдлайн
- https://wits.worldbank.org/ - база данных по международной торговле включая API
_ https://reproducibility.worldbank.org/home - портал воспроизводимости исследований включая код, документацию и данные необходимые для воспроизведени

#opendata #datasets #datacatalogs #data #statistics
👍3🔥32😁2
Интересные международные базы данных охватывающие почти все или многие страны мира:
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо

#opendata #data #datasets #statistics #transport #energy #climate #aviation
5🔥32
Мысли вслух по поводу применения ИИ для создания наборов данных. Многие российские ведомства за последние годы удалили немало статистических данных и других датасетов, отчетов и докладов со своих сайтов, но, на самом деле, произошло примерно следующее. Данные пропали в структурированном виде, но фрагментарно публикуются их пресс-службами в виде агргеированных цифр и, реже, публикуются разного рода отраслевыми изданиями.

Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".

Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.

Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.

Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.

А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.

В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.

#opendata #data #thoughts
8👍54😁1
Я как-то уже делал заметку про публикацию статистики статкомитетом СНГ и вот сейчас изучая их ресурсы обнаружил что это чуть ли не один из немногих системно организованных ресурсов статистики на постсоветском пространстве (не считая стран Балтии интегрированных в Евростат).

Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI

Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.

Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).

Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.

Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.

Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.

#opendata #datasets #data #datacatalogs #statistics
👍4321
По поводу введения "платы за VPN сервисы" в России, давайте называть всё своими именами. Это выглядит как цифровой налог на бедных. Понятно что те кому это критично найдут на это деньги (или способ обойти и это) и понятно что интернет-провайдеров будут люто за это ненавидеть. А для людей с небольшими и средними доходами - это будет очень болезнено. И отличить любой другой зарубежный трафик от VPN будет практически невозможно. И богатых имеющих доступ к зарубежному трафику тоже будут ненавидеть, не так сильно как провайдеров и регуляторов, но тоже. Общий градус злости будет сильно выше

Так что инициатива так себе во всех смыслах. Хуже только тотальный запрет зарубежного трафика.

#thoughts
3💯3🤝1