Ivan Begtin
8.07K subscribers
1.48K photos
3 videos
99 files
4.23K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6
В рубрике *как это работает у них* Национальная карта Австралии [1] позволяет отображать более 13 тысяч наборов геоданных из сотен каталогов данных и геосерверов по всей стране. А также позволяет загружать собственные наборы данных и работать с ними на карте. Поддерживает слои по стандартам OGC (WMS, WFS и др.), слои ArcGIS серверов, порталы данных Socrata, OpenDataSoft, файлы GeoJSON и ещё много чего другого.

Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].

Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.

А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].

TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.

Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] http://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] http://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/


#opendata #geodata #spatial #dataviz #data #australia #opensource
В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.

Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.

P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.

Ссылки:
[1] https://www.quantgov.org

#opendata #datasets #laws #regulations #policy
Для тех кто ищет данные сейчас и регулярно не могу не напомнить что в Dateno перенесен каталог порталов данных который ранее был Common Data Index и если в самом Dateno каталог ещё не проиндексирован, можно самостоятельно в него зайти и поискать на его сайте.

Список каталогов на сайте удобнее всего смотреть по странам. А недавно он дополнился 34 геопорталами на базе TerriaJS о котором я ранее писал и порталами Open Data Cube которых в реестре уже 9 штук.

Прежде чем данные проиндексированы поисковой системой они вначале попадают именно в этот каталог, большая часть порталов оттуда уже проиндексирована, а часть на подходе. В частности самое стандартизированное - это как раз Open Data Cube и другие геопорталы со STAC API, а также геопорталы вроде TerriaJS у которых недокументированное, но стандартизированное API.

#opendata #dateno #datasets #datasearch
Я хотел было подробнее написать о том что не так с "Экономикой данных", про усиление цифрового госпатернализма, про отсутствие повестки для малого и среднего бизнеса, про недоступность даже референсных/справочных данных как открытых данных и ещё много что.

Но показательнее всего был сегодняшний момент на ЦИПРе который можно было увидеть в трансляции, когда на панельной секции Потанин, единственный, озвучил проблему доступа к государственным данным, того же Росстата, которые, вообще-то должны быть открытыми просто по факту своего существования и Мишустин парировал ему дословно "А Вы готовы нам свои данные отдавать?". Эта фраза даёт ответ на все вопросы.

Политика пр-ва в отношении открытости данных сейчас такова:
1. Граждане и журналисты полностью игнорируются как потребители данных.
2. Малый и средний бизнес рассматривается только как получатели субсидий, налоговых льгот.
3. Крупный и средний бизнес получает данные только в обмен на что-то, весьма вероятно что очень непубличный обмен их данных.

Де-факто в правительство не считают что открытость - это обязательство исполнительной власти, а открытость данных как инструмент развития экономики. Вместо этого цифровая экономика/экономика данных превращается во внедрения в экономику данных госпродуктов и информационных систем на основе данных полученных от крупного и остального бизнеса.

#opendata #closeddata #russia #policy #government
The OpenDataLab выпустили доклад по использованию открытых данных в генеративном ИИ [1] Выводы в нём все довольно общие и соответствуют общим трендам развития порталов открытых данных, но хорошо систематизированы так что прочитать стоит. Доклад достаточно короткий, интересный примерами которые там разбираются когда на основе данных строят разного рода системы вопросов и ответов.

Например, оттуда я впервые узнал про Wobby [2] систему смешивания открытых госданных и собственных датасетов и построения анализа данных и систем вопросов и ответов, чатботов на основе этого микса.

Другие примеры тоже весьма любопытны.

Ссылки:
[1] http://www.genai.opendatapolicylab.org/
[2] https://wobby.ai/

#opendata #datasets #data #reports #thegovlab #opendatalab
В рубрике *как это устроено в России* о том что должно было бы быть открытыми данными, но ими не является. У почти всех российских регионов есть инвестиционные карты. Это, либо отдельные геопорталы, либо разделы на инвестиционных порталах которые точно есть у всех. Например, инвестиционная карта Курганской области [1] или инвестиционная карта Волгоградской области [2]. Можно убедиться что на них есть слои карт и их от десятков до полутора сотен. Другие подобные инвестиционные карты легко находятся по ссылкам с портала инвестпроектов Минэка РФ [3].

Что можно о них сказать? Они все содержат то или иное недокументированное API. Там всего несколько вендоров геоинформационных систем и у них всё довольно стандартизировано. При очень небольших усилиях то же Минэкономразвития могло бы добавить на нацпортал открытых данных более 1000 датасетов и/или стандартизированных API по стандарту WFS. Очень небольшие расходы на всё это нужно, я бы даже сказал мизерные, а вероятность что эти данные были бы небесполезны, конечно, есть.

Но в России нет уже давно нацпортала открытых данных, деятельность в этой области на федеральном уровне, если не свернута, то подзабили на неё изрядно, особенно в Минэкономразвития.

Кстати, к примеру в Казахстане национальный геопортал [4] сделан довольно прилично и там публикуют открытые данные. Не со всех региональных геопорталов они их агрегируют, но и 571 слой карт - это неплохо.

Возвращаясь к ситуации в РФ. Мне бы вот, например, хотелось агрегировать данные с российских геопорталов в Dateno и даже недокументированность их API решается. У типовых систем, типовые API. Но тут уже другое ограничение, российские госсайты в большинстве своём недоступны с зарубежных IP адресов. Краулер работающий не изнутри страны не сможет достучасться до большого числа сайтов. Это, конечно, тоже решается, но требует больше времени и усилий.

В этом смысле поразительна ситуация с европейскими открытыми данными и открытыми данными в других развитых странах где именно геоданные составляют большую часть всего раскрываемого и опубликовано.

Ссылки:
[1] https://invest45.ru/investmap
[2] https://investmap.volgograd.ru
[3] https://invest.economy.gov.ru
[4] https://map.gov.kz

#opendata #data #geodata #russia #api
В рубрике закрытых данных Правительство Тамбовской области в неизвестный момент между 7 февраля 2024 года и текущей датой убрало все ссылки на данные в разделе "Открытые данные" своего сайта [1]. Как этот раздел выглядел в феврале 2024 года можно увидеть в интернет архиве [2]. Данных там не то чтобы было много, но и эти теперь недоступны.

Можно также обратить внимание что контент официального сайта Пр-ва Тамбовской области не индексируется Интернет архивом уже 2 года, так что при его исчезновении восстановить его из внешних источников будет почти невозможно.

Ссылки:
[1] https://www.tambov.gov.ru/opendata.html
[2] https://web.archive.org/web/20220206004218/https://www.tambov.gov.ru/opendata.html

#opendata #data #tambovregion #dataportals #closeddata
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.

Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].

Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.

Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.

Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/

#opendata #datasets #data #geodata #microsoft
В рубрике закрытых данных в России Минэнерго закрыло статистику о производстве бензина, в РБК подробности [1] а формулировки то там какие «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом»

С такими формулировками можно всё закрыть вообще. У нефтяной компании есть сайт? Его закрытие тоже «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом» .

АЗС публикуют цены? И их надо закрыть. А цены на бензин запретить обсуждать. 😠

Ссылки:
[1] https://www.rbc.ru/economics/29/05/2024/66574a469a79471b5a6f192e

#opendata #closeddata #russia #energy