Ivan Begtin
8.07K subscribers
1.48K photos
3 videos
99 files
4.22K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Пример порталов с данными которые не порталы данных.

Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.

Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.

Ссылки:
[1] https://www.wikiloc.com

#opendata #datasets #data #dataportals #hiking #geodata
Про последние [не]изменения в российском правительстве написать что-то сложное поскольку всё это не про изменения, а про [не]изменения госполитики.
1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки.

2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторые грёбанные монополии национальные чемпионы цифровой отрасли и силовики потому что эти самые "обезличенные" данные будут с бизнеса собирать и законопроект про это давно есть, его отложили, но не отменили.

3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет.

Иначе говоря, ничего неожиданного.

#opendata #government #data #russia #govtech
Помимо данных о маршрутах, о которых я ранее писал [1], есть немало узкоспециализированных источников структурированных данных, не очень то полезных для дата аналитиков и data scientist'ов, но полезных кому то ещё. Например, это данные о 3D моделях, майндмапы и какое-то число других результатов активностей распространяемых в форматах с машиночитаемым экспортом.

Их немало, но применение ограничено и области специфические. Куда интереснее всё становится когда мы переходим от восприятия поиска данных не через призму их обнаружения (discover), а через призму их извлечения и создания (extract). Данные есть и их много внутри чего-то что само по себе данными не является: веб-страниц, PDF файлов, офисных документов и иных документов разметки.

К примеру, бесконечное число таблиц находится в научных статьях и их препринтах, или в публичных отчетах компаний, или в нормативных документах и отчетах госорганов. Иногда (редко) эти таблицы легко извлекаются тэгами в разметке, чаще они представлены в виде изображений. Есть такая очень прикладная задача и даже датасеты по извлечению таких таблиц. У IBM есть датасет FinTabNet [2] с большой коллекцией таблиц извлеченных из отчетов компаний из списка S&P 500. Есть несколько десятков исследователей в мире работающих только над темой автоматического аннотирования подобных таблиц, и есть успехи в этой работе.

Так почему бы не взять один из общедоступных алгоритмов извлечения и не прикрутить к поисковой системе вроде нашего Dateno и не получить сотни миллионов таблиц для индексирования? Вот это уже на 100% вопрос масштаба. Документов в мире значительно больше чем общедоступных данных (за исключением биоинформатики, физики частиц и спутниковых снимков). При этом нужна инфраструктура чтобы хранить первичные документы, обрабатывать их и готовить таблицы. Поисковик превратится из базы метаданных в крупнейшую базу данных, из маршрутизатора на сайты с первоисточниками, в замкнутую на себя экосистему.

Но очень соблазнительно и вполне реалистично. Такой подход - это одна из причин почему я давно говорю о том что превзойти поисковый индекс Google по датасетам несложно, вопрос только в размере ресурсов которые необходимо на это затратить.

И всегда важно помнить что это очень много маленьких датасетов, в то время как для data science, к примеру, нужны хорошо размеченные "большие данные".

Ссылки:
[1] https://t.me/begtin/5616
[2] https://developer.ibm.com/data/fintabnet/

#opendata #data #thoughts #datasets #dateno
В рубрике интересных каталогов данных, данные по астрономии и астрофизике. В РФ немало научных проектов в этой области в которых раскрываются данные используемые исследователями в разных странах. Например, SAI Open Clusters Catalog [1] базе открытых звезных класетров в Млечном Пути с экспортом данных в формате VOTable [2] продвигаемым International Virtual Observatory Alliance. По каждому кластеру отдельный файл с данными.

Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4].

В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру.

Ссылки:
[1] http://ocl.sai.msu.ru
[2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html
[3] http://rcsed.sai.msu.ru/
[4] http://rcsed.sai.msu.ru/data/
[5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml

#opendata #datacatalogs #astronomy #astrophysics #data
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6
В рубрике *как это работает у них* Национальная карта Австралии [1] позволяет отображать более 13 тысяч наборов геоданных из сотен каталогов данных и геосерверов по всей стране. А также позволяет загружать собственные наборы данных и работать с ними на карте. Поддерживает слои по стандартам OGC (WMS, WFS и др.), слои ArcGIS серверов, порталы данных Socrata, OpenDataSoft, файлы GeoJSON и ещё много чего другого.

Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].

Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.

А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].

TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.

Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] http://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] http://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/


#opendata #geodata #spatial #dataviz #data #australia #opensource
В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.

Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.

P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.

Ссылки:
[1] https://www.quantgov.org

#opendata #datasets #laws #regulations #policy
Для тех кто ищет данные сейчас и регулярно не могу не напомнить что в Dateno перенесен каталог порталов данных который ранее был Common Data Index и если в самом Dateno каталог ещё не проиндексирован, можно самостоятельно в него зайти и поискать на его сайте.

Список каталогов на сайте удобнее всего смотреть по странам. А недавно он дополнился 34 геопорталами на базе TerriaJS о котором я ранее писал и порталами Open Data Cube которых в реестре уже 9 штук.

Прежде чем данные проиндексированы поисковой системой они вначале попадают именно в этот каталог, большая часть порталов оттуда уже проиндексирована, а часть на подходе. В частности самое стандартизированное - это как раз Open Data Cube и другие геопорталы со STAC API, а также геопорталы вроде TerriaJS у которых недокументированное, но стандартизированное API.

#opendata #dateno #datasets #datasearch
Я хотел было подробнее написать о том что не так с "Экономикой данных", про усиление цифрового госпатернализма, про отсутствие повестки для малого и среднего бизнеса, про недоступность даже референсных/справочных данных как открытых данных и ещё много что.

Но показательнее всего был сегодняшний момент на ЦИПРе который можно было увидеть в трансляции, когда на панельной секции Потанин, единственный, озвучил проблему доступа к государственным данным, того же Росстата, которые, вообще-то должны быть открытыми просто по факту своего существования и Мишустин парировал ему дословно "А Вы готовы нам свои данные отдавать?". Эта фраза даёт ответ на все вопросы.

Политика пр-ва в отношении открытости данных сейчас такова:
1. Граждане и журналисты полностью игнорируются как потребители данных.
2. Малый и средний бизнес рассматривается только как получатели субсидий, налоговых льгот.
3. Крупный и средний бизнес получает данные только в обмен на что-то, весьма вероятно что очень непубличный обмен их данных.

Де-факто в правительство не считают что открытость - это обязательство исполнительной власти, а открытость данных как инструмент развития экономики. Вместо этого цифровая экономика/экономика данных превращается во внедрения в экономику данных госпродуктов и информационных систем на основе данных полученных от крупного и остального бизнеса.

#opendata #closeddata #russia #policy #government
The OpenDataLab выпустили доклад по использованию открытых данных в генеративном ИИ [1] Выводы в нём все довольно общие и соответствуют общим трендам развития порталов открытых данных, но хорошо систематизированы так что прочитать стоит. Доклад достаточно короткий, интересный примерами которые там разбираются когда на основе данных строят разного рода системы вопросов и ответов.

Например, оттуда я впервые узнал про Wobby [2] систему смешивания открытых госданных и собственных датасетов и построения анализа данных и систем вопросов и ответов, чатботов на основе этого микса.

Другие примеры тоже весьма любопытны.

Ссылки:
[1] http://www.genai.opendatapolicylab.org/
[2] https://wobby.ai/

#opendata #datasets #data #reports #thegovlab #opendatalab