Ivan Begtin
8.07K subscribers
1.48K photos
3 videos
99 files
4.23K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Стоило мне чуток отвлечься на активный отдых на майские праздники так тут столько всего интересного не-произошло. В РФ правительство не-сменилось и в мире много чего ещё не-приключилось. А я уже очень скоро вернусь к регулярным текстам про каталоги данных, природу данных, инструменты, регулирование и не только.

В ближайшее время буду рассказывать про проекты с данными которые нельзя отнести к порталам данных, но де-факто которые такими являются. И что данных количественно там может быть многократно больше чем на других ресурсах.

#opendata #data #blogging
Пример порталов с данными которые не порталы данных.

Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.

Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.

Ссылки:
[1] https://www.wikiloc.com

#opendata #datasets #data #dataportals #hiking #geodata
Про последние [не]изменения в российском правительстве написать что-то сложное поскольку всё это не про изменения, а про [не]изменения госполитики.
1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки.

2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторые грёбанные монополии национальные чемпионы цифровой отрасли и силовики потому что эти самые "обезличенные" данные будут с бизнеса собирать и законопроект про это давно есть, его отложили, но не отменили.

3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет.

Иначе говоря, ничего неожиданного.

#opendata #government #data #russia #govtech
Помимо данных о маршрутах, о которых я ранее писал [1], есть немало узкоспециализированных источников структурированных данных, не очень то полезных для дата аналитиков и data scientist'ов, но полезных кому то ещё. Например, это данные о 3D моделях, майндмапы и какое-то число других результатов активностей распространяемых в форматах с машиночитаемым экспортом.

Их немало, но применение ограничено и области специфические. Куда интереснее всё становится когда мы переходим от восприятия поиска данных не через призму их обнаружения (discover), а через призму их извлечения и создания (extract). Данные есть и их много внутри чего-то что само по себе данными не является: веб-страниц, PDF файлов, офисных документов и иных документов разметки.

К примеру, бесконечное число таблиц находится в научных статьях и их препринтах, или в публичных отчетах компаний, или в нормативных документах и отчетах госорганов. Иногда (редко) эти таблицы легко извлекаются тэгами в разметке, чаще они представлены в виде изображений. Есть такая очень прикладная задача и даже датасеты по извлечению таких таблиц. У IBM есть датасет FinTabNet [2] с большой коллекцией таблиц извлеченных из отчетов компаний из списка S&P 500. Есть несколько десятков исследователей в мире работающих только над темой автоматического аннотирования подобных таблиц, и есть успехи в этой работе.

Так почему бы не взять один из общедоступных алгоритмов извлечения и не прикрутить к поисковой системе вроде нашего Dateno и не получить сотни миллионов таблиц для индексирования? Вот это уже на 100% вопрос масштаба. Документов в мире значительно больше чем общедоступных данных (за исключением биоинформатики, физики частиц и спутниковых снимков). При этом нужна инфраструктура чтобы хранить первичные документы, обрабатывать их и готовить таблицы. Поисковик превратится из базы метаданных в крупнейшую базу данных, из маршрутизатора на сайты с первоисточниками, в замкнутую на себя экосистему.

Но очень соблазнительно и вполне реалистично. Такой подход - это одна из причин почему я давно говорю о том что превзойти поисковый индекс Google по датасетам несложно, вопрос только в размере ресурсов которые необходимо на это затратить.

И всегда важно помнить что это очень много маленьких датасетов, в то время как для data science, к примеру, нужны хорошо размеченные "большие данные".

Ссылки:
[1] https://t.me/begtin/5616
[2] https://developer.ibm.com/data/fintabnet/

#opendata #data #thoughts #datasets #dateno
В рубрике интересных каталогов данных, данные по астрономии и астрофизике. В РФ немало научных проектов в этой области в которых раскрываются данные используемые исследователями в разных странах. Например, SAI Open Clusters Catalog [1] базе открытых звезных класетров в Млечном Пути с экспортом данных в формате VOTable [2] продвигаемым International Virtual Observatory Alliance. По каждому кластеру отдельный файл с данными.

Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4].

В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру.

Ссылки:
[1] http://ocl.sai.msu.ru
[2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html
[3] http://rcsed.sai.msu.ru/
[4] http://rcsed.sai.msu.ru/data/
[5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml

#opendata #datacatalogs #astronomy #astrophysics #data
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6