Ivan Begtin
8.08K subscribers
1.45K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Подборка ссылок и моих наблюдений про то как публикуют данные в мире:

1. Китайский национальный центр по биоинформатике собирает базы общим размером более 51 петабайта [1] большая часть которых доступна для скачивания онлайн через их FTP сервер, посмотреть можно через веб интерфейс их FTP сервера [2]

2. THREDDS Data Server [3] софт с открытым кодом для публикации научных данных. Изначально создан для работы с метеорологическими данными и, в основном, так и применяется. Несколько десятков инсталляций по всему миру, хотя сам продукт очень консервативный и заточенный под конкретную область. Можно посмотреть пример такого каталога [4]

3. Github - это крупнейший каталог данных, но плохо структурированный. Опубликовать данные там просто, найти данные там сложно потому что будучи репозиторием кода датасеты там не структурированы в отдельную категорию. Можно искать их через правильные поисковые запросы, например, находя спецификации Frictionless Data которые в файлах datapackage.json [5]

4. Datamed [6] поисковик по биомедицинским датасетам, пишут что их там миллионы, по факту 1.2 миллиона из 49 репозиториев. Из них 80% датасетов из всего 4-х репозиториев имеющих более продвинутые формы поиска. Идея хорошая, реализация, на мой взгляд, не очень, недостаточно нового качества создаётся. Ну и индексируют они похоже отдельными парсерами под каждый источник и у них всё та же запутанность о том что считать датасетами.

5. Уже несколько раз сталкиваюсь с тем что, казалось бы, у типового ПО для публикации данных нет API. Нечасто но такое бывает и выясняется что это не нет API, а подход возврата разного содержания от передачи заголовка Accept: application/json в HTTP запросе. То есть, де-факто, API есть, но GET запрос не вернет JSON или другой машиночитаемый ответ. Любопытно насколько это распространено в публикации чего-то ещё, есть подозрение что это не такое редкое явление и не только про каталоги данных.

Ссылки:
[1] https://www.cncb.ac.cn/
[2] https://download.cncb.ac.cn/
[3] https://github.com/Unidata/tds
[4] https://thredds.rda.ucar.edu/thredds/catalog/catalog.html
[5] https://github.com/search?q=path%3A**%2Fdatapackage.json&type=code&ref=advsearch
[6] https://datamed.org/

#opendata #data #datasets #datatools #datacatalogs #datasearch
Один из крупнейших каталогов геоданных в России - это ФГИС Территориального планирования (ФГИС ТП) [1] управляемое Минэкономразвития РФ. Значительная часть этих данных - это геоданные в форматах XML, GML и других, но их нельзя скачать, скачивать можно только данные в растровой форме - PDF, TIF, JPG, PNG

Хотя именно открытые геоданные составляют большую часть открытых данных в развитых странах, но это не про РФ, и не про ряд стран секретящих всё что связано с их территориями.

Эти данные не закрывались в 2022 году и позже поскольку не открывались никогда.

В общей сложности там порядка 200 тысяч принятых документов из которых не менее четверти должны содержать машиночитаемые геоданные.

Ссылки:
[1] https://fgistp.economy.gov.ru

#opendata #closeddata #geodata #russia
Я тут, внезапно, обнаружил что замечательный гайд Джошуа Тауберера по организации хакатонов [1] не переводился не то что на русский язык, но и на многие другие. Впрочем в том виде как он был написан ещё 10 лет назад его уже применять не стоит, очень многое перенеслось в онлайн и сами хакатоны стали уже другими, кроме них появилось немало других форм совместного кодирования/сбора данных/проведения конкурсов и многого другого.

С другой стороны я вижу отсутствие гайда/чеклиста для самих участников хакатонов. Понятно что в большинстве хакатонов участвуют начинающие разработчики, но одновременно - это тест на их способность расти дальше в навыках и карьере.

Ссылки:
[1] https://hackathon.guide/

#opensource #hackathons #guide
Анализируя источники данных по всем буквально странам мира вижу довольно заметную и четкую корреляцию между развитостью страны, числом населения и числом каталогов данных и датасетов.

Причём именно в такой последовательности, вначале уровень развития (доход на душу населения, условно) и только далее уже число населения. К примеру, поэтому сотни тысяч наборов данных и более 200 каталогов данных в Нидерландах и почти ничего нет в Мьянме (Бирме). Собственно по этой причине нет почти никаких внутренних данных по Афганистану, Зимбабве, Туркменистану и ещё много каким странам. Но вот нельзя сказать что есть корреляция с политическим режимом в чистом виде. К примеру, в Китае более чем много данных публикуется.

Впрочем чуть ли не самым главным фактором является интегрированность страны в мировую экономику (науку, привлечение инвестиций и тд.), когда интегрированность высока то данных довольно много, особенно научных данных, кстати.

#opendata #datasets #data #thoughts
Подборка полезных ссылок про данные, технологии и не только:
- drawdb [1] визуальное проектирование баз данных и SQL генератор на базе draw.io. Открытый код на JS, лицензия MIT. Выглядит очень даже неплохо
- quickwit [2] альтернатива Datadog и подобным сервисам, но с открытым кодом. Реализует поисковую систему для наблюдаемости процессов. Лицензия AGPL или коммерческая, для бизнеса. Выглядит как минимум интересно, очередной пример YAML программирования, огромного числа файлов для настройки.
- paradedb [3] альтернатива Elasticsearch на базе Postgres, обещают что внутри файлы parquet и многократно выше скорость аналитических запросов. Обещают облачный сервис, пока доступен open source продукт. Лицензия AGPL для всех и коммерческая для бизнеса.
- traefik [4] реверсный прокси для HTTP для развертывания микросервисов и API, похож на альтернативу Kong и Tyk. Открытый код под MIT лицензией

Ссылки:
[1] https://github.com/drawdb-io/drawdb
[2] https://github.com/quickwit-oss/quickwit
[3] https://github.com/paradedb/paradedb
[4] https://github.com/traefik/traefik

#opensource #data #datatools #api #dataviz
Для тех кто интересуется поиском по данным и каталогами данных, реестр каталогов переехал на сайт Dateno и теперь доступен по адресу dateno.io/registry и содержит ещё и статистику из самого портала Dateno, по странам и по каждому каталогу в числе датасетов.

Собственно Dateno - это крупнейший открытый индекс и поисковик по данным и раскрытие по масштабу индексирования - это про то как он работает.

Пока в качестве преданонса, в поисковик загружаются ещё миллионы датасетов и это то что будет в следующем его обновлении. А вскоре будет и обещанное API, в первую очередь для beta тестирования и по запросу, а когда сделаем личный кабинет на сайте то и доступное для всех.

#dateno #datacatalogs #datasearch #data #opendata
В рубрике больших каталогов открытых данных данные проекта ENCODE [1] энциклопедии элементов ДНК. Всего в проекте более 643 тысяч наборов данных в специализированных форматах bigWig, bed bed 3+, fastq, bam и других, общим количеством в несколько петабайт.

Эти же данные доступны исследователям через сервисы Amazon AWS и Azure Datasets.

Это очень специализированные данные которые ищут по своей логике и правилам. Например, мы без труда сможем добавить их в поисковый индекс Dateno , что сразу увеличит число датасетов привязанных к США, имеющих научную атрибуцию поскольку почти все эти данные созданы в США и более 80% в одной лаборатории.


Ссылки:
[1] https://www.encodeproject.org/datasets/

#opendata #datacatalogs #datasets #data
В рубрике как это устроено у них британское НКО Align to Innovate [1] сфокусированы на развитии открытости в биоинформатике через конкурсы, турниры и открытые данные в этой сфере. У них пример подхода к публикации данных через верификацию сообществом [2] начиная с dataset proposal (предложения конкретного набора данных) и продолжая сбором данных.

Очень логичная инициатива потому что подготовка больших верифицированных академических датасетов - это большая работа и дорогая к тому же. А здесь логичный процесс особенно если научные фонды понимают зачем создаются данные и то что надо финансировать процесс их создания.

Ссылки:
[1] https://alignbio.org
[2] https://alignbio.org/datasets-in-detail

#opendata #datasets #openaccess #data
В рубрике как это работает у них портал открытых данных Фолклендских островов [1] включает 560 наборов данных большая часть которых посвящена территории, океану, окружающей среде, животному миру островов и окружающей территории.

Общее население островов 3662 человека (по итогам 2021 года).

Бюджет островов также весьма невелик.

Если посравнивать с тем сколько данных публикуется в других странах, то это очень даже немало.

Ссылки:
[1]http://dataportal.saeri.org/

#opendata #data #uk #falklands #datacatalogs #datasets
Открытость исчезла из деятельности Правительства Нижегородской области РФ (c)

Этот заголовок можно воспринимать буквально, поскольку после обновления сайта Пр-ва Нижегородской области из него полностью исчез раздел Открытые данные . Ранее он был доступен и сейчас его можно найти на старом сайте Пр-ва [1] и ссылка не него была в разделе Деятельность старого сайта [2].

На новом сайте раздела нет и в разделе Деятельность [3] нет упоминания открытости и по словам "открытые данные" [4] ничего не найти.

Пока ещё остались только отдельные упоминания датасетов на сайтах отдельных органов власти области.

Ссылки:
[1] http://old.nobl.ru/?id=158039
[2] http://old.nobl.ru/activities
[3] https://nobl.ru/deyatelnost-pravitelstva/
[4] https://nobl.ru/search/?q=%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5+%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5

#opendata #datasets #data #closeddata #russia
В рубрике как это устроено у них статистическая служба Мексики в лице INEGI, Национального института статистики и географии, публикует топографические данные статнаблюдений в векторном виде, Shape файлах [1], а также предоставляет API для доступа к большей части статистических публикаций и индикаторов [2]. Ещё одна важная их особенность в том что по каждому наблюдению все продукты которые на его основе создаются собраны вместе на вкладках исследования можно наблюдать:
- методологию/документацию
- таблицы в Excel
- открытые данные
- микроданные (если есть)
- статсборники если есть

Все их можно скачать разом, в режиме массовой выгрузки через систему DENUE [3] сводящую метаданные из всех баз данных поддерживаемых INEGI

Ссылки:
[1] https://www.inegi.org.mx/programas/topografia/50000/#descargas
[2] https://www.inegi.org.mx/servicios/api_indicadores.html
[3] https://www.inegi.org.mx/app/descarga/

#opendata #statistics #mexico #datasets #data
Свежий 2024 AI Index Report [1] много полезных материалов, и основные выводы:

1. ИИ превосходит человека в некоторых задачах, но не во всех.
2. Промышленность продолжает доминировать в исследованиях передового ИИ.
3. Пограничные (Frontier) модели становятся все дороже.
4. США опережают Китай, ЕС и Великобританию в качестве ведущего источника лучших моделей ИИ.
5. Надежных и стандартизированных оценок ответственности LLM очень не хватает.
6. Инвестиции в генеративный ИИ стремительно растут.
7. Данные получены: ИИ делает работников более продуктивными и приводит к повышению качества работы.
8. Научный прогресс еще больше ускорится благодаря ИИ.
9. В США резко увеличивается количество нормативных актов, касающихся ИИ.
10. Люди по всему миру больше осознают потенциальное влияние ИИ и больше нервничают.


Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports #readings
В рубрике как это работает у них ILOSTAT Bulk download facility [1] сервис массовой выгрузки данных статистического подразделения Международной организации труда (ILO).

Международная организация труда ведёт несколько баз статистики труда по всему миру и предоставляет их конечным пользователям в виде портала индикаторов [2], кроме того они предоставляют сервис Bulk download facility в котором предоставляют возможности по автоматической выгрузке всей их базы данных.

Кроме того ILO предоставляют библиотеку Rilostat на языке R [3] для автоматизированного доступа к этим данным.

Итого, в дополнение к базе и интерфейсу к индикаторам ILO предоставляют:
1) Возможность выгрузки всех данных массово
2) Доступ к сервису и данным через готовое API с открытым кодом (в виде библиотеки для R, в данном случае)

Ссылки:
[1] https://ilostat.ilo.org/data/bulk/
[2] https://ilostat.ilo.org/data/
[3] https://ilostat.github.io/Rilostat/

#opendata #opensource #statistics #ilo #data
Читать нормативные документы дело неблагодарное и пока непонятно как это интерпретировать как рост закрытости или как халатность, но на сайте Минцифры России не публикуются приложения ко многим приказам ведомства.

Например, *Приказ Минцифры России № 296 О составе Экспертного совета при Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации по вопросам развития и цифровой трансформации книжной индустрии* [1] в тексте содержит *...изложить в новой редакции согласно приложению к настоящему приказу.* Но самого приложения нет. В "текстовой версии" приказа тоже нет приложения [2] и даже в "графической версии" (скане) [3] приложения нет. Аналогично с приказом N287 [4]

И, похожим образом по всем приказам касающихся сервитутов [5]

В то же время, другие приказы приложения содержат, в виде ссылок правда, но хоть так [6]

И отдельная история про то почему не все приказы федеральных органов власти публикуются на портале правовых актов и в системе регистрации НПА Минюста.

Ссылки:
[1] https://digital.gov.ru/ru/documents/9542/
[2] https://digital.gov.ru/uploaded/files/prikaz-o-vnesenii-izmenenij-v-sostav-es-po-izd-deyatelnosti-yur2sispr.docx
[3] https://digital.gov.ru/uploaded/files/296_PfRi2Gh.pdf
[4] https://digital.gov.ru/ru/documents/9541/
[5] https://digital.gov.ru/ru/documents/9531/
[6] https://digital.gov.ru/ru/documents/9333/

#closeddata #opendata #legaldocs #russia #laws #russia