Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Data Rescue Project [1] - ещё один проект в США по архивации госданных. Делается группой исследовательских организаций, сохраняют данные сами и систематизируют сохранённое другими.

В общедоступном каталоге сейчас 87 источников данных [2]

Что характерно технически используют для работы Baserow [3] - open source аналог Airtable. У нас в рамках ruarxive.org всё собрано было в Airtable что уже неудобно и, возможно, стоит смигрировать в Baserow или Mathesar.

В случае Data Rescue Project можно ещё обратить внимание на объёмы, сейчас у них сохранено порядка 5 ТБ, что с одной стороны, не так уж много, а с другой, это же не архивы сайтов, а архив именно данных.

Ссылки:
[1] https://www.datarescueproject.org/
[2] https://baserow.datarescueproject.org/public/grid/Nt_M6errAkVRIc3NZmdM8wcl74n9tFKaDLrr831kIn4
[3] https://baserow.io/

#opendata #webarchives #digitalpreservation
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2025 — #ODD2025

01.03.2024, 11:00-16:00 (GMT +3), День открытых данных 2025 (https://opendataday.ru/msk) — это ежегодное международное мероприятие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества.

Мероприятие пройдет в онлайн формате.

Мы подготовили для аудитории сессии докладов, презентации кейсов и мастер-классы по актуальным вопросам различных направлений открытости и отдельных проектов.
Приглашаем исследователей, дата инженеров, аналитиков, урбанистов, разработчиков, ИТ-специалистов, дата-журналистов и других участников российского движения открытости и любителей данных во всех их формах.

#opendata #russia #events
Полезные ссылки про данные, технологии и не только:
- Economic Implications of Data Regulation [1] отчёт ОЭСР про последствия регулирования данных в контексте ИИ, персональных данных и глобальных платформ. В частности новый термин в словарь - data free flows with trust (DFFT).
- Trump has free rein over Dutch government data [2] один из примеров того что в ЕС всё больше журналистов, активистов и чиновников поднимают вопрос о Европейском цифровом суверенитете. Что-то напоминает, да? В основе страхов мюнхенская речь Вэнса и санкции против Международного уголовного суда
- Health Data Preservation Project [3] проект по архивации данных о здравоохранении в США. В целом там сейчас более 20 проектов архивации научных и государственных данных, многие объединяют усилия в этой области
- Language Data Commons of Australia Data Portal [4] портал данных открытых языковых ресурсов в Австралии. Существенная их часть - это аудиозаписи, но их тоже относят к данным.
- Wikipedia Recognized as a Digital Public Good [5] Википедия признана Цифровым общественным благом. Что, наверняка, неплохо для фонда Викимедия. Вся эта инициатива под эгидой одноименного альянса связанного с UNICEF и UNDP.

Ссылки:
[1] https://www.oecd.org/en/publications/economic-implications-of-data-regulation_aa285504-en.html
[2] https://ioplus.nl/en/posts/trump-has-free-rein-over-dutch-government-data
[3] https://healthjournalism.org/resources/health-data-preservation-project/
[4] https://data.ldaca.edu.au
[5] https://wikimediafoundation.org/news/2025/02/12/wikipedia-recognized-as-a-digital-public-good/

#opendata #digitalpreservation #dataregulation #readings
В рубрике интересных наборов данных Ransomwhere [1] проект по отслеживанию выплат в криптовалютах шантажистам. Помимо того что данные можно просмотреть на сайте, их также можно скачать в виде датасета [2] и цитировать в научных работах.

В датасете информация о транзакциях включая адреса Bitcoin'а для куда шантажистам переводили средства.

Ссылки:
[1] https://ransomwhe.re
[2] https://zenodo.org/records/13999026

#opendata #datasets #cryptocurrency
Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.

Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].

CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на ibegtin@opendata.am и мы будем только рады их добавить в этот каталог.

P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.

Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash

#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
В рубрике интересных и малоизвестных наборов данных Multinational Enterprise Information Platform (MEIP) [1] база данных по международным или, как ещё говорят, транснациональным корпорациям. Создана в рамках совместной инициативы OECD и UNSD решением 2015 г. на 46 сессии UNSD [2] в целях повышения понимания и измеримости статистики международной торговли и глобализации.

В открытом доступе находится два датасета: Global Register и Digital Register

Global Register - база дочерних предприятий 500 крупнейших MNP, общим объёмом в 128 тысяч организаций (в версии на конец декабря 2023 г. [3], включая данные о местонахождении, адресах, уникальных идентификаторах LEI и PermID и других метаданных.

Digital Register - база сайтов дочерних предприятий и их pageRank и посещаемости. На конец декабря 2023 г. это около 122 тысяч сайтов [4].

Для тех кто изучает устройство международной торговли датасеты могут быть интересны.

Из минусов - все данные в Excel, обновляются только раз в год.

Ссылки:
[1] https://www.oecd.org/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform.html
[2] https://unstats.un.org/unsd/statcom/46th-session/documents/statcom-2015-46th-report-E.pdf#page=21
[3] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx
[4] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx

#opendata #dataset #data
В очередной раз отвлекаясь от темы данных, в США вслед за USAID заморожено финансирование NED (National Endowment for Democracy) [1]. Этот фонд был, формально, частный, а де-факто на 95% финансировался средствами выделяемых Конгрессом, а теперь его финансирование приостановлено.

В 2023 году NED распределил $283 миллионов на 1989 проектов в 100 странах [2], информация о них довольно фрагментирована как и за прошлые годы. Гораздо легче найти гранты и контракты NED с Department of State в США, с информацией о том сколько и как фонд получал средств.

Лично у меня остались в архивах только данные о грантах распределённых NED до 2011 года и их получателях, а то есть очень давние данные.

Сложно предположить что что будет с NED далее, начнут ли их ликвидировать как USAID, останется ли веб сайт и тд. Однако для тех кто начнёт изучать их активность, по сути, одним из немногих порталов окажется d-portal.org где средства выделенные NED декомпозированы по странам, но не по организациям получателям [3].

NED, в принципе, никогда не был особенно прозрачным грантодателем. Ещё примерно лет 10-13 назад на их сайте был раздел работы по странам, например, по России [4] где были списки получателей средств из последнего годового отчета (не всех, не за все годы), потом этот раздел исчез и вместо него появились обобщённые страницы макрорегионов без детализации [5]. NED никогда не публиковали информацию о международной помощи на портале IATI [6], впрочем, как я понимаю, это финансирование может быть и не попадает под категорию международной помощи.

В любом случает свежий датасет по проектам финансированным NED, насколько я знаю, в открытом доступе отсутствует.

Всё это о том что непрозрачность - это характеристика многих источников политического финансирования в мире. Если данные NED начнут исчезать также быстро как данные USAID, то важно успеть их сохранить.

Ссылки:
[1] https://www.ned.org/investing-in-freedom-an-introduction-to-the-national-endowment-for-democracy/
[2] https://www.ned.org/2023-annual-report/
[3] https://d-portal.org/ctrack.html?publisher=US-GOV-11#view=act&aid=US-GOV-11-67243
[4] https://web.archive.org/web/20130118073745/http://ned.org/where-we-work/eurasia/russia
[5] https://www.ned.org/region/middle-east-and-northern-africa/
[6] https://iatiregistry.org

#opendata #datasets #usa #spending
В рубрике российской специфики публикации открытых данных я уже немало ранее писал о том что российские практики публикации открытых данных весьма специфичны (с) и значительно отличаются от лучших мировых практик. Например, при публикации датасетов практически не используется спецификация по стандарту schema.org, не используется типовое ПО для публикации датасетов, не используются стандарты такие как DCAT, бывает что и датасеты доступны только после авторизации на Госуслугах.
А вот ещё одна необычная практика, датасеты системы Государственного водного реестра публикуются в виде ZIP файла с цифровой подписью [1]. Я такого ранее не встречал, впервые вижу подобную практику и, честно говоря, не то чтобы осуждаю, но считаю довольно бессмысленной.

Да и сами данные публикуются в этой системе без страниц карточек датасетов, в результате невозможно сослаться на конкретный набор данных, только на страницу всех наборов.

Что тут скажешь, хорошо что хоть что-то публикуют и обновляют данные. Даже если и не особенно любят людей.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata

#opendata #russia #water #data
Напоминаю что день открытых данных в России пройдёт 1 марта, в эту субботу, совсем скоро и что его программа уже доступна https://opendataday.ru/msk

У нас 8 выступающих в этом году, по разным темам, большая часть из которых связаны с научными исследованиями и популяризацией работы с данными для исследователей.

Я тоже буду там выступать и расскажу про поиск открытых данных с помощью Dateno

Напомню что день открытых данных проходит по всему миру между 1 и 7 марта, в России он пройдет 1 марта в онлайн формате.

А вскоре я напишу подробности про день открытых данных в Армении который пройдет оффлайн.

#opendata #opendataday #events #data
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)

Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)

Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.

Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.

#opendataday #opendata #data #datasets #events
А сейчас выступает Мария Сысоева с докладом Музейные данные: реализация просветительской функции, это будет особенно интересно для тех кто работает с данными о культурном наследии. А до этого было выступление Татьяны Максимовой о данных в генеалогии, её презентация доступна https://t.me/mskopendataday/2792 и видеозапись тоже скоро появится.

#opendatadata #opendata #culturalheritage
Мою презентация с сегодняшнего Дня открытых данных в России можно посмотреть онлайн https://www.beautiful.ai/player/-OKHlQrIzuA3Bba4k-Uz

Она была полностью посвящена Dateno и практике поиска датасетов. Это не первая и не последняя моя презентация по этой теме, но как водораздел обновления Dateno до 22 миллионов датасетов.

#opendata #dateno
В рубрике как это устроено у них о том как трансформируются научные журналы в сторону работы с данными. Журнал European Journal of Taxonomy открыл портал с данными по биоразнообразию на своём сайте [1]. Портал явным образом интегрирован с проектом GBIF и другими порталами данных в этой области и теперь на нём размещены наборы данных в форме датасетов и инструментов поиска по спискам биоразнообразия.

При этом он реализован не на движке IPT который распространяет GBIF, а неким другим образом, не удивлюсь если это какая-то собственная разработка особенностью которой является представление данных в виде кластеров [2], а также возможности поиска и аналитики.

Фактически журнал переходит от работы со статьями к работе с данными и широким набором инструментов аналитики. Это принципиально иной подход к работе с их аудиторией, исследователями.

В виду специфики темы они работают со специальными форматами данных описываемых в формате MetoTaxa, это так называемый XML-first подход [3] и работа со стандартизированными данными.

Ссылки:
[1] https://europeanjournaloftaxonomy.eu/index.php/ejt/announcement/view/45
[2] https://data.europeanjournaloftaxonomy.eu/occurrence/search/?view=CLUSTERS
[3] https://www.ouvrirlascience.fr/adaptation-of-metopes-for-taxonomy-edition/

#opendata #biodiversity #biology #datacatalogs