Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
«Цифровая среда»: Иван Бегтин расскажет об инструментах для работы с данными в гуманитарных науках

22 января
состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.

Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».

🔜 Присоединяйтесь к онлайн-семинару ровно через неделю.

Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь

#цифроваясреда #смотреть #слушать #данные #opendata
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8👍3
💡 Чем интересен Dateno?

Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.

📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.

👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.

📥 Форматы ресурсов:

CSV — 1 008 646 (15%)

XLSX — 525 329 (7.8%)

XML — 522 501 (7.8%)

JSON — 509 668 (7.6%)

ZIP — 496 709 (7.4%)

PDF — 487 189 (7.3%)

HTML — 475 377 (7.1%)

WMS — 320 159 (4.8%)

NC — 233 229 (3.5%)

XLS — 185 855 (2.8%)

WCS — 141 472 (2.1%)

KML — 122 781 (1.8%)

DOCX — 115 723 (1.7%)

📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.

📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.

🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.

Хочется верить, что это изменится.

#данные #opendata #dateno #datascience #dataengineering
🔥75