Forwarded from Гуманитарии в цифре
«Цифровая среда»: Иван Бегтин расскажет об инструментах для работы с данными в гуманитарных науках
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
🔜 Присоединяйтесь к онлайн-семинару ровно через неделю.
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥8👍3
💡 Чем интересен Dateno?
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
🔥7✍5