Ivan Begtin
9.08K subscribers
2.52K photos
4 videos
114 files
5.29K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них национальный портал открытых данных Литвы data.gov.lt

Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.

111 наборов данных - это данные высокой ценности в определении Евросоюза.

Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности

Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.

У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.

#opendata #datasets #lithuania
5
Для тех кто ищет данные по РФ, на хабе открытых данных опубликован слепок всех данных с data.gov.ru слепок включает все метаданных датасетов и копию всех данных в CSV формате, в едином архиве.

Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.

Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)

Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов

Это очень немного пользы, но хоть такая.

#opendata #datagovru #datasets #russia
🔥52🤔2
Глядя на то что происходит с российским data.gov.ru и другими национальными порталами открытых данных я, пожалуй, готов сформулировать какие наборы данных могли бы публиковаться и которые можно было бы назвать датасетами особой ценности и которые, частично, упомянуты в нормативных документах ЕС, но далеко не все.

1. Базовые геоданные. Всё что формирует основные слои геоданных, максимально большого объёма, максимально актуальное и доступное через API и в режиме полной выгрузки (bulk download). Это есть в перечне ЕС. Потребители - бизнес, коммерческие сервисы, все геоаналитики.
2. Официальная статистика. Не в виде статдокладов и документов, в виде структурированных данных, как в виде отдельных индикаторов, так и статистические базы целиком с возможностью получать их регулярно и полностью. Потребители - бизнес, аналитики, журналисты, исследователи
3. Законы/законопроекты/НПА/судебные решения. В полнотекстовом виде и, также, доступные через API и полными слепками с максимально возможной актуализацией и всеми доступными метаданными. Потребители - ИИ специалисты, бизнес, исследователи
4. Данные о предприятиях. Всё что является общедоступным в отношении юридических лиц, кроме данных ограниченных в публикации. Потребители - бизнес (сервисы проверки контрагентов), исследователи
5. Данные об объектах культуры. Включает книги, изображения, метаданные, включая тексты, максимально детализированные цифровые представления объектов. Потребители - ИИ специалисты, исследователи, преподаватели, студенты
6. Данные научных работ и исследований. В максимально полном объёме включая метаданные, тексты, сопроводительные материалы. Пригодные для машинной обработки и массовой выгрузки. Потребители - ИИ специалисты, исследователи,
7. Метеорологические данные. Доступные в через API в реальном времени, в виде исторических баз данных наблюдений. Потребители - коммерческие пользователи
8. Базы данных созданные в рамках научных исследований. Финансируемых государством и созданные как общественное благо. Потребители - исследователи, бизнес пользователи (в ряде случаев)
9. Языковые корпусы. Национальные языковые корпусы, корпусы диалектов и иных языков на территории страны. Потребители - ИИ специалисты, исследователи
10. Данные необходимые для принятия решений. Статистика и иные сведения за пределами официальной статистики используемые для задач принятия решения властями, бизнесом и гражданами. Включает ведомственную статистику, сведения о качестве здравоохранения, качестве образования, качестве жизни, экологии, загрязнении воды и воздуха, с максимально возможной детализацией. Потребители - граждане, бизнес, исследователи, региональные и муниципальные власти
11. Данные спутникового мониторинга. В объёме создаваемом и финансируемом государством. Потребители - ИИ специалисты, бизнес

Я не включил в этот список данные относящиеся к политической прозрачности, у них потребители - общественники и журналисты, они тоже необходимы и понятным образом сложнее в раскрытии.

Однако это перечень того у чего есть гарантированный спрос и потребление и то что зачастую уже публикуется, но не систематизировано. Главное изменение последних лет - это безусловный рост востребованности больших наборов данных с текстами которые используют для обучения ИИ.

#opendata #datasets
👍1782
И про данные о качестве жизни. Год назад в Амстердаме для 80% городских дорог ограничили скорость передвижения 30км/час. А сейчас мэрия города опубликовала доклад о результатах этого эксперимента и он весьма позитивен.

Снизился шум от автомобилей, снизилось число аварий, снизилось число аварий с участием автобусов и трамваев и тд.

Но интересно не только это. Все эти данные можно отнести к данным качества жизни и в Нидерландах они доступны на нескольких официальных ресурсах. Например, на Environmental Health Atlas с детализацией до конкретной улицы и конкретного дома и тд.

И, конечно же, они доступны в виде геоданных через несколько открытых API и каталогов геоданных таких как RIVMData

Возвращаясь к эксперименту с ограничением скорости внутри городской черты, вот он и выглядит как альтернатива запретам самокатов. Не ограничения самокатов, а ограничения на автомобили.

Представьте себе такое ограничение в городе где Вы живёте, хотелось бы такое?

#opendata #netherlands #eu #datasets #lifequality #cities
13👍12🔥6🤔6🤨1
В рубрике как это устроено у них данные о стоимости земель во Франциии. Доступны в виде датасетов размером около 450MB и включают более 3.4 миллионов строк только за 2024 год, а также доступны данные начиная с 2020 года.
Данные О=рпубликованы на национальном портале data.gouv.fr и являются одним из наиболее востребованных наборов данных с 1.4 миллионами просмотров и 111 примеров повторного использования в виде визуализаций, общественных и коммерческих приложений созданных на их основе.

Один из способов оценки потенциальной востребованности данных в том чтобы смотреть на популярность данных опубликованных в других странах. Скажу сразу почти всегда наиболее популярны геоданные, особенно данные по стоимости земель, национальные базы адресов и официальная статистика в максимально детализированной форме.

#opendata #france #datasets
311
В рубрике интересных наборов данных датасет метаданными 40 миллионов репозиториев на Github github-repos-metadata-40M размещённый на HuggingFace. Создан в июле 2025 г., включает такие метаданные как название репозитория, уникальный код, описание, основной язык, код лицензии, число, размер, число наблюдаетелей, число форков, дату создания.

Создан на основе GHArchive - базы событий в Github.

С одной стороны полезный датасет, а с другой он позволяет считать только основные метрики по репозиториям.

Например, Github это, возможно, крупнейший архив не только кода, но и данных в мире и, с точки зрения наполнения Dateno, лично меня всегда интересовала возможность найти на Github'е репозитории используемыми для публикации наборов данных. Это не так просто, если быть честным. Это требует не базовых метаданных, а, как минимум, копии README.md и списка всех файлов в репозитории и классификационного механизма позволяющего определить тип репозитория: только код, данные, документация, гибрид и тд. Причём после первоначального анализа README.md и списка файлов может потребоваться заглянуть в дополнительные файлы чтобы собрать все метаданные необходимые для описания набора данных.

Но такой датасет на базе Github'а лично мне пока не попадался.

#opendata #datasets
3
В рубрике как это устроено у них портал открытых данных Ирана data.gov.ir

Включает 11675 наборов данных, от 32 организаций. Внутри построен на CKAN.

Большая часть данных - это статистика, форматы включают Excel, PDF, а также карты, обычно в JPEG'ах.

Лицензии на данные не указывают, структурированного хранилища там тоже нет.

В текущем виде он появился он относительно недавно, ранее там был какой-то свой движок и только геоданные, а теперь появилось какое-то количество статистики и данных в Excel.

#opendata #datasets #iran #ckan
4👍32🤔1
В качестве регулярных напоминаний в основе поисковика Dateno реестр почти всех существующих каталогов с данными. Этих каталогов много, более 10 тысяч и большая их часть - это каталоги геоданных, вторые по количеству - порталы открытых данных и далее научные репозитории, базы индикаторов и так далее.

Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.

Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.

#opendata #dateno #datasets #datadiscovery
4
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)

#opendata #datasets #geodata
🔥20🤩2
В Южной Корее правительство планирует в ближайшее время опубликовать 15 особо ценных наборов данных для обучения ИИ и корпоративной поддержки. Первые данные необходимы для обучения ИИ агентов, например, в области LegalTech, вторые для типовых задач решаемых корпорациями и для которых нужны государственные данные. Обещают безопасное открытое раскрытие данных с заменой персональных данных на синтетические.

Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr

В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.

#opendata #korea #datasets
7