Ivan Begtin
9.08K subscribers
2.52K photos
4 videos
114 files
5.3K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Глядя на то что происходит с российским data.gov.ru и другими национальными порталами открытых данных я, пожалуй, готов сформулировать какие наборы данных могли бы публиковаться и которые можно было бы назвать датасетами особой ценности и которые, частично, упомянуты в нормативных документах ЕС, но далеко не все.

1. Базовые геоданные. Всё что формирует основные слои геоданных, максимально большого объёма, максимально актуальное и доступное через API и в режиме полной выгрузки (bulk download). Это есть в перечне ЕС. Потребители - бизнес, коммерческие сервисы, все геоаналитики.
2. Официальная статистика. Не в виде статдокладов и документов, в виде структурированных данных, как в виде отдельных индикаторов, так и статистические базы целиком с возможностью получать их регулярно и полностью. Потребители - бизнес, аналитики, журналисты, исследователи
3. Законы/законопроекты/НПА/судебные решения. В полнотекстовом виде и, также, доступные через API и полными слепками с максимально возможной актуализацией и всеми доступными метаданными. Потребители - ИИ специалисты, бизнес, исследователи
4. Данные о предприятиях. Всё что является общедоступным в отношении юридических лиц, кроме данных ограниченных в публикации. Потребители - бизнес (сервисы проверки контрагентов), исследователи
5. Данные об объектах культуры. Включает книги, изображения, метаданные, включая тексты, максимально детализированные цифровые представления объектов. Потребители - ИИ специалисты, исследователи, преподаватели, студенты
6. Данные научных работ и исследований. В максимально полном объёме включая метаданные, тексты, сопроводительные материалы. Пригодные для машинной обработки и массовой выгрузки. Потребители - ИИ специалисты, исследователи,
7. Метеорологические данные. Доступные в через API в реальном времени, в виде исторических баз данных наблюдений. Потребители - коммерческие пользователи
8. Базы данных созданные в рамках научных исследований. Финансируемых государством и созданные как общественное благо. Потребители - исследователи, бизнес пользователи (в ряде случаев)
9. Языковые корпусы. Национальные языковые корпусы, корпусы диалектов и иных языков на территории страны. Потребители - ИИ специалисты, исследователи
10. Данные необходимые для принятия решений. Статистика и иные сведения за пределами официальной статистики используемые для задач принятия решения властями, бизнесом и гражданами. Включает ведомственную статистику, сведения о качестве здравоохранения, качестве образования, качестве жизни, экологии, загрязнении воды и воздуха, с максимально возможной детализацией. Потребители - граждане, бизнес, исследователи, региональные и муниципальные власти
11. Данные спутникового мониторинга. В объёме создаваемом и финансируемом государством. Потребители - ИИ специалисты, бизнес

Я не включил в этот список данные относящиеся к политической прозрачности, у них потребители - общественники и журналисты, они тоже необходимы и понятным образом сложнее в раскрытии.

Однако это перечень того у чего есть гарантированный спрос и потребление и то что зачастую уже публикуется, но не систематизировано. Главное изменение последних лет - это безусловный рост востребованности больших наборов данных с текстами которые используют для обучения ИИ.

#opendata #datasets
👍1782
И про данные о качестве жизни. Год назад в Амстердаме для 80% городских дорог ограничили скорость передвижения 30км/час. А сейчас мэрия города опубликовала доклад о результатах этого эксперимента и он весьма позитивен.

Снизился шум от автомобилей, снизилось число аварий, снизилось число аварий с участием автобусов и трамваев и тд.

Но интересно не только это. Все эти данные можно отнести к данным качества жизни и в Нидерландах они доступны на нескольких официальных ресурсах. Например, на Environmental Health Atlas с детализацией до конкретной улицы и конкретного дома и тд.

И, конечно же, они доступны в виде геоданных через несколько открытых API и каталогов геоданных таких как RIVMData

Возвращаясь к эксперименту с ограничением скорости внутри городской черты, вот он и выглядит как альтернатива запретам самокатов. Не ограничения самокатов, а ограничения на автомобили.

Представьте себе такое ограничение в городе где Вы живёте, хотелось бы такое?

#opendata #netherlands #eu #datasets #lifequality #cities
13👍12🔥6🤔6🤨1