Ivan Begtin
9.08K subscribers
2.52K photos
4 videos
114 files
5.29K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Для тех кто ищет данные по РФ, на хабе открытых данных опубликован слепок всех данных с data.gov.ru слепок включает все метаданных датасетов и копию всех данных в CSV формате, в едином архиве.

Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.

Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)

Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов

Это очень немного пользы, но хоть такая.

#opendata #datagovru #datasets #russia
🔥52🤔2
Глядя на то что происходит с российским data.gov.ru и другими национальными порталами открытых данных я, пожалуй, готов сформулировать какие наборы данных могли бы публиковаться и которые можно было бы назвать датасетами особой ценности и которые, частично, упомянуты в нормативных документах ЕС, но далеко не все.

1. Базовые геоданные. Всё что формирует основные слои геоданных, максимально большого объёма, максимально актуальное и доступное через API и в режиме полной выгрузки (bulk download). Это есть в перечне ЕС. Потребители - бизнес, коммерческие сервисы, все геоаналитики.
2. Официальная статистика. Не в виде статдокладов и документов, в виде структурированных данных, как в виде отдельных индикаторов, так и статистические базы целиком с возможностью получать их регулярно и полностью. Потребители - бизнес, аналитики, журналисты, исследователи
3. Законы/законопроекты/НПА/судебные решения. В полнотекстовом виде и, также, доступные через API и полными слепками с максимально возможной актуализацией и всеми доступными метаданными. Потребители - ИИ специалисты, бизнес, исследователи
4. Данные о предприятиях. Всё что является общедоступным в отношении юридических лиц, кроме данных ограниченных в публикации. Потребители - бизнес (сервисы проверки контрагентов), исследователи
5. Данные об объектах культуры. Включает книги, изображения, метаданные, включая тексты, максимально детализированные цифровые представления объектов. Потребители - ИИ специалисты, исследователи, преподаватели, студенты
6. Данные научных работ и исследований. В максимально полном объёме включая метаданные, тексты, сопроводительные материалы. Пригодные для машинной обработки и массовой выгрузки. Потребители - ИИ специалисты, исследователи,
7. Метеорологические данные. Доступные в через API в реальном времени, в виде исторических баз данных наблюдений. Потребители - коммерческие пользователи
8. Базы данных созданные в рамках научных исследований. Финансируемых государством и созданные как общественное благо. Потребители - исследователи, бизнес пользователи (в ряде случаев)
9. Языковые корпусы. Национальные языковые корпусы, корпусы диалектов и иных языков на территории страны. Потребители - ИИ специалисты, исследователи
10. Данные необходимые для принятия решений. Статистика и иные сведения за пределами официальной статистики используемые для задач принятия решения властями, бизнесом и гражданами. Включает ведомственную статистику, сведения о качестве здравоохранения, качестве образования, качестве жизни, экологии, загрязнении воды и воздуха, с максимально возможной детализацией. Потребители - граждане, бизнес, исследователи, региональные и муниципальные власти
11. Данные спутникового мониторинга. В объёме создаваемом и финансируемом государством. Потребители - ИИ специалисты, бизнес

Я не включил в этот список данные относящиеся к политической прозрачности, у них потребители - общественники и журналисты, они тоже необходимы и понятным образом сложнее в раскрытии.

Однако это перечень того у чего есть гарантированный спрос и потребление и то что зачастую уже публикуется, но не систематизировано. Главное изменение последних лет - это безусловный рост востребованности больших наборов данных с текстами которые используют для обучения ИИ.

#opendata #datasets
👍1782