Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных стартапов по работе с данными и малоизвестных каталогов данных.

Data.world когда-то один из первых общедоступных облачных каталогов данных. Отличался тем что предоставлял интерфейсы для визуализации и запросов к данным которые пользователи загружали на платформу, как правило в CSV или форматах.

Со временем облачная платформа осталась только после авторизации (но всё ещё работает), а основным способом монетизации стало внедрение платформы у крупных клиентов. Это редкий случай когда платформа изначально для открытых данных эффективна перешла в корпоративный сектор.

В общей сложности за 9 лет они подняли $132 миллиона инвестиций с последним раундом в 2022 году.

При этом их облачный каталог сообщества всё ещё доступен и там можно искать по более чем 133 тысячам наборов данных опубликованных за примерно, 10 лет.

#opendata #datacatalogs
👍7
Я очень скоро прекращу так часто упоминать российский портал открытых данных, всё таки реально применения у опубликованных там данных очень немного и одно из них более-менее не бесполезное - это обучение алгоритмов выявления семантических / смысловых типов данных. Это когда поле/колонка таблицы аннотируется пометками о том что там реально содержится. Я в своё время создавал инструмент metacrafter это такая довольно продвинутая штука с большой базой этих самых семантических типов и многое из типов там имеет реальное отношение к российским данным, всё таки русскоязычные/российские наборы данных были для меня в большей доступности долгое время.

Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.

1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.

Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.

А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.

Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.

P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.

#opendata #opensource #datacatalogs #russia
75🤣5😢2💯1