Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Один из наборов данных в DataCrafter'е - это база государственных доменов, которую я много лет веду для Национального цифрового архива (ruarxive.org) в виде репозитория на Github'е [1] и в виде базы в Airtable, причём сейчас именно база в Airtable наиболее вычищена и актуальна.

В DataCrafter она загружена 5 таблицами [2]:
- Домены
- Корневые домены
- ASN
- Госорганы и организации
- Регионы
- Государственные информационные системы

Это открытая часть контура DataCrafter'а поэтому все эти данные можно скачать одним архивом в разделе "Сборки и версии" [3], а также можно воспользоваться API без авторизации и ключа.
Как проверить домен что это домен госоргана или госструктуры
Пр запросу
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22Domain%22:%22sudrf.ru%22}
передаётся параметр Domain и можно получить карточку домена если он есть в базе.

Или мы хотим получить список доменов Минюста России. Минюст России есть в таблице организаций [4]
с идентификатором recPluHB9B0SGs867 . Передаём его как параметр к запросу этой таблицы [5] и получаем список идентификаторов доменов в поле Domains.

Для каждого домена делаем запрос с параметром id из поля Domains и получаем карточки каждого домена
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22id%22:%22recPjVbY9U2r6LTOX%22}

Аналогично работают API для доступа к остальным таблицам и, ещё раз напомню, можно скачать эту базу данных целиком. Все данные в пакете данных хранятся в формате JSON lines и легко импортируются в любую СУБД для работы JSON документами.

Ссылки:
[1] github.com/infoculture/govdomains/
[2] https://beta.apicrafter.ru/packages/govdomains/tables
[3] https://beta.apicrafter.ru/packages/govdomains/builds
[4] https://beta.apicrafter.ru/tables/govdomains/organizations
[5] https://api.crftr.net/open/rawapi/v3/govdomains/organizations?where={%22id%22:%22recPluHB9B0SGs867%22}

#opendata #opengov #govdomains
К вопросу о регулярных разговорах о том как те или общественные проблемы решать правильно или неправильно, есть то что является шаблонами по которым такие проблемы и их решения моделируют.

Например, у The GovLab есть достаточно давний шаблон "GovLab Public Problem Solving Canvas" как раз для описания общественной проблемы/задачи и пути её решения и об этом же статья ещё из 2015 года [2]. Впрочем с той поры мало что изменилось и этот шаблон актуален.

Для работы с открытыми данными таже есть шаблоны / готовые модели для проектирования. Например, у Open Data Charter есть Publish with purpose canvas [3], это шаблон по которому описывается то зачем, с какой целью необходима публикация данных, включая последующее применение. А у Института открытых данных есть Data Ethics Canvas [4] для проектирования систем с этическим управлением данными.

Здесь хочется, с одной стороны, сказать что многие из таких шаблонов недолговечны, и меняются вместе с подходами к осуществлению государственной или корпоративной политики, но, многие, наоборот, не теряют актуальности.

У ОЭСР в обсерватории инноваций госсектора много примеров таких шаблонов [5].

Ссылки:
[1] https://canvas.govlabacademy.org
[2] https://www.nesta.org.uk/blog/tech4labs-issue-4-canvassing-the-value-proposition-of-your-public-lab-project/
[3] https://drive.google.com/file/d/1uJR-j4-11PDKKLPX5ZY0mcMfqFfSQATp/view
[4] https://theodi.org/article/the-data-ethics-canvas-2021/
[5] https://oecd-opsi.org/?s=canvas

#opengov #policy #opendata
Как публикуют открытые данные ФОИВы? Часто, слишком часто зачищая опубликованное. Пример, сайт Ростехнадзора [1] где вместо перевода в архивное состояние данные просто с сайта убирали, причём оставляя пустые строки в спике. Мало того что сами данные довольно бесполезны и публикуются плохо, только в CSV формате, без раскрытия данных из их реестров и информационных систем, так ещё и с удалением "хвостов".

Всё это хорошо видно через веб-архив [2]

Ссылки:
[1] http://gosnadzor.gov.ru/opendata/
[2] https://web.archive.org/web/diff/20200804134904/20210421004818/http://gosnadzor.gov.ru/opendata/

#opendata
Журналистам на заметку, помимо канала Госзатраты в телеграм, у Госзатрат есть открытое API с помощью которого можно не только запрашивать данные, но и делать боты вроде того что наполняет этот канал. Если Вы хотите получать поток новостей по Вашей теме, то достаточно настроить такой бот под себя и получать новости на регулярной основе.
Forwarded from Госзатраты
162 миллиарда рублей было потрачено из федерального бюджета и 779 миллиардов из региональных бюджетов в 2020 году году на субсидии некоммерческим организацям. Из них на "классический некоммерческий сектор" (благотворительные фонды, НКО частных лиц и тд.) ушло не более 5% этой суммы через Фонд президентских грантов и региональные конкурсы. Остальные средства распределялись между несколькими сотнями крупнейших НКО учредителями которых являются госорганами, госучреждения, госкорпорации или иную прямую аффиляцию с государством. Я писал об этом в марте 2020 года в колонке РБК [1], сейчас, наконец-то, есть обновлённые цифры и желание закончить доклад о госрасходах на НКО в виде полноценного подробного документа с описанием ситуации. Но, может быть, надо просто написать ещё одну колонку.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3

#ngo #government #budgets
Подборка полезных новостей про данные и не только:
- IBM купили Bluetab [1] разработчиков open-source продукта Truedat [2] для управления данными и их каталогизации
- В России утвердили стандарт больших данных [3], он, на самом деле, словарь, но может хоть наличие стандарта оставит все эти бесконечные терминологические споры (или усилит их)
- Quickwit [4] инструмент по быстрому превращению JSON документов в API с полнотекстовым поиском, поддерживает 17 языков на основе латиницы, китайский и корейский и другие языки библиотеки Tantivy [5] на которой он основан, хотя может быть и русский тоже, надо проверять. Написано на языке Rust.
- Анонсирована конференция PyData Global 28-30 октября и туда стоит подаваться с заявками на выступление [6]
- большая подборка ссылок и материалов о инициативах Data4Good [7]
- что такое современный стек данных (data stack) [8] через взгляд 5 разработчиков облачных сервисов и продуктов

Ссылки:
[1] https://bluetab.net/en/software/fastcapture/
[2] https://www.truedat.io
[3] https://www.vedomosti.ru/technology/articles/2021/07/15/878242-utverzhden-pervii-standart-v-oblasti-bolshih-dannih%C2%A0
[4] https://github.com/quickwit-inc/quickwit/
[5] https://github.com/tantivy-search/tantivy
[6] https://pydata.org/global2021/present/
[7] https://www.data.org/charting-the-data-for-good-landscape/
[8] https://www.rilldata.com/blog/5-founders-define-the-modern-data-stack

#opendata #data #datacatalogs
Forwarded from APICrafter
Регулярное пополнение наборов данных в APICrafter'е на 17 июля.

Добавлены наборы данных в разделе Инфраструктура
- точки продах Мегафон https://beta.apicrafter.ru/packages/megaphonsalespoints
- точки продаж МТС https://beta.apicrafter.ru/packages/mtssalespoints
- точки продаж Tele2 https://beta.apicrafter.ru/packages/tele2salespoints
- точки продаж Yota https://beta.apicrafter.ru/packages/yotasalespoints

Добавлены наборы данных в разделе Финансы
- Динамика курсов валют https://beta.apicrafter.ru/packages/cbrcurrencies
- Ключевая ставка Банка России https://beta.apicrafter.ru/packages/cbrkeyrate
- MosPrime Rate https://beta.apicrafter.ru/packages/cbrmosprime
- Ставка по кредитам овернайт (Банк России) https://beta.apicrafter.ru/packages/cbrovernight
- Международные резервы Российской Федерации https://beta.apicrafter.ru/packages/cbrreserves

В основном это данные, относительно, небольшого объёма в десятках тысяч записей, однако, к примеру, динамика курсов валют это 218 тысяч записей начиная с 1 июля 1992 года ежедневно по 144 валютам.

Все данные можно скачать как открытые данные и сейчас они доступны без необходимости авторизации. А также их можно скачать в виде слепков в формате BSON для СУБД MongoDB в сборках данных, пример, https://beta.apicrafter.ru/packages/cbrcurrencies/builds

Новые данные будут появляться еженедельно. Пока проект в стадии beta они будут актуализироваться время-от-времени, нерегулярно, а далее уже на регулярной основе.

Предложения, идеи и вопросы можно писать в форумах сообщества проекта https://apicrafter.userecho.com или в комментариях к постам в этом канале.
Вообще прежде чем запускать DataCrafter [1] я изучил несколько десятков каталогов данных и специального ПО для ведения таких каталогов.

У них у всех примерно 3 ниши:
- научная (репозитории научных данных)
- корпоративная/коммерческая (каталоги для data science)
- государственная (каталоги открытых данных)

Я об этом писал в большом обзоре в январе этого года [2].

Вот DataCrafter в чистом виде ни под одну из этих категорий не попадает поскольку это, по сути, некоторая польза для сообщества, некоторые возможности для аналитиков, а также... огромный тестовый полигон для тестирования алгоритмов автоматизации документирования данных, распознавания их структуры, классификации данных по типам и структуре полей и ещё многое другое.

У хорошего каталога всегда есть как минимум 4 направления развития:
- больше данных
- лучшее описание/документирование/инструментальное обеспечение данных
- улучшенный пользовательский интерфейс
- хорошая интеграция со всем что активно используется

Вот сейчас данных вроде как много, 359 доступных наборов данных, а можно добавить ещё несколько десятков тысяч (буквально), но тогда надо перестраивать веб-интерфейс потому что в текущем работать с такого рода количеством данных будет неудобно и полезные данные смешаются со всяким мусором.

Для документирования огромное пространство возможностей потому что сейчас не подгружена документация к 16386 полям. Документирование - это, всегда, самая ресурсоёмкая задача. Поскольку ещё и первоисточнику не всегда можно доверять, данные документации даже если даны структурировано, но ошибки часты. Без алгоритмической классификаци и автодокументирования тут не обойтись.

Пользовательский интерфейс самая понятная и самая сложная штука. Понятная потому что примеров много, сложная потому что разным пользователям нужно разное.

И интеграция это то без чего большинство пользователей не могут обойтись. И тут самое главное расстановка приоритетов, что и как должно быть в первую очередь.

Примеры для вдохновения больших публичных каталогов - это QRI [3], Data.world [4], Airtable [5], Dolthub [6] и многие другие

Сейчас DataCrafter - это каркас под все эти направления. Со сдержанным ростом числа баз данных, напащиванием алгоритмических возможностей и постепенным улучшением пользовательского опыта. Самое простое - это нарастить его объёмы, самое интересное - прокачать алгоритмы, самое важное - обеспечить пользователей удобными инструментами.

Ссылки:
[1] https://beta.apicrafter.ru
[2] https://begtin.substack.com/p/11
[3] https://qri.io
[4] https://data.world
[5] https://airtable.com
[6] https://www.dolthub.com

#data #datacatalogs #datacrafter
В OpenDemocracy статья Jansen Reventlow о том как государственные (автоматизированные) системы выходят из под контроля и разрушают жизни Government algorithms are out of control and ruin lives [1] со свежими примерами внедрения автоматических алгоритмов в Нидерландах. Скандал привел к заявлению об отставке правительства страны из-за плохого управления субсидиями на детей [2]. Ранее голландское агентство по защите данных выявило что голландская налоговая служба неэффективно управляла системой раздачи детских пособий. Эта система была организована так что правительство компенсировало до 90% расходов на детей бедным семьям через прямые выплаты компаниям и сервисам оказывающих услуги. Проверка выявила большое число фактов "обмана" со стороны получателей услуг, дискриминационного подхода в работе этой системы по причине национальности или двойного гражданства.

В результате 46 тысяч родителей были ошибочно обвинены в том что они злонамерянно запрашивали поддержку и получали её не имея на это право. Причем недавно выяснилось что на то чтобы разобраться с каждым случаем уйдет не менее 10 лет [4]. А тем временем многие оказались должны государству до десятков тысяч евро.

Статья заканчивается призывом к тому что контроль за ИИ - это важнейший фронтир для гражданского общества и внедрение новых технологий государством это не только большие возможности, но и большие опасности.

Ссылки:
[1] https://www.opendemocracy.net/en/digitaliberties/government-algorithms-are-out-control-and-ruin-lives/
[2] https://www.reuters.com/article/us-netherlands-politics-rutte-idUSKBN29K1NK
[3] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf
[4] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf

#ai #privacy
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.

Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/

#privacy #search
Вчера закрылась Команда 29 и многочисленные их проекты, а сама команда предупредила что лучше удалить ссылки на их материалы поскольку закрываются они из-за обвинений в связях с нежелательной организацией Společnost Svobody Informace, НКО из Чехии.

Я, скажу честно, не ко всем проектам команды 29 относился с симпатией. У меня было немало претензий к их подходам к оценке открытости информации по 8-ФЗ и лично к Ивану Павлову, когда ещё в 2014 году в оценки открытости в России в Open Data Index его сотрудники пытались внести искажения которые показали бы состояние открытых данных в России лучше чем это было на самом деле. Но у них это тогда не получилоась, а то ради чего это делалось, пусть будет на их совести.

Как бы то ни было, несмотря на моё личное отрицательное отношение к деятельности многих в Команде 29, если от этого личного отношения отстраниться, то, конечно, они были одними из немногих кто занимался вопросами открытости в России. Мои личные антипатии не означает что я не могу признать большой и важной работы которую эта команда делала. Больше того, ещё недавно многие госорганы ссылались на результаты их исследований. На сайте Минфина России есть специальный раздел где ещё в декабре 2020 года они публиковали "сертификаты системы Инфометр" (за что я их отдельно критиковал, в том числе). Так что же теперь у нас Минфин России популяризирует материалы иностранного агента?

Я по прежнему настаиваю на том тезисе что открытость данных и государства в целом бессмысленна в условиях ликвидации потребителей этой открытости.

#opengov #opendata
В Мексике произошла предположительная утечка данных о 91 миллионе избирателей [1]. На теневых форумах продают эти данные и утверждают что они содержат все личные данные мексиканских избирателей на 2021 год.

Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".

Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660

#privacy #leaks #voters
Свежий дайджест по работе с данными:
- Netflix открыли код Data Explorer [1] инструмента для навигации по хранилищам данных Redis, Cassandra, Dynomite
- команда конструктора аналитики Cube.js с открытым кодом получила $15.5 миллионов инвестиций [2] на развитие их API на данных. Ранее компания уже привлекла $6.2 миллиона в прошлом году [3]
- статья MacKinsey о том почему важно работать с данными для разработки стратегий компаний [4]
- о вреде разметки данных вручную в статье Hand Labeling Considered Harmful [5] команды ORelly, там же ссылка на полезную статью 2017 года Software 2.0 [6]


Ссылкти:
[1] https://github.com/Netflix/nf-data-explorer
[2] https://venturebeat.com/2021/07/19/cube-dev-raises-15-5m-to-commercialize-its-open-source-data-api-platform/
[3] https://www.crunchbase.com/organization/cube-dev/company_financials
[4] https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-strategy-analytics-revolution
[5] https://www.oreilly.com/radar/arguments-against-hand-labeling/
[6] https://karpathy.medium.com/software-2-0-a64152b37c35

#data #digest
Многочисленные напоминания для тех кто не знает чем я занимаюсь.

Коммерческие проекты:
- https://apicrafter.ru (коммерческие API к ЕГРЮЛ, госзакупкам и тд.)
-https://beta.apicrafter.ru - DataCrafter, публичный первичных данных доступных как открытые данные и API.

Общественные проекты Инфокультуры:
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Хаб открытых данных https://hubofdata.ru
- Простой язык https://plainrussian.ru
- Национальный цифровой архив https://ruarxive.org
- Данные НКО https://ngodata.ru

Телеграм каналы
- Мой канал в телеграм где я регулярно пишу о данных, государстве, госзакупках, технологиях и ещё много о чём https://t.me/begtin
- Телеграм канал APICrafter'а https://t.me/apicrafter
- Телеграм канал Инфокультуры https://t.me/infoculture
- Телеграм канал ассоциации АУРД https://t.me/aurdata

Открытый код
- мой открытый код https://github.com/ivbeg
- открытый код Инфокультуры https://github.com/infoculture
- открытый код Нацархива https://github.com/ruarxive
- открытый код APICrafter'а https://github.com/apicrafter и https://github.com/datacoon

Рассылки:
- моя рассылка про данные https://begtin.substack.com
- рассылка Инфокультуры https://infoculture.ru
Я регулярно пишу о том существует ли в России практика раскрытия исходного кода и вот пополнение, оказывается у Института системного программирования им. В.П. Иванникова РАН есть открытый аккаунт в Github [1], добавил их в специальный список Awesome list of Russian government open source repositories and projects [2]. Примеров таких исключительно мало, даже неизвестно насколько официальный статус имеет этот аккаунт потому что на сайте ИСП РАН ссылки на Github нет [3], а с другой стороны на Github'е довольно большая команда.

Я, кстати, не могу не напомнить что большая часть общедоступного исходного кода в развитых странах раскрывается именно в рамках открытости научных исследований. Да и открытых данных, кстати, тоже.

Ссылки:
[1] https://github.com/ispras
[2] https://github.com/infoculture/awesome-gov-opensource-russia
[3] https://www.ispras.ru

#opensource #government
К вопросу об актуализации технологий и в продолжение раскрытия государственного кода. Несколько лет назад ДИТ Москвы инициативно раскрыли исходный код нескольких проектов на блокчейн которые используются для голосования в Москве, для заявок в реестр ярмарок и так далее. Всё это подавалось как прозрачные проекты с раскрытием кода и с возможностью проверить записи в блокчейне. Но, не прошло и пары лет, а этот код уже не работает. Пример, код для проверки блокчейн записей о заявках на ярмарки в Москве [1] был основан на продукте Parity Shell, который уже устарен пару лет назад [2], больше не работает и не обновляется код проекта. Как результат не работает и код раскрытый ДИТ Москвы.

Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.

Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/

#opensource #moscow