Один из наборов данных в DataCrafter'е - это база государственных доменов, которую я много лет веду для Национального цифрового архива (ruarxive.org) в виде репозитория на Github'е [1] и в виде базы в Airtable, причём сейчас именно база в Airtable наиболее вычищена и актуальна.
В DataCrafter она загружена 5 таблицами [2]:
- Домены
- Корневые домены
- ASN
- Госорганы и организации
- Регионы
- Государственные информационные системы
Это открытая часть контура DataCrafter'а поэтому все эти данные можно скачать одним архивом в разделе "Сборки и версии" [3], а также можно воспользоваться API без авторизации и ключа.
Как проверить домен что это домен госоргана или госструктуры
Пр запросу
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22Domain%22:%22sudrf.ru%22}
передаётся параметр Domain и можно получить карточку домена если он есть в базе.
Или мы хотим получить список доменов Минюста России. Минюст России есть в таблице организаций [4]
с идентификатором recPluHB9B0SGs867 . Передаём его как параметр к запросу этой таблицы [5] и получаем список идентификаторов доменов в поле Domains.
Для каждого домена делаем запрос с параметром id из поля Domains и получаем карточки каждого домена
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22id%22:%22recPjVbY9U2r6LTOX%22}
Аналогично работают API для доступа к остальным таблицам и, ещё раз напомню, можно скачать эту базу данных целиком. Все данные в пакете данных хранятся в формате JSON lines и легко импортируются в любую СУБД для работы JSON документами.
Ссылки:
[1] github.com/infoculture/govdomains/
[2] https://beta.apicrafter.ru/packages/govdomains/tables
[3] https://beta.apicrafter.ru/packages/govdomains/builds
[4] https://beta.apicrafter.ru/tables/govdomains/organizations
[5] https://api.crftr.net/open/rawapi/v3/govdomains/organizations?where={%22id%22:%22recPluHB9B0SGs867%22}
#opendata #opengov #govdomains
В DataCrafter она загружена 5 таблицами [2]:
- Домены
- Корневые домены
- ASN
- Госорганы и организации
- Регионы
- Государственные информационные системы
Это открытая часть контура DataCrafter'а поэтому все эти данные можно скачать одним архивом в разделе "Сборки и версии" [3], а также можно воспользоваться API без авторизации и ключа.
Как проверить домен что это домен госоргана или госструктуры
Пр запросу
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22Domain%22:%22sudrf.ru%22}
передаётся параметр Domain и можно получить карточку домена если он есть в базе.
Или мы хотим получить список доменов Минюста России. Минюст России есть в таблице организаций [4]
с идентификатором recPluHB9B0SGs867 . Передаём его как параметр к запросу этой таблицы [5] и получаем список идентификаторов доменов в поле Domains.
Для каждого домена делаем запрос с параметром id из поля Domains и получаем карточки каждого домена
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22id%22:%22recPjVbY9U2r6LTOX%22}
Аналогично работают API для доступа к остальным таблицам и, ещё раз напомню, можно скачать эту базу данных целиком. Все данные в пакете данных хранятся в формате JSON lines и легко импортируются в любую СУБД для работы JSON документами.
Ссылки:
[1] github.com/infoculture/govdomains/
[2] https://beta.apicrafter.ru/packages/govdomains/tables
[3] https://beta.apicrafter.ru/packages/govdomains/builds
[4] https://beta.apicrafter.ru/tables/govdomains/organizations
[5] https://api.crftr.net/open/rawapi/v3/govdomains/organizations?where={%22id%22:%22recPluHB9B0SGs867%22}
#opendata #opengov #govdomains
GitHub
GitHub - infoculture/govdomains: Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным…
Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным учреждениям, а также региональным и муниципальным властям. - infoculture/govdomains
К вопросу о регулярных разговорах о том как те или общественные проблемы решать правильно или неправильно, есть то что является шаблонами по которым такие проблемы и их решения моделируют.
Например, у The GovLab есть достаточно давний шаблон "GovLab Public Problem Solving Canvas" как раз для описания общественной проблемы/задачи и пути её решения и об этом же статья ещё из 2015 года [2]. Впрочем с той поры мало что изменилось и этот шаблон актуален.
Для работы с открытыми данными таже есть шаблоны / готовые модели для проектирования. Например, у Open Data Charter есть Publish with purpose canvas [3], это шаблон по которому описывается то зачем, с какой целью необходима публикация данных, включая последующее применение. А у Института открытых данных есть Data Ethics Canvas [4] для проектирования систем с этическим управлением данными.
Здесь хочется, с одной стороны, сказать что многие из таких шаблонов недолговечны, и меняются вместе с подходами к осуществлению государственной или корпоративной политики, но, многие, наоборот, не теряют актуальности.
У ОЭСР в обсерватории инноваций госсектора много примеров таких шаблонов [5].
Ссылки:
[1] https://canvas.govlabacademy.org
[2] https://www.nesta.org.uk/blog/tech4labs-issue-4-canvassing-the-value-proposition-of-your-public-lab-project/
[3] https://drive.google.com/file/d/1uJR-j4-11PDKKLPX5ZY0mcMfqFfSQATp/view
[4] https://theodi.org/article/the-data-ethics-canvas-2021/
[5] https://oecd-opsi.org/?s=canvas
#opengov #policy #opendata
Например, у The GovLab есть достаточно давний шаблон "GovLab Public Problem Solving Canvas" как раз для описания общественной проблемы/задачи и пути её решения и об этом же статья ещё из 2015 года [2]. Впрочем с той поры мало что изменилось и этот шаблон актуален.
Для работы с открытыми данными таже есть шаблоны / готовые модели для проектирования. Например, у Open Data Charter есть Publish with purpose canvas [3], это шаблон по которому описывается то зачем, с какой целью необходима публикация данных, включая последующее применение. А у Института открытых данных есть Data Ethics Canvas [4] для проектирования систем с этическим управлением данными.
Здесь хочется, с одной стороны, сказать что многие из таких шаблонов недолговечны, и меняются вместе с подходами к осуществлению государственной или корпоративной политики, но, многие, наоборот, не теряют актуальности.
У ОЭСР в обсерватории инноваций госсектора много примеров таких шаблонов [5].
Ссылки:
[1] https://canvas.govlabacademy.org
[2] https://www.nesta.org.uk/blog/tech4labs-issue-4-canvassing-the-value-proposition-of-your-public-lab-project/
[3] https://drive.google.com/file/d/1uJR-j4-11PDKKLPX5ZY0mcMfqFfSQATp/view
[4] https://theodi.org/article/the-data-ethics-canvas-2021/
[5] https://oecd-opsi.org/?s=canvas
#opengov #policy #opendata
nesta
Tech4Labs Issue 4: 'Canvassing' the value proposition of your public lab project
Как публикуют открытые данные ФОИВы? Часто, слишком часто зачищая опубликованное. Пример, сайт Ростехнадзора [1] где вместо перевода в архивное состояние данные просто с сайта убирали, причём оставляя пустые строки в спике. Мало того что сами данные довольно бесполезны и публикуются плохо, только в CSV формате, без раскрытия данных из их реестров и информационных систем, так ещё и с удалением "хвостов".
Всё это хорошо видно через веб-архив [2]
Ссылки:
[1] http://gosnadzor.gov.ru/opendata/
[2] https://web.archive.org/web/diff/20200804134904/20210421004818/http://gosnadzor.gov.ru/opendata/
#opendata
Всё это хорошо видно через веб-архив [2]
Ссылки:
[1] http://gosnadzor.gov.ru/opendata/
[2] https://web.archive.org/web/diff/20200804134904/20210421004818/http://gosnadzor.gov.ru/opendata/
#opendata
Журналистам на заметку, помимо канала Госзатраты в телеграм, у Госзатрат есть открытое API с помощью которого можно не только запрашивать данные, но и делать боты вроде того что наполняет этот канал. Если Вы хотите получать поток новостей по Вашей теме, то достаточно настроить такой бот под себя и получать новости на регулярной основе.
Telegram
Госзатраты
Телеграм-канал о самых дорогих контрактах по 44-ФЗ. Каждый день публикуются ТОП-3 дорогих контрактов за неделю по разным отраслям. Также публикуются контракты, незаурядно дорогие для своей отрасли (для связи: op @ clearspending.ru)
Forwarded from Госзатраты
Заключен дорогой контракт в категории 'Строительство':
Реконструкция аэропортового комплекса с. Чара (Забайкальский край) - этап 1.1 и др.
Сумма контракта: 2,1 млрд. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ КАЗЕННОЕ УЧРЕЖДЕНИЕ "СЛУЖБА ЕДИНОГО ЗАКАЗЧИКА" ЗАБАЙКАЛЬСКОГО КРАЯ
Поставщик: ПУБЛИЧНО-ПРАВОВАЯ КОМПАНИЯ "ВОЕННО-СТРОИТЕЛЬНАЯ КОМПАНИЯ"
Регион: Забайкальский край
Дата заключения: 12.07.2021
Подробнее о контракте
#строительство
Реконструкция аэропортового комплекса с. Чара (Забайкальский край) - этап 1.1 и др.
Сумма контракта: 2,1 млрд. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ КАЗЕННОЕ УЧРЕЖДЕНИЕ "СЛУЖБА ЕДИНОГО ЗАКАЗЧИКА" ЗАБАЙКАЛЬСКОГО КРАЯ
Поставщик: ПУБЛИЧНО-ПРАВОВАЯ КОМПАНИЯ "ВОЕННО-СТРОИТЕЛЬНАЯ КОМПАНИЯ"
Регион: Забайкальский край
Дата заключения: 12.07.2021
Подробнее о контракте
#строительство
162 миллиарда рублей было потрачено из федерального бюджета и 779 миллиардов из региональных бюджетов в 2020 году году на субсидии некоммерческим организацям. Из них на "классический некоммерческий сектор" (благотворительные фонды, НКО частных лиц и тд.) ушло не более 5% этой суммы через Фонд президентских грантов и региональные конкурсы. Остальные средства распределялись между несколькими сотнями крупнейших НКО учредителями которых являются госорганами, госучреждения, госкорпорации или иную прямую аффиляцию с государством. Я писал об этом в марте 2020 года в колонке РБК [1], сейчас, наконец-то, есть обновлённые цифры и желание закончить доклад о госрасходах на НКО в виде полноценного подробного документа с описанием ситуации. Но, может быть, надо просто написать ещё одну колонку.
Ссылки:
[1] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
#ngo #government #budgets
Ссылки:
[1] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
#ngo #government #budgets
РБК
Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях
Создание государством некоммерческих организаций и прямое их субсидирование — это вывод огромных бюджетных средств из-под общих требований к госзакупкам и прозрачности
Подборка полезных новостей про данные и не только:
- IBM купили Bluetab [1] разработчиков open-source продукта Truedat [2] для управления данными и их каталогизации
- В России утвердили стандарт больших данных [3], он, на самом деле, словарь, но может хоть наличие стандарта оставит все эти бесконечные терминологические споры (или усилит их)
- Quickwit [4] инструмент по быстрому превращению JSON документов в API с полнотекстовым поиском, поддерживает 17 языков на основе латиницы, китайский и корейский и другие языки библиотеки Tantivy [5] на которой он основан, хотя может быть и русский тоже, надо проверять. Написано на языке Rust.
- Анонсирована конференция PyData Global 28-30 октября и туда стоит подаваться с заявками на выступление [6]
- большая подборка ссылок и материалов о инициативах Data4Good [7]
- что такое современный стек данных (data stack) [8] через взгляд 5 разработчиков облачных сервисов и продуктов
Ссылки:
[1] https://bluetab.net/en/software/fastcapture/
[2] https://www.truedat.io
[3] https://www.vedomosti.ru/technology/articles/2021/07/15/878242-utverzhden-pervii-standart-v-oblasti-bolshih-dannih%C2%A0
[4] https://github.com/quickwit-inc/quickwit/
[5] https://github.com/tantivy-search/tantivy
[6] https://pydata.org/global2021/present/
[7] https://www.data.org/charting-the-data-for-good-landscape/
[8] https://www.rilldata.com/blog/5-founders-define-the-modern-data-stack
#opendata #data #datacatalogs
- IBM купили Bluetab [1] разработчиков open-source продукта Truedat [2] для управления данными и их каталогизации
- В России утвердили стандарт больших данных [3], он, на самом деле, словарь, но может хоть наличие стандарта оставит все эти бесконечные терминологические споры (или усилит их)
- Quickwit [4] инструмент по быстрому превращению JSON документов в API с полнотекстовым поиском, поддерживает 17 языков на основе латиницы, китайский и корейский и другие языки библиотеки Tantivy [5] на которой он основан, хотя может быть и русский тоже, надо проверять. Написано на языке Rust.
- Анонсирована конференция PyData Global 28-30 октября и туда стоит подаваться с заявками на выступление [6]
- большая подборка ссылок и материалов о инициативах Data4Good [7]
- что такое современный стек данных (data stack) [8] через взгляд 5 разработчиков облачных сервисов и продуктов
Ссылки:
[1] https://bluetab.net/en/software/fastcapture/
[2] https://www.truedat.io
[3] https://www.vedomosti.ru/technology/articles/2021/07/15/878242-utverzhden-pervii-standart-v-oblasti-bolshih-dannih%C2%A0
[4] https://github.com/quickwit-inc/quickwit/
[5] https://github.com/tantivy-search/tantivy
[6] https://pydata.org/global2021/present/
[7] https://www.data.org/charting-the-data-for-good-landscape/
[8] https://www.rilldata.com/blog/5-founders-define-the-modern-data-stack
#opendata #data #datacatalogs
www.truedat.io
The Data Governance Open Source Solution
Forwarded from APICrafter
Регулярное пополнение наборов данных в APICrafter'е на 17 июля.
Добавлены наборы данных в разделе Инфраструктура
- точки продах Мегафон https://beta.apicrafter.ru/packages/megaphonsalespoints
- точки продаж МТС https://beta.apicrafter.ru/packages/mtssalespoints
- точки продаж Tele2 https://beta.apicrafter.ru/packages/tele2salespoints
- точки продаж Yota https://beta.apicrafter.ru/packages/yotasalespoints
Добавлены наборы данных в разделе Финансы
- Динамика курсов валют https://beta.apicrafter.ru/packages/cbrcurrencies
- Ключевая ставка Банка России https://beta.apicrafter.ru/packages/cbrkeyrate
- MosPrime Rate https://beta.apicrafter.ru/packages/cbrmosprime
- Ставка по кредитам овернайт (Банк России) https://beta.apicrafter.ru/packages/cbrovernight
- Международные резервы Российской Федерации https://beta.apicrafter.ru/packages/cbrreserves
В основном это данные, относительно, небольшого объёма в десятках тысяч записей, однако, к примеру, динамика курсов валют это 218 тысяч записей начиная с 1 июля 1992 года ежедневно по 144 валютам.
Все данные можно скачать как открытые данные и сейчас они доступны без необходимости авторизации. А также их можно скачать в виде слепков в формате BSON для СУБД MongoDB в сборках данных, пример, https://beta.apicrafter.ru/packages/cbrcurrencies/builds
Новые данные будут появляться еженедельно. Пока проект в стадии beta они будут актуализироваться время-от-времени, нерегулярно, а далее уже на регулярной основе.
Предложения, идеи и вопросы можно писать в форумах сообщества проекта https://apicrafter.userecho.com или в комментариях к постам в этом канале.
Добавлены наборы данных в разделе Инфраструктура
- точки продах Мегафон https://beta.apicrafter.ru/packages/megaphonsalespoints
- точки продаж МТС https://beta.apicrafter.ru/packages/mtssalespoints
- точки продаж Tele2 https://beta.apicrafter.ru/packages/tele2salespoints
- точки продаж Yota https://beta.apicrafter.ru/packages/yotasalespoints
Добавлены наборы данных в разделе Финансы
- Динамика курсов валют https://beta.apicrafter.ru/packages/cbrcurrencies
- Ключевая ставка Банка России https://beta.apicrafter.ru/packages/cbrkeyrate
- MosPrime Rate https://beta.apicrafter.ru/packages/cbrmosprime
- Ставка по кредитам овернайт (Банк России) https://beta.apicrafter.ru/packages/cbrovernight
- Международные резервы Российской Федерации https://beta.apicrafter.ru/packages/cbrreserves
В основном это данные, относительно, небольшого объёма в десятках тысяч записей, однако, к примеру, динамика курсов валют это 218 тысяч записей начиная с 1 июля 1992 года ежедневно по 144 валютам.
Все данные можно скачать как открытые данные и сейчас они доступны без необходимости авторизации. А также их можно скачать в виде слепков в формате BSON для СУБД MongoDB в сборках данных, пример, https://beta.apicrafter.ru/packages/cbrcurrencies/builds
Новые данные будут появляться еженедельно. Пока проект в стадии beta они будут актуализироваться время-от-времени, нерегулярно, а далее уже на регулярной основе.
Предложения, идеи и вопросы можно писать в форумах сообщества проекта https://apicrafter.userecho.com или в комментариях к постам в этом канале.
Вообще прежде чем запускать DataCrafter [1] я изучил несколько десятков каталогов данных и специального ПО для ведения таких каталогов.
У них у всех примерно 3 ниши:
- научная (репозитории научных данных)
- корпоративная/коммерческая (каталоги для data science)
- государственная (каталоги открытых данных)
Я об этом писал в большом обзоре в январе этого года [2].
Вот DataCrafter в чистом виде ни под одну из этих категорий не попадает поскольку это, по сути, некоторая польза для сообщества, некоторые возможности для аналитиков, а также... огромный тестовый полигон для тестирования алгоритмов автоматизации документирования данных, распознавания их структуры, классификации данных по типам и структуре полей и ещё многое другое.
У хорошего каталога всегда есть как минимум 4 направления развития:
- больше данных
- лучшее описание/документирование/инструментальное обеспечение данных
- улучшенный пользовательский интерфейс
- хорошая интеграция со всем что активно используется
Вот сейчас данных вроде как много, 359 доступных наборов данных, а можно добавить ещё несколько десятков тысяч (буквально), но тогда надо перестраивать веб-интерфейс потому что в текущем работать с такого рода количеством данных будет неудобно и полезные данные смешаются со всяким мусором.
Для документирования огромное пространство возможностей потому что сейчас не подгружена документация к 16386 полям. Документирование - это, всегда, самая ресурсоёмкая задача. Поскольку ещё и первоисточнику не всегда можно доверять, данные документации даже если даны структурировано, но ошибки часты. Без алгоритмической классификаци и автодокументирования тут не обойтись.
Пользовательский интерфейс самая понятная и самая сложная штука. Понятная потому что примеров много, сложная потому что разным пользователям нужно разное.
И интеграция это то без чего большинство пользователей не могут обойтись. И тут самое главное расстановка приоритетов, что и как должно быть в первую очередь.
Примеры для вдохновения больших публичных каталогов - это QRI [3], Data.world [4], Airtable [5], Dolthub [6] и многие другие
Сейчас DataCrafter - это каркас под все эти направления. Со сдержанным ростом числа баз данных, напащиванием алгоритмических возможностей и постепенным улучшением пользовательского опыта. Самое простое - это нарастить его объёмы, самое интересное - прокачать алгоритмы, самое важное - обеспечить пользователей удобными инструментами.
Ссылки:
[1] https://beta.apicrafter.ru
[2] https://begtin.substack.com/p/11
[3] https://qri.io
[4] https://data.world
[5] https://airtable.com
[6] https://www.dolthub.com
#data #datacatalogs #datacrafter
У них у всех примерно 3 ниши:
- научная (репозитории научных данных)
- корпоративная/коммерческая (каталоги для data science)
- государственная (каталоги открытых данных)
Я об этом писал в большом обзоре в январе этого года [2].
Вот DataCrafter в чистом виде ни под одну из этих категорий не попадает поскольку это, по сути, некоторая польза для сообщества, некоторые возможности для аналитиков, а также... огромный тестовый полигон для тестирования алгоритмов автоматизации документирования данных, распознавания их структуры, классификации данных по типам и структуре полей и ещё многое другое.
У хорошего каталога всегда есть как минимум 4 направления развития:
- больше данных
- лучшее описание/документирование/инструментальное обеспечение данных
- улучшенный пользовательский интерфейс
- хорошая интеграция со всем что активно используется
Вот сейчас данных вроде как много, 359 доступных наборов данных, а можно добавить ещё несколько десятков тысяч (буквально), но тогда надо перестраивать веб-интерфейс потому что в текущем работать с такого рода количеством данных будет неудобно и полезные данные смешаются со всяким мусором.
Для документирования огромное пространство возможностей потому что сейчас не подгружена документация к 16386 полям. Документирование - это, всегда, самая ресурсоёмкая задача. Поскольку ещё и первоисточнику не всегда можно доверять, данные документации даже если даны структурировано, но ошибки часты. Без алгоритмической классификаци и автодокументирования тут не обойтись.
Пользовательский интерфейс самая понятная и самая сложная штука. Понятная потому что примеров много, сложная потому что разным пользователям нужно разное.
И интеграция это то без чего большинство пользователей не могут обойтись. И тут самое главное расстановка приоритетов, что и как должно быть в первую очередь.
Примеры для вдохновения больших публичных каталогов - это QRI [3], Data.world [4], Airtable [5], Dolthub [6] и многие другие
Сейчас DataCrafter - это каркас под все эти направления. Со сдержанным ростом числа баз данных, напащиванием алгоритмических возможностей и постепенным улучшением пользовательского опыта. Самое простое - это нарастить его объёмы, самое интересное - прокачать алгоритмы, самое важное - обеспечить пользователей удобными инструментами.
Ссылки:
[1] https://beta.apicrafter.ru
[2] https://begtin.substack.com/p/11
[3] https://qri.io
[4] https://data.world
[5] https://airtable.com
[6] https://www.dolthub.com
#data #datacatalogs #datacrafter
Ivan’s Begtin Newsletter on digital, open and preserved government
#11. Стандарты работы с данными
Хрун-Варвар согласно стандартам Пупземелья считался чуть ли не академиком, поскольку умел думать, не шевеля при этом губами. (с) Цвет волшебства
В OpenDemocracy статья Jansen Reventlow о том как государственные (автоматизированные) системы выходят из под контроля и разрушают жизни Government algorithms are out of control and ruin lives [1] со свежими примерами внедрения автоматических алгоритмов в Нидерландах. Скандал привел к заявлению об отставке правительства страны из-за плохого управления субсидиями на детей [2]. Ранее голландское агентство по защите данных выявило что голландская налоговая служба неэффективно управляла системой раздачи детских пособий. Эта система была организована так что правительство компенсировало до 90% расходов на детей бедным семьям через прямые выплаты компаниям и сервисам оказывающих услуги. Проверка выявила большое число фактов "обмана" со стороны получателей услуг, дискриминационного подхода в работе этой системы по причине национальности или двойного гражданства.
В результате 46 тысяч родителей были ошибочно обвинены в том что они злонамерянно запрашивали поддержку и получали её не имея на это право. Причем недавно выяснилось что на то чтобы разобраться с каждым случаем уйдет не менее 10 лет [4]. А тем временем многие оказались должны государству до десятков тысяч евро.
Статья заканчивается призывом к тому что контроль за ИИ - это важнейший фронтир для гражданского общества и внедрение новых технологий государством это не только большие возможности, но и большие опасности.
Ссылки:
[1] https://www.opendemocracy.net/en/digitaliberties/government-algorithms-are-out-control-and-ruin-lives/
[2] https://www.reuters.com/article/us-netherlands-politics-rutte-idUSKBN29K1NK
[3] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf
[4] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf
#ai #privacy
В результате 46 тысяч родителей были ошибочно обвинены в том что они злонамерянно запрашивали поддержку и получали её не имея на это право. Причем недавно выяснилось что на то чтобы разобраться с каждым случаем уйдет не менее 10 лет [4]. А тем временем многие оказались должны государству до десятков тысяч евро.
Статья заканчивается призывом к тому что контроль за ИИ - это важнейший фронтир для гражданского общества и внедрение новых технологий государством это не только большие возможности, но и большие опасности.
Ссылки:
[1] https://www.opendemocracy.net/en/digitaliberties/government-algorithms-are-out-control-and-ruin-lives/
[2] https://www.reuters.com/article/us-netherlands-politics-rutte-idUSKBN29K1NK
[3] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf
[4] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf
#ai #privacy
openDemocracy
Government algorithms are out of control and ruin lives
A drive for automation within a broader context of criminalising poverty and systemic racism has disastrous effects
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.
Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/
#privacy #search
Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/
#privacy #search
Вчера закрылась Команда 29 и многочисленные их проекты, а сама команда предупредила что лучше удалить ссылки на их материалы поскольку закрываются они из-за обвинений в связях с нежелательной организацией Společnost Svobody Informace, НКО из Чехии.
Я, скажу честно, не ко всем проектам команды 29 относился с симпатией. У меня было немало претензий к их подходам к оценке открытости информации по 8-ФЗ и лично к Ивану Павлову, когда ещё в 2014 году в оценки открытости в России в Open Data Index его сотрудники пытались внести искажения которые показали бы состояние открытых данных в России лучше чем это было на самом деле. Но у них это тогда не получилоась, а то ради чего это делалось, пусть будет на их совести.
Как бы то ни было, несмотря на моё личное отрицательное отношение к деятельности многих в Команде 29, если от этого личного отношения отстраниться, то, конечно, они были одними из немногих кто занимался вопросами открытости в России. Мои личные антипатии не означает что я не могу признать большой и важной работы которую эта команда делала. Больше того, ещё недавно многие госорганы ссылались на результаты их исследований. На сайте Минфина России есть специальный раздел где ещё в декабре 2020 года они публиковали "сертификаты системы Инфометр" (за что я их отдельно критиковал, в том числе). Так что же теперь у нас Минфин России популяризирует материалы иностранного агента?
Я по прежнему настаиваю на том тезисе что открытость данных и государства в целом бессмысленна в условиях ликвидации потребителей этой открытости.
#opengov #opendata
Я, скажу честно, не ко всем проектам команды 29 относился с симпатией. У меня было немало претензий к их подходам к оценке открытости информации по 8-ФЗ и лично к Ивану Павлову, когда ещё в 2014 году в оценки открытости в России в Open Data Index его сотрудники пытались внести искажения которые показали бы состояние открытых данных в России лучше чем это было на самом деле. Но у них это тогда не получилоась, а то ради чего это делалось, пусть будет на их совести.
Как бы то ни было, несмотря на моё личное отрицательное отношение к деятельности многих в Команде 29, если от этого личного отношения отстраниться, то, конечно, они были одними из немногих кто занимался вопросами открытости в России. Мои личные антипатии не означает что я не могу признать большой и важной работы которую эта команда делала. Больше того, ещё недавно многие госорганы ссылались на результаты их исследований. На сайте Минфина России есть специальный раздел где ещё в декабре 2020 года они публиковали "сертификаты системы Инфометр" (за что я их отдельно критиковал, в том числе). Так что же теперь у нас Минфин России популяризирует материалы иностранного агента?
Я по прежнему настаиваю на том тезисе что открытость данных и государства в целом бессмысленна в условиях ликвидации потребителей этой открытости.
#opengov #opendata
В Мексике произошла предположительная утечка данных о 91 миллионе избирателей [1]. На теневых форумах продают эти данные и утверждают что они содержат все личные данные мексиканских избирателей на 2021 год.
Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".
Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660
#privacy #leaks #voters
Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".
Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660
#privacy #leaks #voters
Свежий дайджест по работе с данными:
- Netflix открыли код Data Explorer [1] инструмента для навигации по хранилищам данных Redis, Cassandra, Dynomite
- команда конструктора аналитики Cube.js с открытым кодом получила $15.5 миллионов инвестиций [2] на развитие их API на данных. Ранее компания уже привлекла $6.2 миллиона в прошлом году [3]
- статья MacKinsey о том почему важно работать с данными для разработки стратегий компаний [4]
- о вреде разметки данных вручную в статье Hand Labeling Considered Harmful [5] команды ORelly, там же ссылка на полезную статью 2017 года Software 2.0 [6]
Ссылкти:
[1] https://github.com/Netflix/nf-data-explorer
[2] https://venturebeat.com/2021/07/19/cube-dev-raises-15-5m-to-commercialize-its-open-source-data-api-platform/
[3] https://www.crunchbase.com/organization/cube-dev/company_financials
[4] https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-strategy-analytics-revolution
[5] https://www.oreilly.com/radar/arguments-against-hand-labeling/
[6] https://karpathy.medium.com/software-2-0-a64152b37c35
#data #digest
- Netflix открыли код Data Explorer [1] инструмента для навигации по хранилищам данных Redis, Cassandra, Dynomite
- команда конструктора аналитики Cube.js с открытым кодом получила $15.5 миллионов инвестиций [2] на развитие их API на данных. Ранее компания уже привлекла $6.2 миллиона в прошлом году [3]
- статья MacKinsey о том почему важно работать с данными для разработки стратегий компаний [4]
- о вреде разметки данных вручную в статье Hand Labeling Considered Harmful [5] команды ORelly, там же ссылка на полезную статью 2017 года Software 2.0 [6]
Ссылкти:
[1] https://github.com/Netflix/nf-data-explorer
[2] https://venturebeat.com/2021/07/19/cube-dev-raises-15-5m-to-commercialize-its-open-source-data-api-platform/
[3] https://www.crunchbase.com/organization/cube-dev/company_financials
[4] https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-strategy-analytics-revolution
[5] https://www.oreilly.com/radar/arguments-against-hand-labeling/
[6] https://karpathy.medium.com/software-2-0-a64152b37c35
#data #digest
GitHub
GitHub - Netflix/nf-data-explorer: The Data Explorer gives you fast, safe access to data stored in Cassandra, Dynomite, and Redis.
The Data Explorer gives you fast, safe access to data stored in Cassandra, Dynomite, and Redis. - Netflix/nf-data-explorer
Многочисленные напоминания для тех кто не знает чем я занимаюсь.
Коммерческие проекты:
- https://apicrafter.ru (коммерческие API к ЕГРЮЛ, госзакупкам и тд.)
-https://beta.apicrafter.ru - DataCrafter, публичный первичных данных доступных как открытые данные и API.
Общественные проекты Инфокультуры:
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Хаб открытых данных https://hubofdata.ru
- Простой язык https://plainrussian.ru
- Национальный цифровой архив https://ruarxive.org
- Данные НКО https://ngodata.ru
Телеграм каналы
- Мой канал в телеграм где я регулярно пишу о данных, государстве, госзакупках, технологиях и ещё много о чём https://t.me/begtin
- Телеграм канал APICrafter'а https://t.me/apicrafter
- Телеграм канал Инфокультуры https://t.me/infoculture
- Телеграм канал ассоциации АУРД https://t.me/aurdata
Открытый код
- мой открытый код https://github.com/ivbeg
- открытый код Инфокультуры https://github.com/infoculture
- открытый код Нацархива https://github.com/ruarxive
- открытый код APICrafter'а https://github.com/apicrafter и https://github.com/datacoon
Рассылки:
- моя рассылка про данные https://begtin.substack.com
- рассылка Инфокультуры https://infoculture.ru
Коммерческие проекты:
- https://apicrafter.ru (коммерческие API к ЕГРЮЛ, госзакупкам и тд.)
-https://beta.apicrafter.ru - DataCrafter, публичный первичных данных доступных как открытые данные и API.
Общественные проекты Инфокультуры:
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Хаб открытых данных https://hubofdata.ru
- Простой язык https://plainrussian.ru
- Национальный цифровой архив https://ruarxive.org
- Данные НКО https://ngodata.ru
Телеграм каналы
- Мой канал в телеграм где я регулярно пишу о данных, государстве, госзакупках, технологиях и ещё много о чём https://t.me/begtin
- Телеграм канал APICrafter'а https://t.me/apicrafter
- Телеграм канал Инфокультуры https://t.me/infoculture
- Телеграм канал ассоциации АУРД https://t.me/aurdata
Открытый код
- мой открытый код https://github.com/ivbeg
- открытый код Инфокультуры https://github.com/infoculture
- открытый код Нацархива https://github.com/ruarxive
- открытый код APICrafter'а https://github.com/apicrafter и https://github.com/datacoon
Рассылки:
- моя рассылка про данные https://begtin.substack.com
- рассылка Инфокультуры https://infoculture.ru
apicrafter.ru
API Crafter
Я регулярно пишу о том существует ли в России практика раскрытия исходного кода и вот пополнение, оказывается у Института системного программирования им. В.П. Иванникова РАН есть открытый аккаунт в Github [1], добавил их в специальный список Awesome list of Russian government open source repositories and projects [2]. Примеров таких исключительно мало, даже неизвестно насколько официальный статус имеет этот аккаунт потому что на сайте ИСП РАН ссылки на Github нет [3], а с другой стороны на Github'е довольно большая команда.
Я, кстати, не могу не напомнить что большая часть общедоступного исходного кода в развитых странах раскрывается именно в рамках открытости научных исследований. Да и открытых данных, кстати, тоже.
Ссылки:
[1] https://github.com/ispras
[2] https://github.com/infoculture/awesome-gov-opensource-russia
[3] https://www.ispras.ru
#opensource #government
Я, кстати, не могу не напомнить что большая часть общедоступного исходного кода в развитых странах раскрывается именно в рамках открытости научных исследований. Да и открытых данных, кстати, тоже.
Ссылки:
[1] https://github.com/ispras
[2] https://github.com/infoculture/awesome-gov-opensource-russia
[3] https://www.ispras.ru
#opensource #government
GitHub
Ivannikov Institute for System Programming of the Russian Academy of Sciences
Ivannikov Institute for System Programming of the Russian Academy of Sciences has 121 repositories available. Follow their code on GitHub.
К вопросу об актуализации технологий и в продолжение раскрытия государственного кода. Несколько лет назад ДИТ Москвы инициативно раскрыли исходный код нескольких проектов на блокчейн которые используются для голосования в Москве, для заявок в реестр ярмарок и так далее. Всё это подавалось как прозрачные проекты с раскрытием кода и с возможностью проверить записи в блокчейне. Но, не прошло и пары лет, а этот код уже не работает. Пример, код для проверки блокчейн записей о заявках на ярмарки в Москве [1] был основан на продукте Parity Shell, который уже устарен пару лет назад [2], больше не работает и не обновляется код проекта. Как результат не работает и код раскрытый ДИТ Москвы.
Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.
Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/
#opensource #moscow
Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.
Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/
#opensource #moscow
GitHub
GitHub - moscow-technologies/fairs-blockchain: Блокчейн Ярмарки выходного дня
Блокчейн Ярмарки выходного дня. Contribute to moscow-technologies/fairs-blockchain development by creating an account on GitHub.