Ivan Begtin

Тем временем обновился европейский проект глобального каталога произведений искусств Europeana [1] теперь в новой версии нет такого акцента на поиске, и куда больший акцент на коллекциях и на историях. Истории - это новая форма рассказов о произведениях искусства, в виде галерей и постов в блоге. Ближе к журналистике истории/журналистике данных даже.

И, что интересно, наконец-то в Europeana появились интерактивные возможности для пользователей. Теперь можно зарегистрироваться и создавать личные публичные и непубличные галереи из выставленных в Europeana материалов.

Это чуть ближе к австралийскому проекту Trove [2], который тоже недавно обновился, и является примеров одного из крупнейших проектов краудсорсинга исторического наследия. Пример того как государство создаёт сообщество вокруг культурного наследия и это успешно получается.

Ссылки:
[1] https://www.europeana.eu
[2] https://trove.nla.gov.au

#digitalculture #digitalheritage #opendata #open #culture

www.europeana.eu

Discover Europe’s digital cultural heritage

Search, save and share art, books, films and music from thousands of cultural institutions

3.46K viewsIvan Begtin, 12:19

Ivan Begtin

Несколько интересных текстов и терминов на английском языке по управлению данными:
- Data Mesh, новый термин в публикации [1] Zhamak Dehghani и продолжение дискуссии вокруг этой темы в блоге Chris Riccomini [2]. Если кратко, то Data Mesh это такая замена озеру данных когда всё связано, но не все вместе. Вместо одной команды работает множество команд и тд. Для многих идея звучит неудачно и больше похожа не оправдание корпоративных провалов (мы не смогли построить озеро данных, зато теперь у нас data mesh). Чтобы Вы не думали, чтение полезное
- Metadata lake очередной пост команды продукта Atlan на сей раз про озёра метаданных [3]. Повторение привычных истин что документированные данные ценнее данных самих по себе и что озеро метаданных - это систематизация и управляемость данных.
- Data Cascades in Machine Learning [4] в блоге Google AI о последствиях накопления "технического долга" при машинном обучении. Полезный термин, важные наблюдения.
- Ethics and governance of artificial intelligence for health [5] свежее руководство ВОЗ по этическому применению и управлению искусственным интеллектом в целях здоровья

Ссылки:
[1] https://martinfowler.com/articles/data-mesh-principles.html
[2] https://cnr.sh/essays/what-the-heck-data-mesh
[3] https://towardsdatascience.com/the-rise-of-the-metadata-lake-1e95127594de
[4] https://ai.googleblog.com/2021/06/data-cascades-in-machine-learning.html
[5] https://www.who.int/publications/i/item/9789240029200

#data #datacatalogs #datamesh #datalake

martinfowler.com

Data Mesh Principles and Logical Architecture

Four principles that drive a logical architecture for a data mesh.

1.48K viewsIvan Begtin, 05:58

Ivan Begtin

В рубрике интересные наборы данных, большой набор данных по распознаванию еды [1] в рамках конкурса Food Recognition Challenge [2]. Конкурс тоже интересный, 10 тысяч швейцарских фунтов команде сделавшей алгоритм с точностью > 0.70.

А в наборе данных 1.16ГБ из 24,119 изображений с 39,325 сегментами для 273 различных классов. Всё под лицензией CC-BY 4.0

Проект делается по инициативе Digital Epidemiology Lab [3] и у них же огромный проект по краудсорсингу сведений о еде, The Open Food Repo [4] с охватом 374,104 продуктов из 5-х стран США, Швейцария, Италия, Германия, Франция. У проекта нет наборов данных, но есть общедоступное API, активно применяемое пользователями.

Ссылки:
[1] https://www.aicrowd.com/challenges/food-recognition-challenge/dataset_files
[2] https://www.aicrowd.com/challenges/food-recognition-challenge
[3] https://www.digitalepidemiologylab.org
[4] https://www.foodrepo.org/

#opendata #food #datasets #openapi

AIcrowd

Crowdsourcing AI to solve real-world problems

1.71K viewsIvan Begtin, 08:02

Ivan Begtin

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Минфин России планирует опубликовать "реестр субсидий", но в нем будут данные только о "безвозмездных субсидиях юрлицам, ИП и НКО", а данных о получателях поддержки не будет.

UPD. Судя по всему, реестра субсидий не будет. А в документах, о которых пишет РБК, речь идет не о реестре субсидий, а о реестре господдержки [1], поэтому в статье столько нестыковок.

Очень интересная и подробная заметка о реестре субсидий опубликована в РБК, но и после нее остается много вопросов:

- Будет ли возобновлена публикация данных о бюджетных инвестициях и межбюджетных трансфертах, или останутся данные только о "безвозмездных субсидиях юрлицам"?

- Почему Минфин/Казначейство возобновляют публикацию спустя год, если и по старому Приказу (153н), и по новому Порядку ведения реестра, он должен быть открытым и публиковаться на ЕПБС?

- Будут ли доступны данные за 2021 год, если "новый реестр" будет опубликован только в течение семи рабочих дней после принятия ГД Закона о федеральном бюджете на 2022 год?

- Судя по заметке РБК, теперь будет публиковаться информация о "субсидиях, планируемых к предоставлению в 2022-2024 годах". Как мы будем узнавать о фактически распределенных субсидиях (и будем ли)? (мы ведь помним, как после публикации ТОПа субсидий за один из годов, субсидия на одно из СМИ из трехлетней превратилась в однолетнюю).

- Судя по новому Порядку ведения реестра соглашений, в нем останется только 4 поля (распорядитель бюджетных средств, размер субсидии, КБК, частично сведения о НПА). Результатом "общественного обсуждения" стало сокращение полей не до 5, как предлагалось Минфином в Проекте Порядка ведения реестра, а до 4 (https://t.me/ahminfin/332). Но в статье РБК говорится, что "предложений в рамках общественного обсуждения в Минфин не поступало" согласно странице проекта приказа. Как и кем тогда сократилось количество полей с 5 до 4?

В Электронном бюджете, портале Госзакупок и других информационных системах Казначейства и Минфина России есть детализированная информация о каждом соглашении, каждом получателе, каждой транзакции. Все эти данные машиночитаемые и структурированные.

Поэтому публикация четырех полей реестра субсидий выглядит несерьезно, особенно с учетом того, что поддержка (развитие, разработка, эксплуатация) информационных систем Минфина/Казначейства стоит нам, гражданам России, 3-7 млрд руб. в год, а стоимость разработки и эксплуатации Электронного бюджета доходит до 19+ млрд руб.

Хорошо, конечно, что хотя бы часть информации станет снова доступна, но планируемая к публикации "урезанная версия" реестра субсидий, в которой не будет получателей и информации о фактически распределенных субсидиях, целях, показателях, сроках, не имеет ничего общего с тем подробным источником данных, которые существовал до конца 2020 года.

А общая тенденция открытости данных и открытости госфинансов в России не меняется - в последние годы открытость государства не просто снижается, но и те данные, которые должны быть доступны в соответствии с НПА, не публикуются (те же региональные и муниципальные бюджеты должны публиковаться в структурированном формате уже 3,5 и 1,5 года, но их до сих пор нет).

Ссылка на статью РБК: https://www.rbc.ru/economics/07/07/2021/60e335139a79474f007949dc

[1] http://budget.gov.ru/epbs/faces/p/Бюджет/Государственная%20поддержка/Информация%20о%20субсидиях%20юридическим%20лицам,%20индивидуальным%20предпринимателям,%20физическим%20лицам?_adf.ctrl-state=4krpsz3c2_4&regionId=45

Ах, этот Минфин

Общественные обсуждения публикации реестра субсидий закончились самым неожиданным образом: в итоговом документе осталось не пять пунктов для публикации в открытом доступе, а четыре. Был удален пункт "е": "вид, реквизиты и сроки заключения соглашения".

Не…

946 viewsIvan Begtin, 11:56

Ivan Begtin

Я о госфинансах рассказываю реже, а вот Ольга чаще. Рекомендую.

1.17K viewsIvan Begtin, 14:47

Ivan Begtin

Forwarded from Инфокультура

Приглашаем на вебинар «Открытые госфинансы 101: Поиск, анализ и качество данных», который пройдет 8 июля в рамках Летней школы по финансовым технологиям Томского Политеха.

Руководитель проекта «Госзатраты» @clearspending и проекта СПРФ «Госрасходы» Ольга Пархимович расскажет, что такое открытые данные, где публикуются финансовые данные, какие особенности данных нужно учитывать при их анализе (и структура, и качество).
⠀
Начало вебинара в 11:15 по московскому времени.
⠀
Участие бесплатное, подробности и регистрация: https://itr-tpu.timepad.ru/event/1629832/

itr-tpu.timepad.ru

Летняя школа по финансовым технологиям / События на TimePad.ru

ДАТЫ: 05.07.2021  09.07.2021

1.13K viewsIvan Begtin, 14:47

Ivan Begtin

Во всей борьбе с COVID-19 и инициативах пр-ва и регионов меня более всего поражает отсутствие простых и очень чётких инструментов снятия дезориентации у людей.

А начинать надо с того чтобы сделать форму ппри заполнении которой даются очень чёткие инструкции для человека именно в его жизненной ситуации. А ситуации бывают разные: у кого-то противопоказания или подозрения на них, у кого-то не российский паспорт/не российское гражданство, кто-то переболел и надо ревакцинироваться. Сейчас чтобы разобраться что делать многим приходится буквально выискивать эту информацию и разных источников.

Сделать такую форму несложно, в виде мобильного приложения, или формы на сайте Стопкоронавирус.рф. Форма которую на бумаге заполняют вакцинирующиеся может быть частью такой формы (это отдельный вопрос почему эту форму все заполняют на бумаге и о том в каком качестве будут вводимые оттуда сведения).

Но главная проблема сейчас - это дезориентация людей. Простые понятные персонализированные инструкции несложно сделать и хорошо помогают.

1.28K viewsIvan Begtin, 05:41

Ivan Begtin

Нормативная/бюрократическая нагрузка на бизнес растёт во многих странах, вопрос в том как её анализировать и измерять? Проект QuantGov [1] от Mercatus Center (центр ориентированный на свободу рынков) создан для того чтобы измерять размер и рост числа регуляторных норм и привязки этих норм к индустриям по классификатору NAICS.

Они предоставляют много наборов данных с результатами анализа [2] и немало открытого кода [3]

Ссылки:
[1] https://www.quantgov.org
[2] https://www.quantgov.org/download-data
[3] https://github.com/quantgov

#opendata #opensource #regulation

QuantGov

QuantGov-Home

The home of policy analytics. We use natural language processing to measure and study regulation. Explore our tools for tracking US, Canadian, and Australian federal regulation, pull data to compare restrictions between US states, see the extent of occupational…

1.25K viewsIvan Begtin, 06:14

Ivan Begtin

В Vox статья [1] о проектах Future Design [2] в Японии, об эксперименте в городе Yahaba в 2015 году и их развитии. Тогда в 2015 году 20 жителей города провели семинар/воркшоп по будущему регулированию, тому как город должен был бы быть устроен для последующих поколений. Это то что называют participatory deliberation practice, по русски это переводится как "практика участия в обсуждении" или можно назвать "соучастие в нормотворчестве". Об этом позже выходило исследование [3] и довольно много публикаций, например [4] и эта практика далее распространялась на другие муниципалитеты.

Главная идея в том что участники семинаров представляли себя на месте будущих поколений и преодоление межпоколенческой проблемы того что мы сейчас "одалживаем" чистую воду, чистый воздух, незагрязненную окружающую среду у будущих поколений.

Ссылки:
[1] https://www.vox.com/future-perfect/22552963/how-to-be-a-good-ancestor-longtermism-climate-change
[2] https://www.mdpi.com/2071-1050/12/18/7796
[3] http://www.souken.kochi-tech.ac.jp/seido/wp/SDES-2017-19.pdf
[4] https://www.rieti.go.jp/en/columns/s19_0011.html

#policymaking #participatory #japan

Vox

How to be a good ancestor

Don’t get trapped in the now. You can help future generations survive risks like climate change, pandemics, and artificial intelligence.

1.44K viewsIvan Begtin, 08:46

Ivan Begtin

В издании Проект весьма критичная статья про Росстат и раскрытии данных [1], в первую очередь с обвинениями в искажении статистики в угоду политической ситуации и давлению. Проблема эта не на пустом месте, независимость статистического ведомства - это давний вопрос, а политизация статистики в России также уже давно является проблемой.

Но как мне говорили специалисты в кулуарных разговорах проблема куда глубже. Даже в сравнении с СССР. Потому что даже в СССР были статистические справочники двух типов. Публикуемые для всех и находящиеся исключительно в закрытом обращении.

У многих кто сталкивается с современной отечественной статистикой возникают вопросы "Но ведь не может быть что _они_ принимают на ней решения, наверняка где-то есть реальные цифры под ДСП или гостайной". Реальность хуже, проблема в том что потребителями этих цифр являются не только массово граждане, но и те кто принимает решения и пишет нормы законов и иных документов.

Эта проблема системная, из-за сверхприсутствия государства во всех областях жизни и "рейтингодрочества" в нашей стране у почти всех есть просто огромная мотивация в искажении и подлоге статпоказателей.

Системные изменения тут нужны не только в Росстате, а проблемы поднимаемые в статье правильные.

Ссылки:
[1] https://www.proekt.media/narrative/dannye-rosstata/

#rosstat #stats #statistics

1.46K viewsIvan Begtin, edited 09:20

Ivan Begtin

Свежие события о том что происходит в мире вокруг закупок вакцин:
- В Австралии засекретили контракт с AstraZeneca [1] и власти активно сопротивляются запросам независимых сенаторов и журналистов на получение любых сведений о контрактах на поставку вакцин и данные мониторинга заболеваемости в странах тихоокеанского региона
- в Испании "большая четверка" консультантов в мире (Big Four) получила контрактов 83 миллиона евро время пандемии за 2020 год [2]
- в Боснии власти перевели в режим "конфиденциальности" контракт с CinoPharm на поставку полумиллиона вакцин [3]

В принципе, почти во всех странах в мире закупки при COVID-19 сопровождаются теми или иными скандалами. И только в России до сих пор, нет даже маркировки контрактов ушедших на противодействие COVID-19, непрозрачны расходы на производство и поставку вакцин.

Однако, если в России, вакцинация и эти траты - это внутреннее дело, поскольку все вакцины производятся самостоятельно, то в большинстве других стран, это вопрос макрополитический, поскольку вакцины закупаются в России, у AstraZeneca, CinoPharm и тд, и тут сила на стороне продавца, покупатели идут на многие условия, включая секретность сумм и особые условия договоров.

Ссылки:
[1] https://www.abc.net.au/news/2021-07-05/australia-covid-astrazeneca-deal-withheld-national-security/100261920
[2] https://confilegal.com/20210707-las-big-four-obtuvieron-83-m-en-contratos-publicos-durante-el-ultimo-ano/
[3] https://balkaninsight.com/2021/07/08/bosnia-entitys-secrecy-over-vaccine-procurement-draws-criticism/

#openness #covid19

www.abc.net.au

Australia's COVID-19 contract with AstraZeneca could cause 'real risk' to national security if released

The federal government's entire vaccine supply agreement with AstraZeneca is being withheld from the public on the grounds that it would pose a "real and substantial risk" to national security if it were released.

1.57K viewsIvan Begtin, 07:55

Ivan Begtin

Я, конечно, понимаю что всем интересен полет Ричарда Бренсона в стратосферу и грядущий полет Безоса, всё таки частная космонавтика, но...

Но куда интереснее контракт NASA с Northtop Grumman [1] [2] на "постройку домов на Лунной орбите" в виде Habitation And Logistics Outpost (HALO). Сумма контракта $935 миллионов, а всё должно быть готово к запуску в 2024 году.

Ссылки:
[1] https://www.reuters.com/lifestyle/science/northrop-build-homes-moon-orbit-under-935-mln-nasa-contract-2021-07-09/
[2] https://www.nasa.gov/press-release/nasa-northrop-grumman-finalize-moon-outpost-living-quarters-contract

#space #tech

Reuters

Northrop to build homes on moon orbit under $935 mln NASA contract

Northrop Grumman Corp (NOC.N) won a NASA contract worth $935 million to develop living quarters for the U.S. space agency's planned outpost in lunar orbit, the weapons maker said on Friday.

1.81K viewsIvan Begtin, 13:02

Ivan Begtin

Я хотел сегодня написать про очередное решение Роскомнадзора по блокировке VPN сервисов, но тут мне позвонили из Росбалта и в итоге я им наговорил на небольшую заметку [1].

Если вкратце, то чем больше Роскомнадзор будет блокировать платные коммерческие сервисы, тем большее число людей будут разворачивать себе личные VPN сервера и использовать что-то вроде Outline [2].

Я повторю одну и ту же мысль, в ситуации большого числа технически грамотных граждан все блокировки и ограничения бессмысленны без контроля конечных устройств пользователей. А такой контроль даже в Китае не обеспечивают.

При этом, я не хочу подсказывать Роскомнадзору как можно эффективно ограничивать VPN сервисы, а наоборот надо им спасибо сказать за то что они не могут эту работу сделать хорошо.

Ссылки:
[1] https://www.rosbalt.ru/moscow/2021/07/12/1910982.html
[2] https://getoutline.org/ru/

#privacy #vpn #security

1.45K viewsIvan Begtin, edited 16:03

Ivan Begtin

Весьма любопытный проект по визуализации бедности на карте с довольно высокой гранулярностью [1]. Охватывают большую часть Африки, и ряд других регионов. Не охватывают Россию совсем, зато есть Казахстан.

Разработчики - DIDL [2], лаборатория при Berkeley School of Information. Источник данных Relative Wealth Index [3] опубликованные Facebook на Humanitarian Data Exchange в рамках их инициативы Data4Good.

Ссылки:
[1] http://beta.povertymaps.net
[2] https://didl.berkeley.edu/
[3] https://data.humdata.org/dataset/relative-wealth-index

#opendata #maps #poverty

1.7K viewsIvan Begtin, 16:36

Ivan Begtin

Сегодня в пресс-центре МИЦ Известия прошла пресс-конференция Минэкономразвития "
Открытые данные в России. Новые вызовы и задачи" [1]. Минэкономразвития представляло там свои оценки зрелости в публикации данных ФОИВами и региональными властями. Я же говорил о том что за всеми публикациями данных органами власти не решены системные проблемы недоступности данных о качестве жизни, отсутствия муниципальных, гиперлокальных данных, то что многие инициативы по открытости сворачиваются.

И, самое главное, после закрытия совета по открытым данным при правительственной комиссии нет ни одной площадки для диалога пользователей данных и тех кто обязан их публиковать.

Это проблема и для бизнеса, и для журналистов, и для исследователей и для всех остальных пользователей данных.

Поэтому что делать? Для начала, восстанавливать инструменты и механизмы диалога на уровне Правительства РФ.

Ссылки:
[1] http://pc.iz.ru/tpost/exsic0c5m1-otkritie-dannie-v-rossii-novie-vizovi-i

#opendata #opengov

pc.iz.ru

Открытые данные в России. Новые вызовы и задачи

В пресс-центре МИЦ «Известия» представили рейтинг готовности госорганов к цифровизации.
В пресс-центре МИЦ «Известия» состоялась пресс-конференция на тему: «Открытые данные в России. Новые вызовы и задачи».

1.49K viewsIvan Begtin, 11:57

Ivan Begtin

В Евросоюзе 8 НКО: Open Contracting Partnership, Transparency International, TI Lithuania, TI Portual, ePanstvo Foundation, ParliamentWatch (Italy), Access Info, Funky Citizens и K Monitor объединились для совместного контроля за госзакупками стран Евросоюза в проекте Open Procurement: Coalition for open, fair, and accountable public spending in the EU [1].

Инициатива интересная, в контексте COVID-19 явно будет акцент на закупке вакцин, но не только про них. Как точка входа в европейские инициативы контроля за расходом госфинансов - интересный ресурс.

Ссылки:
[1] https://www.open-procurement.eu

#opengov #transparency #procurement #eu

1.21K viewsIvan Begtin, 17:19

Ivan Begtin

У Bessemer Venture Partners большой обзор рынка стартапов формирующих инфраструктуру данных Roadmap: Data Infrastructure [1]. Обзор ориентирован, в первую очередь, на инвесторов в подобные компании. Много важных факторов рынка подмечено, хорошо изложено и, в принципе, очень полезный материал.

Я коротко изложу основные тезисы:
1. Исследователи данных (data scientists) определяют решения.
Сейчас новые стартапы и продукты ориентируются на ниши работы с данными где есть исследователи данных и их потребности. Продукты в других областях тоже появляются, но приоритет, всё же, на data science.
2. Отделение сложности работы данными от инженеров данных.
У бизнес потребителей и data scientist'ов есть потребность в данных, но работа инженеров данных может занимать дни. Всё большее число стартапов фокусируются на ускорение доставки данных и на "трубах данных без дата инженеров" упрощая интерфейсы и заменяя команды дата-инженеров внутри.
3. Управление данными, мониторинга и наблюдаемость
Число источников данных значительно выросло, выросла сложность работы с ними и всё больше нового регулирования, особенно, в части приватности. Каталоги данных, прослеживаемость данных и мониторинг данных являются важными приоритетами в новой ситуации.
4. Новая волна BI и дата аналитики
С прицелом на реальное время, автоматизацию и быстрое развертывание. Очень многие создаются под задачи специфические для конкретных индустрий.
5. Инфраструктура для машинного обучения
Многие стартапы фокусируются на том чтобы машинное обучение можно было бы разворачивать в короткие сроки, создают инфраструктуру в виде инструментов, обогащения данных и многое другое

В целом, конечно, важно помнить про то что это взгляд венчурного фонда с подчеркиванием профиля компаний в их портфеле, но тезисы и тренды (их можно прочитать в публикации) подмечены весьма точно.

Ссылки:
[1] https://www.bvp.com/atlas/roadmap-data-infrastructure

#data #datainfrastructure

Bessemer Venture Partners

Roadmap: Data Infrastructure

The modern cloud data stack is undergoing massive construction and the future of software will be defined by the accessibility and use of data.

1.25K viewsIvan Begtin, 19:39

Ivan Begtin

Подборка ссылок по работе с данными и не только:
- Against SQL [1] хороший обзор текущего состояния SQL и того какие у него есть альтернативы. Я скажу честно уже много лет как стараюсь использовать различные альтернативы SQL в проектах если только нет в этом острой необходимости. У автора много дельных аргументов и хороших примеров.
- Beneficial ownership information [2] у Open Contracting подробности о регулировании раскрытия информации о конечных владельцах компаний участвующих в госзакупках. В тесной связке с проектом Open Ownership который делает на этом большой фокус [3]. Журналистам на заметку, в Великобритании полностью раскрывается реестр конечных владельцев юридических лиц People with significant control (PSC) [4], а Open Ownership публикуют его в формате BODS [5] удобном для работы.
- The Untold Story of SQLite история SQLite, одной из наиболее активно используемых систем управления базами данных в мире. Пример open source продукта в каждодневном использовании [5]

Ссылки:
[1] https://scattered-thoughts.net/writing/against-sql/
[2] https://standard.open-contracting.org/latest/en/guidance/map/beneficial_ownership/
[3] https://www.openownership.org/
[4] http://download.companieshouse.gov.uk/en_pscdata.html
[5] https://register.openownership.org/data_sources/uk-psc-register
[6] https://corecursive.com/066-sqlite-with-richard-hipp

#opendata #opensource #data

openownership.org

Open Ownership

Open Ownership provides support and guidance on all aspects of beneficial ownership transparency reforms as we believe revealing the true owners of corporate vehicles is an essential part of a well-functioning economy and society

1.23K viewsIvan Begtin, 09:00

Ivan Begtin

В Protocol лонгрид Concern trolls and power grabs: Inside Big Tech’s angry, geeky, often petty war for your privacy [1] о том как компании big tech, особенно Google, продвигают через W3C стандартизацию приватности по умолчанию и убивают мелкий бизнес следящих за пользователями маркетинговых сервисов (и ещё Facebook _немного_ убивают), а этот самый мелкий бизнес активно сопротивляется, я бы даже сказал довольно бурно сопротивляется, как минимум в Великобритании, но не только.

Сама статья о том что W3C превратилось в поле битвы коммерческих интересов, а крупные монополии превращают свои экосистемы в жестко контролируемые среды.

За скобками остаётся лишь вопрос - в каких случаях сам пользователь приобретает или теряет больше? Хотим ли мы чтобы за нами следили 5-6 крупных мега-гига-супер-технокорпораций или лучше когда это имеют возможность делать тысячи компаний? С точки зрения регулирования рынков - лучше если тысячи компаний. А с точки зрения пользователей?

Хороший, подробный, интересный материал по развитию технологической политики в области приватности. И затронет не только европейский или американский, но и российский рынок тоже.

Ссылки:
[1] https://www.protocol.com/policy/w3c-privacy-war

#privacy #regulation

Protocol

Concern trolls and power grabs: Inside Big Tech’s angry, geeky, often petty war for your privacy

The inside story of how the World Wide Web Consortium, one of the internet’s geekiest corners, became a key battleground in the global fight for web privacy.

1.21K viewsIvan Begtin, 13:15

Ivan Begtin

Forwarded from APICrafter

Пришла пора раскрыть подробности по проекту, которым я и наша команда занимались полтора месяца. Вернее, готов он был ещё 2 года назад и поставлен на паузу, а за эти полтора месяца был приведен в полу-продуктовый вид.

DataCrafter (https://beta.apicrafter.ru/) — это каталог баз данных и коммерческих API. Большая часть данных в нем — открытые данные с возможностью работы без авторизации и скачивания их в виде архива с пакетом данных, а часть доступны только в режиме ограниченного доступа к API, после регистрации до 500 запросов в сутки.

Вот примеры некоторых баз данных:
- Базы архивных госконтрактов федерального бюджета с 2007 до 2013 года https://beta.apicrafter.ru/packages/reestrgk
- Поставщики по госконтрактам системы госзаказа Москвы https://beta.apicrafter.ru/packages/zakmossuppliers
- Единый реестр застройщиков https://beta.apicrafter.ru/packages/domrfdevelopers
- Статистика регистрации, ликвидации и иных действий на основе ЕГРЮЛ в разрезах почтового индекса и других значений https://beta.apicrafter.ru/packages/egrulpoststats
а также многое другое.

Сейчас загружены 154 базы данных по юр. лицам и множество баз данных по другим направлениям. По каждой базе есть примеры данных и частично готова и далее в работе документация. В публичной версии частота обновления данных пока достаточно редкая, после завершения беты, большая часть данных будет обновляться ежесуточно/еженедельно, в соответствии с первоисточником. Многие данные доступны как открытые данные, в основном это данные не имеющие коммерческой ценности или же данные небольшого объёма.

До конца года будут добавлены ещё несколько сотен ключевых баз данных и появятся дополнительные специализированные API.

Также, обратите внимание, это не вполне стандартный каталог данных. У него есть важная особенность в том что таблицы связаны через уникальные идентификаторы (ИНН, ОГРН, КБК, кадастровый номер и многое другое). Эта классификация почти полностью автоматизирована и создана для автоматизации подготовки документации по каждому набору данных.

Протестировать можно по ключу или по открытым API не требующим ключа, например https://beta.apicrafter.ru/packages/massfounders и открытое API https://api.crftr.net/open/rawapi/v3/massfounders/massfounders

Подробная документация по ссылке - https://www.postman.com/infoculture/workspace/apicrafter-public/

Пример кода на Python для сбора данных о юридических лицах - https://github.com/apicrafter/apicrafter-example-orgprofile

Для получения ключа можно зарегистрироваться на сайте самостоятельно, по умолчанию ключ даёт возможность делать до 500 запросов в сутки. Будем благодарны за обратную связь по проекту от всех, кто им воспользуется.

Если у Вас некоммерческий проект, журналистское расследование или Вы работаете над научной статьей, во всех случаях некоммерческого использования данных, напишите нам на apicrafter@apicrafter.ru.

Больше подробностей будет в канале @apirafter в телеграм. Следите за новостями!

1.15K viewsIvan Begtin, 13:38

About

Blog

Apps

Platform