Ivan Begtin
8.08K subscribers
1.46K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Открытые данные часто и даже чаще раскрываются не государством, а научными центрами. Примеров этому много, я регулярно их привожу и вот ещё один.

Allen Institute for Artificial Intelligence [1] разместили в открытом доступе базу SUPP.AI [2], научно подтвержденных взаимодействий разного рода лекарственных препаратов и иных веществ. Так называемых supplementals (вспомогательные вещества). Вся база собрана на основе публикаций которые в институте Аллена собирают в другом их проекте Semantic Scholar [3] где собраны практически все научные статьи, разобранные и проанализированные.

Тем временем в SUPP.AI можно найти информацию о взаимодействию:
- кофеина [4]
- никотина [5]
- витамин C [6]
и многое другое

А также все данные общедоступны, хотя и не под открытой лицензией [7]

Ссылки:
[1] https://allenai.org/
[2] https://supp.ai/
[3] https://www.semanticscholar.org/
[4] https://supp.ai/a/caffeine/C0006644?q=Caffeine
[5] https://supp.ai/a/nicotine/C0028040?q=Nikotine
[6] https://supp.ai/a/vitamin-c/C2349136?q=Vitamin
[7] https://api.semanticscholar.org/supp/legal/

#opendata #openscience #healthcare
В публичном пространстве сейчас много и больно критикуют нац. проекты, я тоже приложил руку в колонке РБК про то что бюджетная роспись по нацпроектам стала непрозрачной [1].

Предположим что с нац проектами не настолько всё плохо как я критикую и пишут другие, предположим что те кто отвечает за их проектирование и исполнение готовы слышать критику.

На основе этих, возможно, наивных предположений я постараюсь изложить основные шаги которые необходимо делать _прямо сейчас_.

1. Создать портал раскрытия информации по нац проектам по аналогии с порталом госпрограмм и порталом нац проектов 2006-2009 года. И не потратить на это самых минимальных средств.
2. Публиковать детальную сводную бюджетную роспись с полной детализацией всех мероприятий нац проектов. Темам самым вернуть необходимую минимальную прозрачность госрасходов.
3. Обеспечить раскрытие информации о результатах нац проектов. Не KPI, не медийный статьи, а конкретные результаты с фото, видео, аэрофотосъёмкой, актами принятых работ, ФИО ответственных за каждое мероприятие, каждый объект, каждый контракт
4. Обеспечить аналогичное раскрытие информации по каждому участвующему субъекту Российской Федерации и муниципальному образованию.
5. Разумеется ФОИВам публиковать все материалы связанные с нац проектам в форматах открытых данных
--
Всё перечисленное, кстати, очень несложно сделать. При наличии соответствующей мотивации у федеральных органов исполнительной власти.

А теперь поговорим о гораздо более "фантастических" действиях, сложных не только в росийской системе госуправления, но и не во всех странах существующая.
6. Обязательное протоколирование всех совещаний и доступность стенограмм и протоколов для граждан и журналистов.
7. Провести большую смысловую работу по учёту результатов не по освоенным средствам, а по достигнутым KPI.
8. Реорганизовать систему бюджетирования, контрактации и субсидирования мероприятий так чтобы акцент был на результатах, а не на имитации конкуренции или освоенных средствах.
9. Создавать и обязывать использовать обязательные системы регистрации результатов и их раскрытие во всех случаях кроме гостайны

И я сейчас не только про нацпроект "Цифровая экономика". Это касается всех нацпроектов. Да и не только их, если быть до конца честным.

Ссылки:
[1] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea

#budget #government #procurement #nationalprojects
Я просто оставлю это здесь.
Forwarded from Госзатраты
Forwarded from Госзатраты
Минкомсвязи заключило девять контрактов на выполнение работ по развитию функционала федеральной государственной информационной системы «Единый портал государственных и муниципальных услуг» («Госуслуги»). Цена контрактов варьируется от 464 до 61 млн рублей. Общая сумма составила 1,84 млрд рублей.

Исполнителем по всем девяти контрактам выступит ПАО «Ростелеком». Закупки проводились у единственного поставщика. Работы будут проводить в рамках нацпрограммы «Цифровая экономика РФ» в 2019–2020 гг.

К каждому из контрактов прилагается подробное техзадание. Предмет самого крупного договора — на 464 млн. рублей — развитие системы в целях создания единого окна цифровой обратной связи. Работы включают в себя несколько этапов: системное, техническое и рабочее проектирование и ввод системы в действие.

Контракт на 292 млн рублей предполагает развитие мобильного приложения «Госуслуги», реализацию возможности создания в ЕСИА личного кабинета организации и функционала обмена электронными документами и другие направления.

Полный список контрактов со ссылками на их карточки на сайте «Госзатраты»:

1) 464,2 млн: http://amp.gs/AuMd
2) 292,5 млн: http://amp.gs/AuMr
3) 259,8 млн: http://amp.gs/AuMA
4) 224 млн: http://amp.gs/AuMs
5) 210,6 млн: http://amp.gs/AuMD
6) 165,7 млн: http://amp.gs/AuMJ
7) 94,4 млн: http://amp.gs/AuM0
8) 67,9 млн: http://amp.gs/AuMK
9) 61,2 млн: http://amp.gs/AuM3
В том что касается Semantic Web и Linked Data всегда было немного коммерчески успешных проектов. Эти технологии продвигались W3C и Тимом Бернерсом-Ли, шкала в 4 и 5 звёзд открытости данных были привязаны как раз к их связности, но всегда побеждала прагматика и мало из владельцев данных сейчас публикует их в виде "связанных данных".

Одним из наиболее успешных стартапов в этой области была компания Metaweb со специализацией на интеграцие множества разных источников с возможностью интегрировать их в единую онтологическую модель на базе Википедии. В 2010 году их купил Google [1] за неназванные условия и вскоре в поиске Google появились подсказки с данными из Википедии, IMDB и других источников.

Этим июлем, стартап data.world [2] претендующий на то чтобы стать Github'ом для данных объявил о покупке стартапа Capsenta [3] специализировавшегося на онтологиях и семантическом вебе. Их продукты Ultrawrap NoETL и Gra.fo [4] были ориентированы на интеграцию и визуализацию связанных данных. Сумма сделки не разглашается. Но в любом случае, похоже, стоит ждать появления инструментов визуализации и интеграции пользовательских данных в Data.world, а сам Data.world может пойти по пути Metabase.

Из всех проектов которые претендовали на роль Github для данных - пока data.world наиболее перспективен, но и его судьба именно в этой роли далеко не предопределена. А вот чем больше там будет связанных данных и интеграции большего числа источников тем выше вероятность его покупки крупным игроком на рынке, тем же Alphabet/Google, или Amazon и последующая интеграция в их экосистему.

Ссылки:
[1] https://www.cnet.com/news/google-buys-metaweb-and-its-sprawling-database/
[2] http://data.world
[3] https://data.world/blog/weve-acquired-capsenta-to-bring-the-power-of-knowledge-graphs-to-companies-with-on-prem-data/
[4] https://gra.fo/

#data #opendata #semanticweb
Григорий Бакунов из Яндекса пишет про импортозамещение. Adobe деактивировал аккаунты всех пользователей в Венесуэле. Если такие санкции применят к России, то наша жизнь никогда не будет преждней. А все российские цифровые чемпионы включая Яндекс превратятся в тыкву.
Forwarded from addmeto
Как выглядят санкции и почему кипиш вокруг импортозамещения не всегда бред сумасшедших: Adobe отменила подписку и доступ ко всем своим сервисам для жителей Венесуэлы. Причина - санкции со стороны США. Деньги, уплаченные за подписки и платные сервисы возврату не подлежат.

К счастью теперь есть много альтернатив фотошопу и другим программам от Эдоби. Они может и похуже, но намертво работа не встанет. Для большого количества другого софта альтернатив просто нет https://www.zdnet.com/article/adobe-to-deactivate-accounts-for-all-venezuelan-users-due-to-us-sanctions/
Напротив Роскачества можно поставить галочку "не читать". Даже не смешно это всё.
"Если мы все вместе закроем глазки, соберемся в хоровод, и сделаем вид, будто Телеграма нет, то он как бы и заблокирован" (с) мнение с рынка.

1. Я думаю, упомянутым мессенджерам самим стыдно от попадания в такой "рейтинг"
2. А потом ватаны удивляются, что качество от Роскачества (и других гос.структур) люди вертели на одном месте.

Совет "экспертам" — не позориться.
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools
Хочется очень много данных? Прям очень очень много и очень больших ? На базе Amazon AWS работает бесплатная версия портала Quilt по адресу open.quiltdata.com [1] где можно скачать данные 25 датасетов общим объёмом в 3.7 петабайта и 10.2 миллиардов объектов.

Например, там прокаталогизированы:
- перепись населения США [2]
- более одного миллиона записных книжек дата сайентистов Jupyter Notebook [3]
- база OpenStreetMap [4]

и многое другое.

У проекта нет претензии на то чтобы все данные были бы в едином формате, но есть заявка на систематизацию крупнейших датасетов и хранение огромных объёмов.

Ссылки:
[1] https://open.quiltdata.com/
[2] https://open.quiltdata.com/b/dataworld-linked-acs
[3] https://open.quiltdata.com/b/open-jupyter-notebooks
[4] https://open.quiltdata.com/b/osm-pds

#opendata #data #aws
Тем временем США добавили 8 технологических компаний в США в санкционные списки [1]
Две компании Hangzhou Hikvision Digital Technology Co. и Zhejiang Dahua Technology Co. имели специализацию в видео наблюдении, SenseTime Group Ltd. и Megvii Technology Ltd. - это два гигантских стартапа в области искусственного интеллекта, финансируемые Alibaba Group Holding Ltd.

Все они обвинены в нарушении прав человека из-за притеснений мусульман в Синцзяне.

Ссылки:
[1] https://www.bloomberg.com/news/articles/2019-10-07/u-s-blacklists-eight-chinese-companies-including-hikvision-k1gvpq77

#digitalwar #china #us #sanctions
Что такое цифровая экономика с точки зрения результатов? Я не про KPI, я про _результаты_. Вот смотрю я на futurerussia.gov.ru и digital.ac.gov.ru и скажите мне где ссылки и где отчётные материалы по создаваемым государственным информационным системам? Где фотографии построенных объектов ИТ инфраструктуры? Где опросы граждан насколько они довольны новыми услугами и улучшением имеющихся?

Иначе говоря где - хоть что-то подтверждающее что деньги потрачены не зря?

Давайте предположим что результаты по нац проектам могут публиковаться и не будем вспоминать про их KPI для руководителей.

Каким образом граждане должны видеть результаты? Фото, аудио, видеофиксация? Что ещё? Как это должно быть организовано?

В телеграме это можно сделать в чате к этому каналу - https://t.me/begtinchat
Правительством Российской Федерации на публичное рассмотрение внесено 2 законопроекта:
- О внесении изменений в Федеральный закон «Об обществах с ограниченной ответственностью» и отдельные законодательные акты Российской Федерации (в части осуществления учета прав на доли и ведения списка участников общества регистратором) [1]
- О внесении изменения в статью 67.1 части первой Гражданского кодекса Российской Федерации [2]

В которых фиксируется что теперь доли участников в обществах с ограниченной ответственностью (ООО) будут хранится у регистраторов и не предоставляться в выписках ЕГРЮЛ.

Из пояснительной записки дословно

... При таком способе учета прав из ЕГРЮЛ исключаются сведения, связанные
с долями общества с указанием вместо таких сведений лица, осуществляющего ведение и хранение списка участников общества, что позволит сохранять режим конфиденциальности по аналогии с текущим регулированием реестров владельцев ценных бумаг, что в сложившейся ситуации возросшего риска применения мер ограничительного характера (санкций) в отношении российских юридических лиц представляется актуальным.
...


У меня, признаться нет слов, что за катастрофический документ по сокрытию информации принимается. Разрушатся системы проверки юридических лиц, системы complience, системы проверки перед выдачей кредитов банками и так далее.

Всё это, разумеется, из-за борьбы с санкциями.

Ссылки:
[1] https://regulation.gov.ru/projects#npa=95528
[2] https://regulation.gov.ru/projects#npa=95534

#nodatanocry #data #egrul #sanctions
Иллюстрация к законопроектам о закрытии собственников ООО. Источник "Дилберт по-русски"
Ещё немного примеров международного опыта в открытости данных и не только за пределами англосферы (англоязычных стран).

- Портал прозрачности правительства Испании [1] - позволяет осуществлять запрос на доступ к информации и агрегирует все инициативы правительства такие как Open Government, проекты по соучастию граждан и так далее в одном месте.
- Портал прозрачности правительства Бразилии [2] - включает декларации чиновников (централизовано), возможность делать запросы, раскрытие информации о контрактах и многое другое.
- В Китае порталы открытых данных есть у 82 органов власти китайских провинций, многих городов и федеральных министерств. Например, портал открытых данных Министерства торговли [3], портал научных данных Пекинского университета [4], город Бенгбу [5], Шанхай [6] и многие другие. Университет Фудань ведёт China Open Data Index [7] о чём пишет китайская пресса.
- Реестр открытого кода создаваемого властями Франции [8] ведётся Etalab, государственным центом ведения проектов по открытым данным, открытому коду и вовлечению граждан. В реестре более 2600 репозиториев кода на 12 окт 2019 г.
- Beta.gouv.fr [9] инкубатор цифровых услуг Франции с их обсуждением, отбором, инкубацией и тд. Радикально отличается от всего что касается создания и отбора госуслуг в России.
- Портал результатов деятельности правительства Тимор-Лете [10] и не абы какой а в рамках 20 летнего стратегического плана на 2011-2030 годы [11].

Ссылки:
[1] https://transparencia.gob.es
[2] http://www.portaltransparencia.gov.br/
[3] http://opendata.mofcom.gov.cn/
[4] https://opendata.pku.edu.cn/
[5] http://data.bengbu.gov.cn/
[6] http://data.sh.gov.cn
[7] http://russian.news.cn/2019-05/28/c_138097315.htm
[8] https://code.etalab.gouv.fr/
[9] https://beta.gouv.fr
[10] http://www.governmentresults.gov.tl
[11] http://timor-leste.gov.tl/wp-content/uploads/2011/07/Timor-Leste-Strategic-Plan-2011-20301.pdf

#openness #data #government
Ein Algorithmus hat kein Taktgefühl (У алгоритма нет чувства такта) свежая книга [1] Katarina Zweig, профессора в техническом университете Kaiserslautern, где она возглавляет лабораторию алгоритмической подотчётности (AALab) [2].

Книга о том как алгоритмы принимают неправильные решения, о их последствиях и о том что нам с ними делать. Пока я видел только немецкое издание, но это из тех книг которые хорошо бы увидеть на английском и русских языках.

В прошлом году команда из AALab публиковала статью о рисках и безопасности систем принимающих решения [3] и о текущем состоянии контроля за алгоритмами [4], а в этом году о прозрачности и контроле за алгоритмами [5].

У них очень много публикаций и большая их часть не имеет перевода на английский язык, так что это из тех случаев когда полезно владение немецким языком.

Ссылки:
[1] https://www.amazon.de/gp/product/B07QPB5BMK/
[2] http://aalab.informatik.uni-kl.de
[3] https://link.springer.com/article/10.1007%2Fs41125-018-0031-2
[4] https://www.oeffentliche-it.de/documents/10181/76866/%28Un%29berechenbar+-+Algorithmen+und+Automatisierung+in+Staat+und+Gesellschaft.pdf
[5] https://www.kas.de/documents/252038/4521287/AA338+Algorithmische+Entscheidungen.pdf/533ef913-e567-987d-54c3-1906395cdb81?version=1.0&t=1548228380797

#data #algorithms #ai
Нужна ли в России анти-премия по защите от глобальной слежки? Например, такая премия есть в Германии, называется она Big Brother Award [1] и даже есть её описание на английском языке.

В 2019 году их получили:
(1) Власть: Hessian Minister of the Interior, Peter Beuth
(2) Рабочее место: Интервью – Surveillance and Privacy in the Workplace
(3) Биотехнологии: Ancestry.com
(4) Коммуникации: Precire Technologies
(5) Технологии: “Technical Committee CYBER” of the European Telecommunications Standards Institute (ETSI)
(6) Защита прав потребителей: ZEIT Online

Также стоит посмотреть на победителей в 2018 году.

Ссылки:
[1] https://bigbrotherawards.de/en
[2] https://bigbrotherawards.de/en/2018

#surveillance #data
В РБК вышла моя колонка с критикой обсуждаемого законопроекта по регулированию почтовых сервисов [1].

Самые неприятные последствия что этого что других запретительных законов - это падение привлекательности российской юрисдикции для любых интернет проектов. При таком регулировании цифровой экономики не будет.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c

#laws #runet
CNews пишут о том что Yahoo закрывают Yahoo Groups [1] и что скоро материалы оттуда исчезнут. А я дополню что группа активистов из ArchiveTeam уже начала подготовку к архивации этого контента описывают это у себя в Wiki [2], а также архивы групп за 2015 год хранятся в веб архиве [3]. Всё это значит что эти данные не исчезнут и не пропадут и во многом по той причине что крупнейшие зарубежные сервисы соблюдают культуру закрытия проектов предупреждая об этом за несколько месяцев.

Для сравнения российский проект ИмхоНет [4] был закрыт в один день или когда МВД переходило на единый сайт mvd.ru [5] и в один день закрыло все сайты УВД по субъектам федерации не перенеся данные на новый сайт.

P.S.
Как же я жалею что у меня мало времени заниматься нашим проектом Национального цифрового архива (ruarxive.org) где есть попытки сохранить хоть что-то.

Ссылки:
[1] https://www.cnews.ru/news/top/2019-10-17_yahoo_ubet_ves_kontent_na
[2] https://www.archiveteam.org/index.php?title=Yahoo!_Groups
[3] https://archive.org/details/yahoo_groups
[4] https://ru.wikipedia.org/wiki/Имхонет
[5] https://ria.ru/20110221/336855197.html

#archives #archiving #yahoo