Ivan Begtin
8.08K subscribers
1.46K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
"Если мы все вместе закроем глазки, соберемся в хоровод, и сделаем вид, будто Телеграма нет, то он как бы и заблокирован" (с) мнение с рынка.

1. Я думаю, упомянутым мессенджерам самим стыдно от попадания в такой "рейтинг"
2. А потом ватаны удивляются, что качество от Роскачества (и других гос.структур) люди вертели на одном месте.

Совет "экспертам" — не позориться.
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools
Хочется очень много данных? Прям очень очень много и очень больших ? На базе Amazon AWS работает бесплатная версия портала Quilt по адресу open.quiltdata.com [1] где можно скачать данные 25 датасетов общим объёмом в 3.7 петабайта и 10.2 миллиардов объектов.

Например, там прокаталогизированы:
- перепись населения США [2]
- более одного миллиона записных книжек дата сайентистов Jupyter Notebook [3]
- база OpenStreetMap [4]

и многое другое.

У проекта нет претензии на то чтобы все данные были бы в едином формате, но есть заявка на систематизацию крупнейших датасетов и хранение огромных объёмов.

Ссылки:
[1] https://open.quiltdata.com/
[2] https://open.quiltdata.com/b/dataworld-linked-acs
[3] https://open.quiltdata.com/b/open-jupyter-notebooks
[4] https://open.quiltdata.com/b/osm-pds

#opendata #data #aws
Тем временем США добавили 8 технологических компаний в США в санкционные списки [1]
Две компании Hangzhou Hikvision Digital Technology Co. и Zhejiang Dahua Technology Co. имели специализацию в видео наблюдении, SenseTime Group Ltd. и Megvii Technology Ltd. - это два гигантских стартапа в области искусственного интеллекта, финансируемые Alibaba Group Holding Ltd.

Все они обвинены в нарушении прав человека из-за притеснений мусульман в Синцзяне.

Ссылки:
[1] https://www.bloomberg.com/news/articles/2019-10-07/u-s-blacklists-eight-chinese-companies-including-hikvision-k1gvpq77

#digitalwar #china #us #sanctions
Что такое цифровая экономика с точки зрения результатов? Я не про KPI, я про _результаты_. Вот смотрю я на futurerussia.gov.ru и digital.ac.gov.ru и скажите мне где ссылки и где отчётные материалы по создаваемым государственным информационным системам? Где фотографии построенных объектов ИТ инфраструктуры? Где опросы граждан насколько они довольны новыми услугами и улучшением имеющихся?

Иначе говоря где - хоть что-то подтверждающее что деньги потрачены не зря?

Давайте предположим что результаты по нац проектам могут публиковаться и не будем вспоминать про их KPI для руководителей.

Каким образом граждане должны видеть результаты? Фото, аудио, видеофиксация? Что ещё? Как это должно быть организовано?

В телеграме это можно сделать в чате к этому каналу - https://t.me/begtinchat
Правительством Российской Федерации на публичное рассмотрение внесено 2 законопроекта:
- О внесении изменений в Федеральный закон «Об обществах с ограниченной ответственностью» и отдельные законодательные акты Российской Федерации (в части осуществления учета прав на доли и ведения списка участников общества регистратором) [1]
- О внесении изменения в статью 67.1 части первой Гражданского кодекса Российской Федерации [2]

В которых фиксируется что теперь доли участников в обществах с ограниченной ответственностью (ООО) будут хранится у регистраторов и не предоставляться в выписках ЕГРЮЛ.

Из пояснительной записки дословно

... При таком способе учета прав из ЕГРЮЛ исключаются сведения, связанные
с долями общества с указанием вместо таких сведений лица, осуществляющего ведение и хранение списка участников общества, что позволит сохранять режим конфиденциальности по аналогии с текущим регулированием реестров владельцев ценных бумаг, что в сложившейся ситуации возросшего риска применения мер ограничительного характера (санкций) в отношении российских юридических лиц представляется актуальным.
...


У меня, признаться нет слов, что за катастрофический документ по сокрытию информации принимается. Разрушатся системы проверки юридических лиц, системы complience, системы проверки перед выдачей кредитов банками и так далее.

Всё это, разумеется, из-за борьбы с санкциями.

Ссылки:
[1] https://regulation.gov.ru/projects#npa=95528
[2] https://regulation.gov.ru/projects#npa=95534

#nodatanocry #data #egrul #sanctions
Иллюстрация к законопроектам о закрытии собственников ООО. Источник "Дилберт по-русски"
Ещё немного примеров международного опыта в открытости данных и не только за пределами англосферы (англоязычных стран).

- Портал прозрачности правительства Испании [1] - позволяет осуществлять запрос на доступ к информации и агрегирует все инициативы правительства такие как Open Government, проекты по соучастию граждан и так далее в одном месте.
- Портал прозрачности правительства Бразилии [2] - включает декларации чиновников (централизовано), возможность делать запросы, раскрытие информации о контрактах и многое другое.
- В Китае порталы открытых данных есть у 82 органов власти китайских провинций, многих городов и федеральных министерств. Например, портал открытых данных Министерства торговли [3], портал научных данных Пекинского университета [4], город Бенгбу [5], Шанхай [6] и многие другие. Университет Фудань ведёт China Open Data Index [7] о чём пишет китайская пресса.
- Реестр открытого кода создаваемого властями Франции [8] ведётся Etalab, государственным центом ведения проектов по открытым данным, открытому коду и вовлечению граждан. В реестре более 2600 репозиториев кода на 12 окт 2019 г.
- Beta.gouv.fr [9] инкубатор цифровых услуг Франции с их обсуждением, отбором, инкубацией и тд. Радикально отличается от всего что касается создания и отбора госуслуг в России.
- Портал результатов деятельности правительства Тимор-Лете [10] и не абы какой а в рамках 20 летнего стратегического плана на 2011-2030 годы [11].

Ссылки:
[1] https://transparencia.gob.es
[2] http://www.portaltransparencia.gov.br/
[3] http://opendata.mofcom.gov.cn/
[4] https://opendata.pku.edu.cn/
[5] http://data.bengbu.gov.cn/
[6] http://data.sh.gov.cn
[7] http://russian.news.cn/2019-05/28/c_138097315.htm
[8] https://code.etalab.gouv.fr/
[9] https://beta.gouv.fr
[10] http://www.governmentresults.gov.tl
[11] http://timor-leste.gov.tl/wp-content/uploads/2011/07/Timor-Leste-Strategic-Plan-2011-20301.pdf

#openness #data #government
Ein Algorithmus hat kein Taktgefühl (У алгоритма нет чувства такта) свежая книга [1] Katarina Zweig, профессора в техническом университете Kaiserslautern, где она возглавляет лабораторию алгоритмической подотчётности (AALab) [2].

Книга о том как алгоритмы принимают неправильные решения, о их последствиях и о том что нам с ними делать. Пока я видел только немецкое издание, но это из тех книг которые хорошо бы увидеть на английском и русских языках.

В прошлом году команда из AALab публиковала статью о рисках и безопасности систем принимающих решения [3] и о текущем состоянии контроля за алгоритмами [4], а в этом году о прозрачности и контроле за алгоритмами [5].

У них очень много публикаций и большая их часть не имеет перевода на английский язык, так что это из тех случаев когда полезно владение немецким языком.

Ссылки:
[1] https://www.amazon.de/gp/product/B07QPB5BMK/
[2] http://aalab.informatik.uni-kl.de
[3] https://link.springer.com/article/10.1007%2Fs41125-018-0031-2
[4] https://www.oeffentliche-it.de/documents/10181/76866/%28Un%29berechenbar+-+Algorithmen+und+Automatisierung+in+Staat+und+Gesellschaft.pdf
[5] https://www.kas.de/documents/252038/4521287/AA338+Algorithmische+Entscheidungen.pdf/533ef913-e567-987d-54c3-1906395cdb81?version=1.0&t=1548228380797

#data #algorithms #ai
Нужна ли в России анти-премия по защите от глобальной слежки? Например, такая премия есть в Германии, называется она Big Brother Award [1] и даже есть её описание на английском языке.

В 2019 году их получили:
(1) Власть: Hessian Minister of the Interior, Peter Beuth
(2) Рабочее место: Интервью – Surveillance and Privacy in the Workplace
(3) Биотехнологии: Ancestry.com
(4) Коммуникации: Precire Technologies
(5) Технологии: “Technical Committee CYBER” of the European Telecommunications Standards Institute (ETSI)
(6) Защита прав потребителей: ZEIT Online

Также стоит посмотреть на победителей в 2018 году.

Ссылки:
[1] https://bigbrotherawards.de/en
[2] https://bigbrotherawards.de/en/2018

#surveillance #data
В РБК вышла моя колонка с критикой обсуждаемого законопроекта по регулированию почтовых сервисов [1].

Самые неприятные последствия что этого что других запретительных законов - это падение привлекательности российской юрисдикции для любых интернет проектов. При таком регулировании цифровой экономики не будет.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c

#laws #runet
CNews пишут о том что Yahoo закрывают Yahoo Groups [1] и что скоро материалы оттуда исчезнут. А я дополню что группа активистов из ArchiveTeam уже начала подготовку к архивации этого контента описывают это у себя в Wiki [2], а также архивы групп за 2015 год хранятся в веб архиве [3]. Всё это значит что эти данные не исчезнут и не пропадут и во многом по той причине что крупнейшие зарубежные сервисы соблюдают культуру закрытия проектов предупреждая об этом за несколько месяцев.

Для сравнения российский проект ИмхоНет [4] был закрыт в один день или когда МВД переходило на единый сайт mvd.ru [5] и в один день закрыло все сайты УВД по субъектам федерации не перенеся данные на новый сайт.

P.S.
Как же я жалею что у меня мало времени заниматься нашим проектом Национального цифрового архива (ruarxive.org) где есть попытки сохранить хоть что-то.

Ссылки:
[1] https://www.cnews.ru/news/top/2019-10-17_yahoo_ubet_ves_kontent_na
[2] https://www.archiveteam.org/index.php?title=Yahoo!_Groups
[3] https://archive.org/details/yahoo_groups
[4] https://ru.wikipedia.org/wiki/Имхонет
[5] https://ria.ru/20110221/336855197.html

#archives #archiving #yahoo
Всё идет к тому что Цифровую экономику "раздербанят" на другие проекты
Forwarded from Нецифровая экономика (Oleg Salmanov)
Новый федеральный проект "Цифровой регион" предложил создать вице-спикер Совфеда Андрей Турчак на заседании Совета по развитию цифровой экономики при Совфеде, которое проходит на форуме Ростелекома "Взгляд в цифровое будущее". Оператором федпроекта может стать Минстрой в партнёрстве с Минцифразом и Ростелекомом.
К этому я добавлю что денег на нац проекты определили не навсегда. Определили максимальный лимит, а на деле где получится - там подрежут.
Forwarded from Нецифровая экономика (Oleg Salmanov)
Наша новость про новый федпроект "Цифровой регион" нашла живой отклик в сердцах читателей.

Вот @cynexp верно замечает, что объем выделяемых денег на нацпроекты до 2024 года определён раз и навсегда, а это значит, что новые федпроекты можно создавать только за счёт уменьшения финансирования текущих. А @begtin считает, что это только начало, и что Цифровую экономику, видимо, раздербанят на другие проекты.

Логика понятна - кассовое исполнение нацпрограммы Цифровая экономика находится на катастрофическом уровне (12% на конец сентября!). Если Минцифраз не умеет тратить деньги, то их просто отдадут другим. Например, Минстрою.
Как и во многом другом в визуализации данных хорошо и дешево одновременно бывает редко. Тем более полезны каталоги инструментов с открытым кодом для визуализации самых разных данных, от индикаторов до сетей и геоданных. Одним из таких каталогов является dataviz.cafe [1] в котором собрано более 700 разных инструментов:
- для текстов
- для показателей
- для геоданных
- для сетей
и всякое разное дополнительно

Лично я там нашёл немало что раньше не видел:
- Gensim [2] - тематическое моделирование с визуализацией
- Vega [3] - визуализационная грамматика, метаописание визуализации
и немало другого.

Напомню и другие каталоги визуализаций которые хорошо помогают в подборе правильной диаграммы и хорошего инструмента:
- Data Viz Project (DVP) [4] - хорошо структурированный каталог по областям применения..
- Visualizing Percentages [5] - о том как правильно визуализировать проценты
- Chart Chooser [6] - интерактивный подбор типа диаграммы
- PowerBI Cheatsheet [7] - подсказка по визуализации для Microsoft PowerBI

Каталогов и инструментов существует гораздо больше. Выбор огромен, всегда можно найти что-то под любую фантазию.

Ссылки:
[1] https://dataviz.cafe/
[2] https://github.com/RaRe-Technologies/gensim
[3] https://vega.github.io/vega/
[4] https://datavizproject.com/
[5] https://infonewt.com/percentages/
[6] http://labs.juiceanalytics.com/chartchooser/index.html
[7] https://www.sqlbi.com/ref/power-bi-visuals-reference/

#dataviz
В последние недели я пытался оформить в виде статьи или колонки мысли по поводу того что происходит в мире с точки зрения отношения общества и технологий.

Статья не выходит, получается набор тезисов:
1. Главное изменение последних лет в мире - это кризис технооптимизма. Технологические стартапы всё ещё позволяют зарабатывать большие деньги, давать возможность решать сложные и уникальные задачи, но с каждым годом всё более теряют свою ключевую идеологию - делать мир лучше с помощью технологий.

2. У этого явления много причин, к которым можно отнести, и недостижимость многих обещаний, и социальное неравенство концентрирующееся в стремительно богатеющих технологических корпорациях и, что самое главное, с ростом технологий монетизация которых основана на технологиях слежки за потребителями и резкой общественной реакцией следующей за осознанием масштабов этой слежки.

3. Кризис технооптимизма усиливается всё большим вовлечением компаний-технологических лидеров в то что можно назвать "цифровой социальной антиутопией". Новой формой социального государства, в котором общественные блага становятся неразделимыми с цифровыми технологиям с помощью которых обеспечивается их распределение.

4. "Цифровая социальная антиутопия" - это ожидаемый результат нарастающего интереса правительств к реорганизации структуры распределения общественных благ в целях оптимизации, ускорения, повышения качества и многих других, вполне возможно, положительных аспектов для их стран через цифровизацию.

5. Следствием этого интереса к цифровизации является вовлечение частных компаний уже обладающими технологиями либо конверсия их технологий из частного в государственный сектор и, как следствие, создание систем государственной слежки за распределением общественных благ и, как следствие, создание системы слежки за самими гражданами.

6. Почему цифровая социальная антиутопия? Почему не контроль мыслей и жизни, к примеру, как это было описано у Оруэлла? Потому что человечество подошло к переходу к глобальной цифровизации в период хрупкого, но глобального мира. Который и обеспечил сверх доходы цифровых лидеров со всемирного потребительского рынка и который подталкивает к первоочередному внедрению технологий там где наиболее очевиден их экономический эффект.

7. Однако, если внедрение технологий слежки происходит от экономического эффекта, то эффект социальных и психологический необоснованно игнорируется. Гражданин, не подозревающий, а чётко осознающий что каждое его действие фиксируется, даже будучи законопослушным, всё равно испытывает постоянную тревогу.

8. Эта тревога усиливается по мере осознания возможности государства штрафовать и иным образом воздействовать на него за ранее не идентифицируемые или _социально приемлимые_ небольшие нарушения которые теперь неизбежно фиксируются создавая его "цифровой профиль", "цифровой рейтинг" и, в целом, "цифровое досье" на него за всю его жизнь

9. То что технологические компании явно или под государственным принуждением будут частью это антиутопии лишь увеличивает кризис недоверия к ним и приводит к росту числа знающих техно-пессимистов, тех кто критикует "капитализм слежки" зная как он устроен изнутри.Это можно назвать зрелым техно-пессимизмом которые всё более набирает обороты.

10. Зрелость техно-пессимизма не стоит недооценивать. Пока ещё нет масштабных движений, партий созданных только для противостояния технологиям и других атрибутов большого общественного противостояния. Но нарастающий страх неизбежно найдет свой выход: в политическом противостоянии, протестах, резком росте "только-цифровых" (digital only) правозащитных движений.

11. Политики сейчас зажаты между двумя лагерями. Техно-оптимисты идут под флагами то что если ограничивать технологии то нас обгонят конкуренты из других суверенитетов (США, Китай и тд). Техно-пессимисты говорят о том что утечки персональных данных это только начала глобального кризиса доверия граждан и потребителей к государствам и корпорациям и что внедрение систем алгоритмического принятия решений лишь усилит этот кризис.
12. Ситуация усугубляется тем что за техно-оптимистами стоят деньги, а за техно-пессимистами растущее число избирателей. Наряду с другими политическими страхами под давлением техно-пессимистов появляются законы если, не блокирующие, то создающие риски для внедрения новых технологий.

13. И наоборот, техно-оптимисты прикладывают огромные усилия для снятия ограничений к внедрению технологий искусственного интеллекта, доступа к наиболее чувствительным данным и аргументируют это значительной общественной пользой.

14. Мне лично сложно сказать кто здесь прав, а кто нет. Как и во всех сложных и спорных вопросах решения возникают на балансе возможного и допустимого. И готовности общества к переосмыслению своего существования.

15. Что можно говорить с большой уверенностью - техно-оптимизм переживает свою золотую осень. Он всё ещё привлекателен, голоса его адептов всё ещё сильны и используют все возможности глобального потребительского рынка чтобы удерживать общественное внимание, однако зрелый техно-пессимизм уже очень близок. Его всплеск будет на руку политикам, властям "классических суверенитетов", всем кто ощущает себя на переферии "технологической гегемонии".

16. Я ставлю на то что всё решится в ближайшие годы. Буквально 3-5 лет и станет ясно как переживут этот кризис ведущие технологические компании. Останутся ли они как прежде, ли их падение глубоким или же они переживут, не цифровую, а социальную трансформацию.

17. Аналогично суверенных государств. Можно лишь гадать когда появится определение "цифровой диктатуры", "цифрового авторитаризма" и иных форм цифрового управления которые создадут новый водораздел стран по их политическому будущему.

#thesis #thoughts
Дайджест того что произошло за неделю и накопилось нерассказанного за предыдущие недели

Вышел доклад от австралийского оборонного мозгового центра ASPI о глобальной китайской экспансии по сбору данных
Engineering global consent: The Chinese Communist Party's data-driven power expansion [1] с рассказом о том как GTCOM и Huawei устанавливают оборудование для слежки, например, в штаб-квартите Африканского союза. Доклад в PDF можно взять по ссылке [2]

В The Guardian статья о том как ИТ система соцобеспечения Великобритании может загнать в нищету тех кто туда обращается [3]. А всё из-за внедрения так называемого "intelligent automation garage" (гараж интеллектуальной автоматизации). А всё дело в том что Департамент труда и пенсии Великобритании, аналог российского Минтруда, нанял около 1000 ИТ специалистов за 18 месяцев и увеличил расходы на автоматизацию и привлек нескольких крупных подрядчиков. Однако уже есть факты когда внедрённые алгоритмы довели нескольких человек до голода и одного до суицида [4].

Там же в Guardian серия публикаций о цифровой антиутопии [5] и о том что системы цифрового социального обеспечения наказывают бедных и о провале австралийской государственной системы robodebt "нелегально" взыскивающей долги с граждан [6].

В MIT Press вышла книга "Права человека в эпоху платформ" Human rights in the Ageo of Platforms [7] полезная не только правозащитникам, но и тем кто кому придётся с ними взаимодействовать в цифровую эпоху.

В Евросоюзе с 2017 года идёт проект Future Government 2030+ (Будущее государства в 2030+) [8] по которому на днях вышел отчёт [9] с 4 сценариями будущего:
- Демократия сделай-сам (DYI Democracy)
- Частная алгократия (Private Algocracy)
- Сверх-взаимодействующее государство (Super Collaborative Government)
- Over-Regulatocracy (Сверх регулирование)

Очень интересный отчёт, а эти сценария достойны отдельного подробного описания как и оценки их вероятности для других стран, например, для России.



Ссылки:
[1] https://www.aspi.org.au/report/engineering-global-consent-chinese-communist-partys-data-driven-power-expansion
[2] https://s3-ap-southeast-2.amazonaws.com/ad-aspi/2019-10/Engineering%20global%20consent%20V2.pdf?eIvKpmwu2iVwZx4o1n8B5MAnncB75qbT
[3] https://www.theguardian.com/technology/2019/oct/14/fears-rise-in-benefits-system-automation-could-plunge-claimants-deeper-into-poverty
[4] https://www.theguardian.com/commentisfree/2019/jun/27/britain-welfare-state-shadowy-tech-consultants-universal-credit
[5] https://www.theguardian.com/technology/2019/oct/14/automating-poverty-algorithms-punish-poor
[6] https://www.theguardian.com/australia-news/2019/sep/17/robodebt-class-action-shorten-unveils-david-and-goliath-legal-battle-into-centrelink-scheme
[7] https://mitpress.mit.edu/books/human-rights-age-platforms
[8] https://ec.europa.eu/digital-single-market/en/news/future-government-2030-policy-implications-and-recommendations

#AI #algorithms #data #datapolicy #opendata #privacy #digitalwelfare
Что будет если отобразить города на земле в виде "гор света" где высота горы - это интенсивность всего того света что исходит из этой точки?

Победитель конкурса Information is Beautiful 2019 [1] года
Jacob Wasilkowski сделал именно это и теперь на картах можно найти не только хорошо узнаваемые города, но и многие источники света не из столь известных мест.

С помощью интерактивной карты [2] можно сравнить города, найти неизвестные источники света (незаконные рубки, рудники, места добычи нефти и газа, неизвестные поселения), увидеть уровень заселенности любой территории.

Ссылки:
[1] https://www.informationisbeautifulawards.com/showcase/4257
[2] https://jwasilgeo.github.io/esri-experiments/earth-at-night/

#data #dataviz #visualization #earth