Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
ASPI, австралийский мозговой центр выпустивший ранее исследование Mapping China technology giants выпустили обновлённое
исследование [1] в которое добавили множество новых данных и теперь покрывают 23 китайские технологические компании.

Были добавлены такие компании как:
- BeiDou
- ByteDance
- CloudWalk
- Dahua
- DJI
- iFlytek
- Megvii
- Meiya Pico
- Sense Time
- Uniview
- YITU

В исследовании немало интересного, например, о компании ByteDance которые являются создателями приложения TikTok и о CloudWalk и колониализме данных (data colonialism) когда все данные распознавания людей по походе в Зимбабве передаются и хранятся в Китае.

Этот отчёт стоит внимания, его можно прочитать в виде PDF по ссылке [2].

Ссылки:
[1] https://www.aspi.org.au/report/mapping-more-chinas-tech-giants
[2] https://s3-ap-southeast-2.amazonaws.com/ad-aspi/2019-11/Mapping%20more%20of%20Chinas%20tech%20giants_1.pdf?cONTm6ETA8RMzlcILgDFNdoHdMN6xGZf

#china #datacolonialism #aspi #australia #surveillance
TechCrunch пишет [1] о том что Amazon выпустили AWS SageMaker [2], удобный инструмент ведения записных книжек по Data Science и разработки моделей машинного обучения.

Я лично гадал что скорее они купят DataIku [3] которые вот вот выпустили платформу DataIku 6 и позиционируют себя как разработчиков экосистемы для Enterprise AI. Но пока больше похоже что DataIku идёт в медленном направлении погружения в экосистему Microsoft и, у них уже есть интеграция с Microsoft Teams, а значит что есть вероятность что Amazon будет не единственным игроком облачных корпоративных решений по data science.

В любом случае SageMaker стоит пристального внимания и апробации.

Ссылки:
[1] https://techcrunch.com/2019/12/03/aws-launches-sagemaker-studio-a-web-based-ide-for-machine-learning/
[2] https://aws.amazon.com/ru/sagemaker/
[3] https://www.dataiku.com/

#datascience #data
Рубрика "Без слов", вернее даже "Нет слов".
Мы «хакнули» серваки Росреестра!

По мнению Росреестра у них упали «сервера» из-за непомерной нагрузки-запросов из ФССП,переданных по средствам электронного документооборота. Мы остались без ответов по недвижимости,взыскатели без обращения взыскания на недвижимое имущество.
У всех бывает.Не спорим.Но мы то здесь причём?
У Росреестра не справляется с нагрузой серверная инфраструктура и поэтому решили нас тупо отключить. Прекрасное решение.Очень правильное и своевременное,учитывая конец года.
По нашим данным в адрес Росреестра за три месяца было направлено 200 млн.запросов. В масштабах страны это очень мало,крайне мало.
А вот почему упали сервера? И сколько было выделено денежных средств Росреестру в рамках федеральной программы «Цифровая экономика» мы оставим за скобками и переадресуем этот вопрос по принадлежности с напоминанием глубокоуважаемому Росреестру об отвественности за неисполнение или ненадлежащее исполнение требований судебного пристава-исполнителя.
Что скажешь МинЭкономРазвитие?
Это примерно то о чём я всё чаще пишу помимо темы открытости данных. Персональные данные пользователей превратились в основной товар (commodity) для большей части ритейловых компаний и не только. Да, современный бизнес просто не может не следить или правильнее "пасти" пользователей, но если это будет развиваться как развивается, то что мы будем делать когда маятник качнется в другую сторону?
Forwarded from Секрет фирмы
​​Данные 40 млн владельцев карт «Пятёрочки» и «Перекрёстка» проданы компании Gazprom-Media Digital для показа таргетированной рекламы.

Клиентам магазинов X5 Retail Group уже начали присылать полезную информацию о брендах чая и кормах для домашних животных.

http://bit.ly/2RKQsvh
Джек Дорси, создатель социальной сети Твиттер в своих последних "твитах" написал о планах построения открытой децентрализованной платформы [1]. Для этой цели компания наняла малую команду из 5 человек архитекторов, инженеров и дизайнеров чтобы разработать децентрализованный стандарт для социальных медиа.

Он, в том числе, ссылается на публикацию Стивена Вольфрама [2] о его выступлении в Сенате (США) по контенту который для пользователей социальных сетей отбирает искусственный интеллект.

Ещё одна статья на которую он ссылается - это "Protocols not platforms" [3] за авторством Майка Масника, со многими ключевыми соображениями о доминировании платформ и о необходимости поиска бизнес моделей.

Важнейший вопрос в том, возможен ли принципиальный переход крупнейших платформ к децентрализации. Стратегии большинства из них до сих пор сфокусированы на том чтобы "пасти" пользователей и на том чтобы "закукливать" пользователей в свою экосистему.

Ссылки:
[1] https://twitter.com/jack/status/1204766078468911106
[2] https://writings.stephenwolfram.com/2019/06/testifying-at-the-senate-about-a-i-selected-content-on-the-internet/
[3] https://knightcolumbia.org/content/protocols-not-platforms-a-technological-approach-to-free-speech

#openness #platforms
На проходящем в России RIW Аналитический центр при Пр-ве РФ, ИРИ и Ассоциация больших данных представили свой этический кодекс работы с данными [1]. Лично я как руководитель другой ассоциации - АУРД (Ассоциация участников рынка данных) не могу его не прокомментировать, сделаю это тезисами.

1. Этот кодекс разрабатывали именно АЦ при Правительстве, ИРИ и Ассоциация больших данных. Наша ассоциация к нему никакого отношения не имела, мы не видели его ни в черновом виде, ни в каком иначе и никто из известных мне экспертов до того как кодекс был опубликован его не видел. Это продукт исключительно в зоне ответственности этих 3-х участников.
2. Кодекс существует в форме благопожеланий, не в формате "мы обязуемся делать" и "мы обязуемся не делать" как это изложено, например, в похожем кодексе в Швейцарии [3], а в форме общего, на мой взгляд, необоснованно забюрократизированного изложения.
3. Часть документа про создание "совета по совершенствованию лучших практик работе с данными" - это довольно бессмысленная идея на том уровне котором предлагается его создание. Я давно ратую за создание совета по данным на уровне правительственной комиссии или совета при Президенте РФ, но совет при АЦ при ПР РФ - это несерьёзный уровень для документа. В этом смысле я лично его бы больше ожидал от Ассоциации больших данных
4. В документе ничего нет про приближение к практикам GDPR, защиту прав пользователей и доступа граждан к их данным. Это не этика для малого бизнеса и не этика для пользователя - это самое минимальное приближение к этике со стороны "больших котов"
5. При этом я, всё равно, приветствую появление одного из первых документов по дата-этике, даже если окажется в будущем окажется что его необходимо будет глубоко переписать или полностью переделать.

Ссылки:
[1] http://ac.gov.ru/files/content/25949/kodeks-etiki-pdf.pdf
[2] http://aurd.ru
[3] https://data-service-alliance.ch/_Resources/Persistent/d8023fbcbd6cfb86e5ed814faa050f6bfa6be284/Codex_V3_english_public.pdf

#data #dataethics
Новость хуже не придумаешь. Nginx стал компанией мирового уровня, а вот Рамблер, похоже, никогда уже ей не станет
Forwarded from addmeto
Не хотел писать про это, но кажется надо. Судя по всему идут обыски в компании nginx, самой успешной русской опенсорс компании. Судя по фоткам иска Рамблер (читай «Сбербанк») настаивает на том, что код программы nginx принадлежал Рамблеру и был присвоен незаконно.

Напомню как все было: Игорь Сысоев, работая в Рамблере кем-то вроде SRE, делал большой опенсорс продукт, Nginx. Благодаря этому веб-серверу Рамблер мог обслуживать миллионы пользователей на небольшом количестве серверов. В какой-то момент nginx стал настолько большим и популярным, что Игорь стал заниматься только им, потом появилась идея сделать из опенсорс небольшой бизнес. Нашлись даже первые инвесторы, и с тех пор nginx независимая компания развивающая опенсорс продукт. Через какое-то время, год назад, проект влился в большую корпорацию F5.

Если все действительно так, как в твитах - это просто провал :( https://twitter.com/AntNesterov/status/1205086129504104460
Минимум полиция 10 стран Евросоюза используют технологии распознавания лиц, пишет Николя Кайзер-Бриль в AlgorithmWatch [1]. Например в Германии эти технологии используются с 2008 года.

Ссылки:
[1] https://algorithmwatch.org/en/story/face-recognition-police-europe/

#police #eu
Какого контента нужно больше на канале?
anonymous poll

Больше про данные и всё что с ними связано – 53
👍👍👍👍👍👍👍 34%

Больше аналитики того что делается в госИТ в России – 43
👍👍👍👍👍👍 28%

Больше аналитики о том как всё работает за пределами России – 27
👍👍👍👍 18%

Больше быстрых и регулярных новостей по govtech, civictech и данным – 16
👍👍 10%

Больше про приватность, слежку, защиту данных – 15
👍👍 10%

👥 154 people voted so far.
Яндекс, через публикацию Григория Бакунова в блоге пишет о поддержке открытого кода, важности проекта Игоря Сысоева [1] и своей позиции в этом вопросе.

Это правильная, хотя и осторожная позиция. Ощущение что рейдерские захваты приходят в ИТ является острым сейчас для многих, вне зависимости от политических убеждений.

Многие годы Яндекс воспринимался и воспринимается в России как технологический лидер рынка, компания с мировым именем и мирового уровня технологиями. Но все проблемы Яндекса, как и многих других российских компаний работающих на переднем крае технологий, находятся в российской юрисдикции. Отстранившись от происходящего в стране Яндекс, как и вся отрасль, столкнулись с разбегу с ужесточением регулирования Рунета не готовностью GR действий в ответ на эти события. И сейчас, ситуация с Игорем Сысоевым, лишь в одной стороне имеет отражение на конфликт между двумя экономическими субъектами, главное же в нём - применение силовых органов для воздействия теми кто умеет и привык пользоваться административно-уголовными методами ведения бизнеса в России.

Каковы был вклад Яндекса за эти годы в декриминализацию статей уголовного кодекса? В системную работу над изменением российского законодательства? В применении не антикризисного GR, а GR проактивного? Есть ли в модели будущего Яндекса понимание ухудшения регуляторной среды?

Разумеется говорить здесь про Яндекс можно довольно условно. Это касается не только одной компании, это касается ИТ отрасли в России в целом, которая сейчас находится в состоянии углубления расхождения глобально ориентированных ИТ компаний и той части ИТ бизнеса которая неотделима от государственного финансирования.

Ссылки:
[1] https://yandex.ru/blog/company/open-source-nashe-vse

#it #dierambler #opensource
Вышел доклад " Exploring digital government transformation in the EU" [1] со 100-страничным обзором практики цифровой трансформации Евросоюза.
В докладе собран обзор развития таких тем госуправления как:
- Искуственный интеллект
- Распределённые цифровые реестры
- Интернет вещей
- Данные и их повторное использование
- Открытое государство
- Цифровая безопасность
- Инновации в предоставлении услуг

Доклад выпущен от EU Science Hub и во многом делает акценты на этике и этическом развитии государственного регулирования.

Ссылки:
[1] https://op.europa.eu/en/publication-detail/-/publication/0fdfa1ed-1bc6-11ea-8c1f-01aa75ed71a1/language-en

#policy #government #eu
Ольга Пархимович (@ahminfin) сходила на хакатон портала data.gov.ru который делает Рунетсофт в рамках контракта с Минэкономразвития и написала свои мысли в посте на Facebook'е [1]

А я добавлю от себя

Это отличный пример того как _не надо_ проводить хакатоны. Честно говоря стыдоба за Минэкономразвития какая-то невероятная. Мы за многократно меньшие деньги проводили хакатоны на 200 и более человек, а тут какое-то феерическое очковтирательство Рунетсофта и сдача работ для галочки если не хуже.

Федеральный портал открытых данных data.gov.ru и так всегда был "гадким утёнком" по сравнению с большинством порталов ОД субъектов федерации, а тут скрестились вместе: плохой портал + новый его оператор который дискредитирует тематику открытых данных.

Что здесь - некачественная работа исполнителя по госконтракту и, в итоге, неизбежное помещение его в реестр недобросовестных поставщиков или же смотрим на контракты Рунетсофта подробнее и подозреваем худшее чем просто плохую работу подрядчика?

И ведь кто-то подпишет им акты за эту работу.
Вопросы к залу:
1. Кто несёт ответственность за подобное: заказчик который объвляет торги в конце года или поставщики которые сжимают работы в один месяц любой ценой?
2. Что мы подозреваем тут: некачественную работу исполнителя или, что хуже, сговор исполнителя с заказчиком? Исполнитель контракта победил с минимальным снижением цены и пачкой выиграл множество ИТ конкурсов Минэкономразвития в этом году.

Ссылки:
[1] https://www.facebook.com/k0shk/posts/2765437503476964

#opendata #opengov #mineconom
Почему проблема качества данных так остра для всех государственных систем? Потому что охватывает все сайты, все информационные системы, даже те в которых, казалось бы, сомнений быть не должно было.

Например, 343-ФЗ от 27.11.2017 "Федеральный закон "О внесении изменений в части первую и вторую Налогового кодекса Российской Федерации" есть в консультанте [1], в гаранте [2], Российской Газете [3], в pravo.gov.ru [4] и отсутствует на сайте Администрации Президента РФ kremlin.ru [5] в разделе "Банк документов".

Этот ФЗ не единственный, с 1994 по 2019 как минимум по 68 федеральнов законов не публиковались на kremlin.ru. Только за 2018 год это: 349-ФЗ, 352-ФЗ, 467-ФЗ, 472-ФЗ, 477-ФЗ, 501-ФЗ, 506-ФЗ, 542-ФЗ, 568-ФЗ.

Те кто знают как устроено официальное опубликование нормативно-правовых документов знают что официальное опубликование осуществляется на сайте Российской Газеты, в собраниях законодательства РФ, на сайте pravo.gov.ru (publication.pravo.gov.ru).

Но это не мешает существовать банкам документов на сайтах Правительства РФ и Администрации Президента РФ где документы выкладываются, хотя и с большим запозданием от месяца до квартала (для сайта Правительства РФ). Большинство граждан при этом не знают всех нюансов официального опубликования и запутаться тут недолго.

И это лишь верхушка айсберга [не-]полноты банков документов на сайтах органов власти.

Ссылки:
[1] https://www.consultant.ru/document/cons_doc_LAW_283501/
[2] http://base.garant.ru/71819192/
[3] https://rg.ru/2017/11/29/nalogi343-dok.html
[4] http://pravo.gov.ru/proxy/ips/?docbody=&vkart=card&nd=102452028&rdk=
[5] http://kremlin.ru/acts/bank/search?title=343-%D1%84%D0%B7

#data #lawtech #opendata #laws
Forwarded from Городские данные (Andrey Karmatsky)
«Сувениры в виде стеклянных шаров с черным снегом выпускает челябинский эколог Дмитрий Закарлюкин. С помощью проекта «Шары надежды» он рассчитывает собрать деньги на установку датчиков для независимой системы мониторинга воздуха.»
Вышел The 2019 AI Index, Индекс мониторинга публикаций об искусственном интеллекте за 2019 год [1] публикуемый Стэнфордским университетом. Доклад можно скачать в PDF [2] и просмотреть все данные [3] упоминаются и российские статьи, разработки и университеты. Например упоминается курс Высшей школы экономики по искусственному интеллекту и конференция Минобороны России «Искусственный интеллект: проблемы и пути их решения — 2018» [4].

Доклад полезен огромным числом ссылок на актуальные и разрабатываемые стратегии развития искусственного интеллекта в разных странах мира и тем на чем в них делаются акценты.

[1] https://hai.stanford.edu/ai-index/2019
[2] https://hai.stanford.edu/sites/g/files/sbiybj10986/f/ai_index_2019_report.pdf
[3] https://drive.google.com/drive/folders/1Tl2HyuXHTGufDTsF-h0cb0InlMD3gvSQ
[4] http://mil.ru/conferences/is-intellekt.htm

#ai #data
В РБК вышла статья за авторством Ольги Пархимович с небольшой моей помощью, статья о том насколько всё плохо с качеством данных в государственных информационных системах [1].

Тема заслуживает не то что статьи, по ней можно защищать диссертации и открывать исследовательские институты. С качеством данных всё плохо, с принятием решений на их основе тоже, так себе. Впрочем почитайте статью.

Ссылки:
[1] https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c

#opendata #dataquality
Разработчики НСУДа выложили сразу множество документов по НСУДу непосредственно [1], документов много и мы только приступили к их прочтению. Что видно сразу - писались они не для людей, а для сдачи по госконтракту(-ам) сроки завершения которых у разработчиков как раз в декабре.

Хочется надеяться что про открытые данные они не забыли. Хочется надеяться что результат этой работы будет не бессмысленным. Впрочем - почитаем, посмотрим.

Ссылки:
[1] https://digital.ac.gov.ru/materials/?id=48

#data