Ivan Begtin
9.34K subscribers
2.12K photos
3 videos
103 files
4.85K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Есть такой эффект в распространении информации - эффект англосферного пузыря, когда, поскольку большинство обычно знают английский язык как второй после родного, то и большая часть примеров и опыта идёт со ссылкой на США, Великобританию, Австралию, Новую Зеландию, и, реже, Индию.

Для разнообразия, я приведу примеры разных интересных общественных проектов в других странах.

- Quién cobra la obra (Кому заплатили за работу?) [1] - монитор строительных контрактов от Civio (Испания), включая поиск по контрактам [2]. Фокус на объяснениях, расследованиях и статьях дополняемых собранными данными.
- Quién manda (Кто правит?) [3] - другой проект от Civio о связях тех кто владеет деньгами, теми кто руководит (депутатами, министрами и тд). На основе общедоступной информации и в виде навигатора [4] по более чем 7200 проверенным связям.
- Handlingar [5] проект от шведской группы активистов в CivicTech по автоматизации запросов в госорганы на получение информации. Создан на базе открытыого код проекта Alavetelli [6] используемого НКО во многих странах для создания порталов для запросов информации у органов власти.
- OpenCoesione [7] итальянский государственный проект который можно первести как "Открытое развитие", по факту это портал раскрытия по госпрограммам и госрасходам с детализацией до каждого муниципалитета.
- abgeordnetenwatch.de - германский портал мониторинга за парламентом и депутатами включая возможность направлять петиции

Большая часть общественных проектов в мире, как правило, сфокусированы на:
- лоббизме и прозрачности принятия решений
- госрасходах
- качестве управления общественными ресурсами (землей, полезными ископаемыми и тд.)
- общественных и социальных проблемах таких как экология, миграция и так далее.


Ссылки:
[1] https://civio.es/quien-cobra-la-obra/
[2] https://quiencobralaobra.es/
[3] https://civio.es/quien-manda/
[4] https://quienmanda.es/
[5] https://handlingar.se/sv
[6] https://alaveteli.org/
[7] https://opencoesione.gov.it
[8] https://www.abgeordnetenwatch.de

#civicprojects #opengov #opendata
Для тех кто ищет какие новые/старые продукты по работе с данными потестить и посмотреть рекомендую победителей Data Management Insight Award [1] рейтинг продуктов где встречаются и те продукты которые, я, к примеру, не знал.

Там же до 8 октября можно проголосовать за продукты 2019 года [2] и к 6 декабря будет известен продукт.
Кстати, сами рейтинги - это хороший продукт консалтинговой компании A-Team Insight. Потому что чтобы проголосовать надо заполнить на себя анкету и вообще много чего о себе сообщить. Какие молодцы! Надо брать с них пример.

Ссылки:
[1] https://a-teaminsight.com/awards/data-management-insight-awards/
[2] https://a-teaminsight.com/awards/data-management-insight-awards/?page=vote_now

#data #datamanagement
Почему данные компаний должны быть общественным благом ? (Why data from companies should be a common good?) [1] статья от члена французского парламента Паулы Фортеза и её советника Марианны Биллард о том что частные компании должны делиться данными с государством и другими компаниями. Они призывают к принятию Европейского закона о частных данных (European Private Data Act) в котором закрепить условия обмена данными / data sharing. При это подчёркивается что обмен данными не является синонимом открытости данных, а частные интересы компаний учитываются.

Пока рано говорить о том что такой закон появится в этом или в следующем году, но если он будет принят то однозначно будет создан по модели GDPR с экстерриториальностью подпадающих под него компаний. И первыми кто под него попадёт будут международные дата-корпорации которых могут захотеть понудить делиться данными с их европейскими партнёрами.

Что это означает? Я бы в ближайшие годы ждал активности в запуске частных data-sharing инициатив от крупнейших дата игроков в целях максимально отсрочить, ослабить или ограничить подобное регулирование.

Ссылки:
[1] https://apolitical.co/solution_article/why-companies-should-share-their-data-with-government/

#opendata #datasharing #data
Должны ли частные компании делиться накопленными ими данными с государством и с другими компаниями?
public poll

Только добровольно – 92
👍👍👍👍👍👍👍 59%

Да – 37
👍👍👍 24%

Нет – 26
👍👍 17%

👥 155 people voted so far.
Итоги голосования по добровольности обмена данными для частных компаний
Прошлый опрос показал что большинство считает что если бизнес и должен делиться данными, то только добровольно. Результат в каком-то смысле ожидаемый. Так что предлагаю второй вопрос с уточнением
Должны ли компании монополисты делиться своими данными с государством и другими компаниями на их рынках в целях антимонопольного регулирования?
anonymous poll

Да, должны – 101
👍👍👍👍👍👍👍 79%

Нет, не должны – 27
👍👍 21%

👥 128 people voted so far.
Открытые данные часто и даже чаще раскрываются не государством, а научными центрами. Примеров этому много, я регулярно их привожу и вот ещё один.

Allen Institute for Artificial Intelligence [1] разместили в открытом доступе базу SUPP.AI [2], научно подтвержденных взаимодействий разного рода лекарственных препаратов и иных веществ. Так называемых supplementals (вспомогательные вещества). Вся база собрана на основе публикаций которые в институте Аллена собирают в другом их проекте Semantic Scholar [3] где собраны практически все научные статьи, разобранные и проанализированные.

Тем временем в SUPP.AI можно найти информацию о взаимодействию:
- кофеина [4]
- никотина [5]
- витамин C [6]
и многое другое

А также все данные общедоступны, хотя и не под открытой лицензией [7]

Ссылки:
[1] https://allenai.org/
[2] https://supp.ai/
[3] https://www.semanticscholar.org/
[4] https://supp.ai/a/caffeine/C0006644?q=Caffeine
[5] https://supp.ai/a/nicotine/C0028040?q=Nikotine
[6] https://supp.ai/a/vitamin-c/C2349136?q=Vitamin
[7] https://api.semanticscholar.org/supp/legal/

#opendata #openscience #healthcare
В публичном пространстве сейчас много и больно критикуют нац. проекты, я тоже приложил руку в колонке РБК про то что бюджетная роспись по нацпроектам стала непрозрачной [1].

Предположим что с нац проектами не настолько всё плохо как я критикую и пишут другие, предположим что те кто отвечает за их проектирование и исполнение готовы слышать критику.

На основе этих, возможно, наивных предположений я постараюсь изложить основные шаги которые необходимо делать _прямо сейчас_.

1. Создать портал раскрытия информации по нац проектам по аналогии с порталом госпрограмм и порталом нац проектов 2006-2009 года. И не потратить на это самых минимальных средств.
2. Публиковать детальную сводную бюджетную роспись с полной детализацией всех мероприятий нац проектов. Темам самым вернуть необходимую минимальную прозрачность госрасходов.
3. Обеспечить раскрытие информации о результатах нац проектов. Не KPI, не медийный статьи, а конкретные результаты с фото, видео, аэрофотосъёмкой, актами принятых работ, ФИО ответственных за каждое мероприятие, каждый объект, каждый контракт
4. Обеспечить аналогичное раскрытие информации по каждому участвующему субъекту Российской Федерации и муниципальному образованию.
5. Разумеется ФОИВам публиковать все материалы связанные с нац проектам в форматах открытых данных
--
Всё перечисленное, кстати, очень несложно сделать. При наличии соответствующей мотивации у федеральных органов исполнительной власти.

А теперь поговорим о гораздо более "фантастических" действиях, сложных не только в росийской системе госуправления, но и не во всех странах существующая.
6. Обязательное протоколирование всех совещаний и доступность стенограмм и протоколов для граждан и журналистов.
7. Провести большую смысловую работу по учёту результатов не по освоенным средствам, а по достигнутым KPI.
8. Реорганизовать систему бюджетирования, контрактации и субсидирования мероприятий так чтобы акцент был на результатах, а не на имитации конкуренции или освоенных средствах.
9. Создавать и обязывать использовать обязательные системы регистрации результатов и их раскрытие во всех случаях кроме гостайны

И я сейчас не только про нацпроект "Цифровая экономика". Это касается всех нацпроектов. Да и не только их, если быть до конца честным.

Ссылки:
[1] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea

#budget #government #procurement #nationalprojects
Я просто оставлю это здесь.
Forwarded from Госзатраты
Forwarded from Госзатраты
Минкомсвязи заключило девять контрактов на выполнение работ по развитию функционала федеральной государственной информационной системы «Единый портал государственных и муниципальных услуг» («Госуслуги»). Цена контрактов варьируется от 464 до 61 млн рублей. Общая сумма составила 1,84 млрд рублей.

Исполнителем по всем девяти контрактам выступит ПАО «Ростелеком». Закупки проводились у единственного поставщика. Работы будут проводить в рамках нацпрограммы «Цифровая экономика РФ» в 2019–2020 гг.

К каждому из контрактов прилагается подробное техзадание. Предмет самого крупного договора — на 464 млн. рублей — развитие системы в целях создания единого окна цифровой обратной связи. Работы включают в себя несколько этапов: системное, техническое и рабочее проектирование и ввод системы в действие.

Контракт на 292 млн рублей предполагает развитие мобильного приложения «Госуслуги», реализацию возможности создания в ЕСИА личного кабинета организации и функционала обмена электронными документами и другие направления.

Полный список контрактов со ссылками на их карточки на сайте «Госзатраты»:

1) 464,2 млн: http://amp.gs/AuMd
2) 292,5 млн: http://amp.gs/AuMr
3) 259,8 млн: http://amp.gs/AuMA
4) 224 млн: http://amp.gs/AuMs
5) 210,6 млн: http://amp.gs/AuMD
6) 165,7 млн: http://amp.gs/AuMJ
7) 94,4 млн: http://amp.gs/AuM0
8) 67,9 млн: http://amp.gs/AuMK
9) 61,2 млн: http://amp.gs/AuM3
В том что касается Semantic Web и Linked Data всегда было немного коммерчески успешных проектов. Эти технологии продвигались W3C и Тимом Бернерсом-Ли, шкала в 4 и 5 звёзд открытости данных были привязаны как раз к их связности, но всегда побеждала прагматика и мало из владельцев данных сейчас публикует их в виде "связанных данных".

Одним из наиболее успешных стартапов в этой области была компания Metaweb со специализацией на интеграцие множества разных источников с возможностью интегрировать их в единую онтологическую модель на базе Википедии. В 2010 году их купил Google [1] за неназванные условия и вскоре в поиске Google появились подсказки с данными из Википедии, IMDB и других источников.

Этим июлем, стартап data.world [2] претендующий на то чтобы стать Github'ом для данных объявил о покупке стартапа Capsenta [3] специализировавшегося на онтологиях и семантическом вебе. Их продукты Ultrawrap NoETL и Gra.fo [4] были ориентированы на интеграцию и визуализацию связанных данных. Сумма сделки не разглашается. Но в любом случае, похоже, стоит ждать появления инструментов визуализации и интеграции пользовательских данных в Data.world, а сам Data.world может пойти по пути Metabase.

Из всех проектов которые претендовали на роль Github для данных - пока data.world наиболее перспективен, но и его судьба именно в этой роли далеко не предопределена. А вот чем больше там будет связанных данных и интеграции большего числа источников тем выше вероятность его покупки крупным игроком на рынке, тем же Alphabet/Google, или Amazon и последующая интеграция в их экосистему.

Ссылки:
[1] https://www.cnet.com/news/google-buys-metaweb-and-its-sprawling-database/
[2] http://data.world
[3] https://data.world/blog/weve-acquired-capsenta-to-bring-the-power-of-knowledge-graphs-to-companies-with-on-prem-data/
[4] https://gra.fo/

#data #opendata #semanticweb
Григорий Бакунов из Яндекса пишет про импортозамещение. Adobe деактивировал аккаунты всех пользователей в Венесуэле. Если такие санкции применят к России, то наша жизнь никогда не будет преждней. А все российские цифровые чемпионы включая Яндекс превратятся в тыкву.
Forwarded from addmeto
Как выглядят санкции и почему кипиш вокруг импортозамещения не всегда бред сумасшедших: Adobe отменила подписку и доступ ко всем своим сервисам для жителей Венесуэлы. Причина - санкции со стороны США. Деньги, уплаченные за подписки и платные сервисы возврату не подлежат.

К счастью теперь есть много альтернатив фотошопу и другим программам от Эдоби. Они может и похуже, но намертво работа не встанет. Для большого количества другого софта альтернатив просто нет https://www.zdnet.com/article/adobe-to-deactivate-accounts-for-all-venezuelan-users-due-to-us-sanctions/
Напротив Роскачества можно поставить галочку "не читать". Даже не смешно это всё.
"Если мы все вместе закроем глазки, соберемся в хоровод, и сделаем вид, будто Телеграма нет, то он как бы и заблокирован" (с) мнение с рынка.

1. Я думаю, упомянутым мессенджерам самим стыдно от попадания в такой "рейтинг"
2. А потом ватаны удивляются, что качество от Роскачества (и других гос.структур) люди вертели на одном месте.

Совет "экспертам" — не позориться.
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools
Хочется очень много данных? Прям очень очень много и очень больших ? На базе Amazon AWS работает бесплатная версия портала Quilt по адресу open.quiltdata.com [1] где можно скачать данные 25 датасетов общим объёмом в 3.7 петабайта и 10.2 миллиардов объектов.

Например, там прокаталогизированы:
- перепись населения США [2]
- более одного миллиона записных книжек дата сайентистов Jupyter Notebook [3]
- база OpenStreetMap [4]

и многое другое.

У проекта нет претензии на то чтобы все данные были бы в едином формате, но есть заявка на систематизацию крупнейших датасетов и хранение огромных объёмов.

Ссылки:
[1] https://open.quiltdata.com/
[2] https://open.quiltdata.com/b/dataworld-linked-acs
[3] https://open.quiltdata.com/b/open-jupyter-notebooks
[4] https://open.quiltdata.com/b/osm-pds

#opendata #data #aws
Тем временем США добавили 8 технологических компаний в США в санкционные списки [1]
Две компании Hangzhou Hikvision Digital Technology Co. и Zhejiang Dahua Technology Co. имели специализацию в видео наблюдении, SenseTime Group Ltd. и Megvii Technology Ltd. - это два гигантских стартапа в области искусственного интеллекта, финансируемые Alibaba Group Holding Ltd.

Все они обвинены в нарушении прав человека из-за притеснений мусульман в Синцзяне.

Ссылки:
[1] https://www.bloomberg.com/news/articles/2019-10-07/u-s-blacklists-eight-chinese-companies-including-hikvision-k1gvpq77

#digitalwar #china #us #sanctions