Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто хочет сделать полезное в открытых данных, имеет свободное время и свободный английский - проект OpenRefine ищет специалиста/команду/компанию тех кто создаст им документацию по продукту [1]
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.

OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.

Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.

Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine

#opendata #openrefine #datajobs
Вышел Open Budget Index за 2019 год [1], обзор оценок открытости бюджетов по странам мира. Он охватывает большинство значимых стран, кроме разьве что, небольших тихоокеанских островов.

Ключевое в индексе - это оценка прозрачности бюджета (budget transparency score). Это совокупность всех оценок прозрачности бюджета, бюджетного процесса на всех стадиях.
У некоторых стран эти оценки совпадают, поэтому правильно считать их места не по списку сверху вниз, а учитывая что некоторые места поделены.
На 1-м месте с оценками в 87 баллов: Новая Зеландия и Южная Африка
На 2-м месте с оценкой в 86 баллов: Швеция

Россия на 7 месте которое она делит с Францией имея 74 балла. Это довольно высокий уровень прозрачности бюджета. Это выше чем Великобритания с 70 баллами и ниже чем США с 76 баллами.

Значит ли это что в России всё хорошо с финансовой открытостью? В целом оно лучше чем у многих стран, но есть нюансы. Например, из-за нац проектов сократилась открытость бюджетной росписи, о чём я писал в колонке в РБК в прошлом году [2]. А оценки вовлечения общества в формирование бюджета очень низкие 22 балла из 100 возможных [3]

Ссылки:
[1] https://www.internationalbudget.org/open-budget-survey/rankings
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
[3] https://live-international-budget-partnership.pantheonsite.io/open-budget-survey/country-results/2019/russia

#openbudgets #budgets #opengov
На CockroachDB [1], движок баз данных с открытым кодом с гео-масштабированием, работой в облаке и с SQL, развиваемый стартапом CockroachLabs [2], его создатели получили $86,6 миллионов финансирования от венчурных фондов [3], что в совокупности даёт $195 миллионов с 2015 года.

По сути, CockroachDB - это PostgreSQL на стероидах. В сравнении на ObjectRocket [4] довольно хорошо перечислены их отличительные особенности и возможности. Все они связаны с репликацией, геомасштабированием и многокластерностью. Важные задачи для любых геораспределённых сервисов и не так критичные для геостационарных, локальных сервисов.

Исходя из их позиционирования можно предполагать что они стали реально востребованным продуктом для крупных цифровых игроков, делающих сервисы и приложения на весь мир.

Ссылки:
[1] https://github.com/cockroachdb/cockroach
[2] https://www.cockroachlabs.com/
[3] https://www.zdnet.com/article/a-gmail-for-databases-cockroachdb-aims-for-the-top-stocks-up-with-86-6m-new-funding/
[4] https://www.objectrocket.com/blog/cockroachdb/how-to-choose-between-postgresql-and-cockroachdb/

#data #databases
Внезапно Zoom купил очень интересный стартап Keybase [1]. Однако KeyBase - это прикольные ребята помешанные на безопасности, а у Zoom с безопасностью всё из рук вон плохо. Надеюсь от этой сделки похорошеет Zoom'у и не поплохеет Keybase. Всё таки я лично пользователь Keybase со стажем.

Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom

#privacy #security
Среди многочисленных проектов и бизнесов на данных, особо интересны имеющие качественное отраслевое применение, даже если сама бизнес модель совсем не про данные.

Molbase - китайский стартап [1], маркетплейс продажи и покупки химических компонентов. Объединяет спрос и предложения от малых и средних китайских компаний на химические вещества совершенно любого типа. У маркетплейсов своя понятная ниша и, казалось бы, ну что тут можно добавить, но вот создатели Molbase добавили базу знаний по всем продаваемым компонентам, поиск по видам и типам химических веществ, по формулам, химической структуре и так далее.

В декабре они вышли на IPO и сейчас их капитализация $205.9 миллиона [2], а бизнес модель построена на автоматизации хранения и логистики и заявленное число клиентов составляет 94 тысячи покупателей и 33 тысячи продавцов [3].

При этом особенный акцент во всех публичных материалах именно на данные и на искусственный интеллект, с рекомендательными возможностями.

Ссылки:
[1] https://molbase.com
[2] https://craft.co/molecular-data/metrics
[3] http://investor.molbase.com/static-files/d06191ae-4466-449d-a56f-ff27faf808d0

#data #datamarket
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Поставщик Минэкономразвития по сопровождению портала открытых данных добавлен в РНП

Компания "Рунетсофт" 13 апреля добавлена в Реестр недобросовестных поставщиков (РНП) за контракт на сопровождение портала открытых данных (data.gov.ru), исполнение которого было прекращено по инициативе Минэкономразвития в середине марта [1]. Напомню, что стоимость этого контракта - 21,8 млн руб., а фактически из ТЗ почти ничего не было выполнено (не говоря уже о качестве тех работ, которые попытались выполнить).

Интересно, что включение Рунетсофта в РНП не помешало Окружная администрация города Якутска заключить в конце апреля с ними контракт на обновление и техническое обслуживание своего сайта, стоимостью 1,3 млн руб.

[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1771034949419000094
[2] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=3143513390720000021
Цифровая трансформация по польски - это Национальная облачная платформа (Chmura Krajowa) [1] созданная в 2019 году Банком Польши и Польским фондом развития. В сентябре 2019 года они заключили партнёрство с Google, а теперь ещё и партнёрство с Microsoft [2]. При этом Microsoft обещают проинвестировать около 1 миллиарда долларов на создание польской цифровой долины [3].

Здесь интересно многое, например, будет ли это единичным случаем или форма целенаправленной экспансии международных облачных платформ в местные рынки.

И, не могу не напомнить о том где находятся датацентры крупнейших облаков в мире для Google Cloud [4] и Microsoft Azure [5].

Ссылки:
[1] https://chmurakrajowa.pl (польский)
[2] https://news.microsoft.com/europe/2020/05/05/microsoft-announces-a-1-billion-digital-transformation-plan-for-poland-including-access-to-local-cloud-services-with-first-datacenter-region/ (английский)
[3] https://cloudcomputing-news.net/news/2020/may/05/microsoft-unveils-1-billion-poland-cloud-and-digital-investment-plan/ (английский)
[4] https://cloud.google.com/about/locations/
[5] https://azure.microsoft.com/en-us/global-infrastructure/regions/

#datacenters #poland #digital #digitaltransformation
Reuters пишут что в Евросоюзе всерьёз подбираются к регулированию технологических гигантов [1] и заказали исследование на 649 тысяч евро целью которого будет рассмотрение практики разделения бизнеса крупнейших компаний и демократизации доступа к их данным. Однозначно под прицелом будут Google, Amazon, Apple и Facebook, но и другие технологические гиганты это может затронуть.

[1] https://www.reuters.com/article/us-eu-tech-antitrust/eu-looks-for-evidence-to-rein-in-u-s-tech-giants-idUSKBN22K2IT

#tech #regulation #data
Департамент здравоохранения Австралии выложил исходный код мобильных приложений для iPhone и для Android [1] на платформе Github. Кроме того в правилах использования приложения явно указано что все данные будут удалены после пандемии [2], а сам департамент выпустил акт о биобезопасности защищающий права граждан на приватность на период пандемии и после нее [3]. Также подготовлен законопроект особым образом защищающий приватность в этом мобильном приложении на время пандемии [4].

Ссылки:
[1] https://github.com/AU-COVIDSafe
[2] https://www.health.gov.au/resources/apps-and-tools/covidsafe-app#after-the-pandemic
[3] https://www.legislation.gov.au/Details/F2020L00480
[4] https://www.ag.gov.au/RightsAndProtections/Privacy/Pages/COVIDSafelegislation.aspx

#privacy #australia #opensource
Весьма интересная общедоступная база RUPEP.org [1] по базе PEP'ов - политически значимых персон. Уровень проработки у базы весьма неплохой, не только более 5 тысяч персон, но и все юр. лица с которыми они были связаны, с визуализацией и досье на каждую персону. Однако для работы с ресурсом требуется авторизация, там нет открытых данных и самый злободневный вопрос, а кто же автор? На странице "О проекте" владельцем базы указан PEPWatch [2], без каких либо реквизитов и выходных данных. PEPWatch - это коммерческое юридическое лицо в Чехии [3] с единственным учредителем Halyna Senyk [4] и без какой-либо дополнительной информации. Соцсети PEPWatch оказались удалёнными много лет назад, а отсутствие упоминание создателя организации в подробностях - это очень большая редкость в таких проектах.

Поэтому проект интересный и любопытный, а вот его создатель на редкость странный и непонятный. Что-то тут не так с его создателем

Ссылки:
[1] https://rupep.org
[2] https://rupep.org/ru/%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81%D1%8B-%D0%B8-%D0%BE%D1%82%D0%B2%D0%B5%D1%82%D1%8B/
[3] https://rejstrik-firem.kurzy.cz/06719015/pepwatch-z-s/
[4] https://rejstrik-firem.kurzy.cz/osoba/2513651/

#open #peps
Технологические гиганты сокращают или замораживают найм персонала. Вот и Apple заморозили поиск сотрудников текущими вакансиями, за исключением команд которые занимаются ИИ, оборудованием и машинным обучением [1]

[1] https://staging.media.thinknum.com/articles/a-deeper-look-into-apples-job-cuts/
В задачах связанных с работой с данными часто возникают ситуации когда необходимо совмещать автоматизированный сбор и обработку данных и ручную работу по их последующей очистке. Отчасти здесь помогают такие онлайн заменители Access как Airtable [1], но бывает что нужно ещё и настроить потоки входящих и исходящих данных, связать микросервисы, внешние API и так далее. А ещё много задач внутренней автоматизации, на который часто просто не хочется тратить много времени, ибо они отвлекают от основного бизнеса/деятельности.

Сразу несколько инструментов успешно решают такие задачи.

Forest Admin [2] - одноимённые продукт и стартап инструмента внутренней "админки" по управлению данными и деятельностью. Основаны в 2016 году и с тех пор получили $11.2 миллиона инвестиций [3], последний раунд был 6 месяцев назад на $7 миллионов. Предлагают гибридное решение, настраивается через аккаунт в их сервисе, разворачивается локально как контейнер Docker и приложение на Javascript. Главное на чём делают акцент - это то что Ваши данные остаются у Вас. Не надо их никуда передавать или подключать.

Retool [4] - инструмент для создания внутренних инструментов. Позиционируют себя как "инженеры делают для инженеров". Вышли из Y Combinator и получили в 2017 году финансирование на нераскрываемую сумму [5]. Дают очень гибкий инструмент по автоматизации внутренних процессов, с подключением баз данных, API и многого другого. Главные риски - надо подключать туда свои базы данных, но для бизнеса у которого и так все данные в облаках и в API это, чаще, не проблема.

Internal [6] - свежий конкурент Retool, появились в 2019 году и сразу получили финансирование на $5 миллионов [7]. Позиционируют себя как no-code платформу по автоматизации внутренних процессов.

Другие, не совсем относящиеся к подобным инструментам, но пересекающиеся с ними - это "безголовые CMS" (headless CMS). Системы управления контентом в которых управление контентом отделено от его отображение.
Из них можно выделить такие как: Directus [8], Strapi [9]

Всё это дополняется большим числом no-code и low-code платформ.
Поэтому очень часто автоматизация внутренних задач или создания бэкофиса для внешних проектов требует не найма внутренней команды/внешней команды/внешнего подрядчика, а правильного выбора инструмента и его настройки.

[1] https://airtable.com
[2] https://www.forestadmin.com/
[3] https://craft.co/forest-admin/metrics
[4] https://retool.com
[5] https://www.crunchbase.com/organization/retool
[6] https://www.internal.io/
[7] https://craft.co/internal/metrics
[8] https://directus.io/
[9] https://strapi.io

#nocode #lowcode #internaltools
Павел Дуров анонсировал [1] закрытие проект TON в довольно анти-американском стиле, критикуя решение суда в США. Честно говоря не знаю даже что добавить кроме тревоги за судьбу Телеграм'а, который, как я понимаю, из денег привлечённых на TON и финансировался.

[1] https://telegra.ph/What-Was-TON-And-Why-It-Is-Over-05-12

#blockchain #telegram
MemSQL - стартап создающий одноимённую геораспределённую базу данных совместимую с MySQL, получили $50 миллионов инвестиций [1] что составляет $158.1 миллион инвестиций на сегодняшний день.

Главное достоинство MemSQL - это сохранение высокой скорости работы даже при очень большом объёме загруженных данных. При этом MemSQL умеет работать с JSON документами, хотя и, нельзя сказать что это естественная форма работы, что, впрочем, компенсируется высокой скоростью.

Несмотря на то что у себя на сайте они сравнивают себя, в первую очередь, с SAP HANA и Oracle [2], основной их конкурент - это CockroachDb о которой я писал ранее [4], базе данных совместимой с PostgresSQL.

Ссылки
[1] https://siliconangle.com/2020/05/11/distributed-database-startup-memsql-raises-50m-debt-financing/?utm_source=angellist
[2] https://www.memsql.com/comparisons/
[3] https://t.me/begtin/1893

#data #dataengines #db
Многие контрольные ведомства раскрыли свои внутренние контактные данные, чтобы граждане имели возможность обратиться к сотрудникам напрямую. Некоторые даже создают отдельные приложения и горячие линии, а на своих сайтах и в соцсетях публикуют актуальную аналитику или полезную информацию, связанную с пандемией.

ВОА Мексики запустило [1] бесплатное электронное приложение для смартфонов и планшетов, которое позволяет напрямую обращаться в ведомство по вопросам его деятельности.

ВОА США с помощью горячей линии Fraudnet [2] принимает заявления о возможных случаях мошенничества со средствами, которые были выделены на противодействие COVID-19.

Глава ВОА ЮАР [3] активно информирует граждан о ситуации с распространением COVID-19 в республике. Ежедневно в Twitter появляются репосты обновлений статистических данных, публикуются правила изоляции, информация о мерах, принимаемых государством.

Всё это можно узнать из регулярного дайджеста Счётной палаты [4] подписаться на который можно в футере любой страницы на сайте Счетной палаты [5]

P.S. Как человек получающий десятки рассылок самых разных госорганов могу сказать что одна из худших рассылок новостей у ФНС России, а в последние полтора года одна из лучших рассылок именно у Счетной палаты.

Ссылки:
[1] https://twitter.com/ASF_Mexico/status/1245049289438457857
[2] https://www.gao.gov/about/what-gao-does/fraudnet/
[3] https://twitter.com/AuditorGen_SA
[4] http://audit.gov.ru/upload/pdf/Covid-19-SIA.pdf
[5] http://audit.gov.ru/

#open #sprf
Microsoft предложили российским властям полгода бесплатного использования их сервисов, о чём пишет Коммерсант [1]. В статье есть же и мой комментарий, но я хочу сказать не об этом.

Разговоры о том существует ли конкуренция "Microsoft vs Linux" или "проприетарное ПО vs открытое ПО" или "что угодно vs импортозамещённое ПО" - эти разговоры давно устарели, также как и мышление в этих категориях. Потому что на корпоративном и государственном рынке в мире есть один ключевой тренд - это облачные комплексные инфраструктуры, поддерживающие SaaS, PaaS, IaaS, но замыкающие внутрь себя насколько это возможно. В мире есть 3 основных игрока в этой среде: Amazon, Google и Microsoft. Соответственно с продуктами AWS, Google Cloud и Azure

В 2019 году правительство Австралии заключило общегосударственный контракт (whole-government contract) с Amazon для работы с AWS Cloud в регионе Австралии (ЦОД Amazon расположенный в Сиднее) [2]

И ранее я писал о том что те же Microsoft и Google заключили долгосрочное партнерство с национальным облачным оператором Польши [3]

Органы власти в США, Европе и большей части того что принято называть "западным миром" всё более под рыночным давлением выбора построения собственной инфраструктуры или перехода на одного из этих трёх провайдеров. Большинство сейчас выбирают гибридные модели когда часть научной инфраструктуры и часть публичной части сервисов уходит в облака.

И этот тренд очень сложно остановить, потому что, опять же, крупнейшие игроки теперь при скупке технологических стартапов или при разработке своих технологий давно уже не отдают их в виде ПО, а исключительно в виде онлайн сервисов или микросервисов внутри их архитектуры.


[1] https://www.kommersant.ru/doc/4344040
[2] https://www.zdnet.com/article/amazon-web-services-scores-australia-wide-government-cloud-deal/
[3] https://t.me/begtin/1897

#infrastructure #it
Сингапурский университет управления (Singapore Management University) получили грант в S$15 миллионов (примерно 774 миллионов рублей) от National Research Foundation Singapore (NRF) на создание центра по вычислительным законам [1].

Часть команды центра - это команда стартапа Legalese [2] созданного под девизом "Software is eating law" (ПО пожирает закон).

Пока неизвестно будет ли это в рамках этого финансирования или дополнительно, скорее дополнительно, S$10.8 миллионов на перевод в вычислительную форму сингапурских законов и иных регуляторных документов. О подходе можно немало узнать из их свежеопубликованной вакансии [4].

Вполне возможно нас скоро ждёт очень интересный результат масштабного исследовательского проекта в сфере legaltech.

[1] https://news.smu.edu.sg/news/2020/03/11/smu-awarded-15-million-grant-computational-law-research
[2] https://legalese.com
[3] https://www.globallegalpost.com/big-stories/singapore-government-commits-$11m-to-fund-legal-tech-research-programme-77990850/
[4] https://docs.google.com/document/d/1wZ1DnmRtXQEOfkfpuXxYqFi5fMK1A7_0QFJDIawQtr0/edit

#law #lawasacode #digital #government #singapore #legaltech
Во Франции законодатели приняли закон об удалении контента связанного с терроризмом или педофилией в течении 1 часа после получения уведомления от регулятора [1], для остальных видов нежелательного контента срок составляет 24 часа. Причём, в первую очередь, это касается международных компаний таких как Facebook, Twitter, Instagram, YouTube и других, поскольку штрафы рассчитываются в 4% от глобального дохода компании.

Закон довольно сильно похож на NetzDG [2], германский закон о защите от hate speech в котором установлены штрафы до 50 миллионов евро за его нарушения и также направленный против интернет-гигантов и крупнейших платформ.

Это важное отличие в регулировании в России и странах Европейского союза. Российское регулирование заточено под штрафы мелких местных компаний, фактически подталкивая крупных к нарушениям. А европейское регулирование построено по модели максимально крупных штрафов для крупнейших мировых игроков. Что хуже из этого? Российская модель регулирования в этой области, по сути не работает, а европейская ориентирована на защиту граждан, но не бизнеса, отчего крупнейшие цифровые игроки предпочитают другие юрисдикции, но и это не спасает в ситуации экс-территориального регулирования в ЕС.

[1] https://www.reuters.com/article/us-france-tech-regulation-idUSKBN22P2JU
[2] https://en.wikipedia.org/wiki/Netzwerkdurchsetzungsgesetz

#laws #france #germany #regulation
Латиноамериканское и черное население США, а также женщины и необразованная часть населения - это главные безработные из-за COVID-19, о чём можно прочитать в заметке Towards Data Science [1]. Более всего работу потеряли наименее образованные работники, их безработица выросла с 5.5% до 20% с января по апрель 2020 года.

Неизвестно пока насколько подобная ситуация повторяется по другим странам. Детальная ежемесячная статистика занятости в США [2] даёт довольно много возможностей по анализу данных, но есть риски что и в других странах ситуация может быть похожей.

[1] https://towardsdatascience.com/digging-deeper-into-coronavirus-unemployment-statistics-a17d2e66bf47
[2] https://data.bls.gov/cgi-bin/surveymost?ln

#data #opendata #usa #unemployment
"How COVID-19is changing the world: a statistical perspective" - доклад ООН и десятка других международных агентств о том как пандемия COVID-19 меняет мир с точки зрения статистики [1]. Много разных срезов и взглядов на мир, с точки зрения рабочей силы, государственного долга, ВВП, образования и многого другого.

Конечно, важно помнить что средние цифры по миру и даже по странам - это взгляд сверху и на гипер-локальном уровне последствия могут быть как лучше так и хуже, но и понимать всё что творится в мире также важно.

Доклад хорошо подан визуально, содержит много интересного и всячески полезен в понимании того на какие стороны нашей жизни пандемия влияет, даже если мы этого сразу не замечаем.

[1] https://unstats.un.org/unsd/ccsa/documents/covid19-report-ccsa.pdf

#dataviz #un #data #reports #covid19
У Юрия Синодова (@sinod) годный наброс про состояние текущих медиа [1].

Я именно про медиа, а не про журналистику, потому что с журналистикой у нас большая беда, конечно.

Лично мне более всего в текущей журналистике, особено в деловой, более всего не нравится:
1. Уход в сторону кликбейтовых "отглагольных" заголовков.
2. Резкое падение качества, и не-политических расследований, и инсайдов с рынка.
3. Избегание конфликтов и попытки сохранять со всеми ровные отношения приводит к тому что ключевые новости рынка не появляются.
4. Отсутствие жесткого отстаивания ключевых ценностей и принципов профессии за пределами своих редакций. Та же открытость госорганов/корпораций и тд. нужны, в первую очередь, журналистам для их профессиональной работы. Но слышен ли их голос? Нет.

Зная многое что происходит внутри, общаясь с журналистами и редакторами, я, конечно, понимаю что всё это следствия, а не первопричина болезни.

И тем интереснее почитать и рефлексию Юрия на с его взглядом.

Что ждёт российские медиа в будущем, вот в чём вопрос.

[1] https://roem.ru/15-05-2020/282292/medijnaya-reznya-benzopiloj/

#journalism