Ivan Begtin
9.1K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Роботы, роботы... Тысячи индусов у камер наблюдения и отслеживание работы сотрудников магазинов и ограблений. В Vice статья о Live Eye [1], компании которая подключает магазины к системе наблюдения за сотрудниками и сотрудники в конце дня отчитываются о всех действиях на камеру. А также там же про пример того как удалённый наблюдающий из динамиков угрожает вызвать полицию во время ограбления.

Статья скорее осуждающая, и я согласен в том что такая слежка 24/7 некомфортна для работников. Но каким будет её развитие? То же самое будут делать алгоритмы, автоматически определяющие что идёт ограбление магазина или иная экстренная ситуация.

Ссылки:
[1] https://www.vice.com/en/article/4avnnn/a-cctv-company-is-paying-remote-workers-in-india-to-yell-at-armed-robbers

#tech #surveillance
Сегодня с 12 часов модерирую круглый стол на ЦИПР
.
Ссылка на трансляцию 12:00 -13:30 “Экономика данных. Цифровое ускорение глобального сотрудничества”: https://youtu.be/H3NFpg040Ek

#data #datamarkets
Вышел доклад AI Watch - National strategies on Artificial Intelligence: A European perspective, 2021 edition [1] о инициативах ИИ в странах Евросоюза на основе базы данных EC-OECD.

Интересного там немало и, конечно же, практически все инициативы пересекаются с рынком данных на котором основан рынок ИИ.

Прямая ссылка на доклад [2]

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC122684
[2] https://publications.jrc.ec.europa.eu/repository/bitstream/JRC122684/ai_watch_report_national_ai_strategies.pdf

#data #eu #regulation
В рубрике интересные наборы данных полный слепок данных с портала открытых данных Минкультуры России [1]. Всего 63 набора данных общим объёмом в архивной виде в 15.8 гигабайт, в формате JSON. Описание на хабе открытых данных [2].

Наибольший объём в архиве у госкаталога музейного фонда [3].

Зачем создан архив?
1) Для долгосрочного сохранения в виду частичного ухода команды в Минкультуры отвечавшей за открытость данных. На случай если они начнут исчезать с портала данных Минкультуры РФ.
2) Для возможности удобной выгрузки данных автоматизировано - достаточно взять значения из csv или json файла списка, добавить расширение .zip и выкачать по прямым ссылкам
3) Архивы каждого набора данных включают все версии набора данных и можно отследить изменения если есть такое желание.

Если Вы знаете наборы данных которые могут исчезнуть, находятся в зоне риска и тд. то пишите мне, они будут включены в план архивации и сохранены.

Ссылки:
[1] https://opendata.mkrf.ru
[2] https://hubofdata.ru/dataset/opendatamkrfru-archive
[3] https://cdn.ruarxive.org/public/datacollect/opendata.mkrf.ru/packages/7705851331-museum-exhibits.zip

#opendata #opengov #datasets
Продолжая тему городов и данных о них, проект Metroverse [1] навигатор по городской экономике нескольких сотен городов по всему миру, включая российские. Создан в Growth lab [2], Центр международного развития в Гарварде.

Данные о экономике у них из Dun and Bradstreet’s World Base, насколько это близко к российской реальности сказать не возьмусь.

А сам проект по визуализации и подходу очень похож на Atlas of Economic Compexity [3] , также происходящий из Гарварда и оценивающие экспорт и импорт стран для понимания структуры экономики.

Ссылки:
[1] https://metroverse.cid.harvard.edu
[2] https://growthlab.cid.harvard.edu
[3] https://atlas.cid.harvard.edu

#opendata #data #cities #dataviz
А вот и свежая новость о том что развитие очередной государственной информационной системы "Работа в России" пойдёт в сторону конкуренции с HeadHunter'ом, SuperJob'ом и так далее [1]

У меня всегда двоякое отношение к таким инициативам. Как человеку работающему с большим объёмом разных данных - это всегда интересно получить в руки большой набор данных и данные из госсистем получить легче чем из частных.

А как предприниматель и человек возглавляющий Ассоциацию предпринимателей по работе с данными (АУРД) не могу не отметить что чем больше государства на зрелых конкурентных не монопольных, а вполне живых рынках - тем хуже этим рынкам.

Ссыски:
[1] https://www.iksmedia.ru/news/5840066-Prezident-podpisal-zakon-o-edinoj.html

#opendata #opengov #data #jobs #fgis
Тем временем в Великобритании рапортуют о 500 тысячном расшифрованном геноме вируса [1] и новой технологии ускоренной расшифровки геномов вариантов вируса [2]. А также о том что правительство готово помогать другим странам в развертывании этой технологии.

Интересно выложат ли всю эту базу данных в открытый доступ в этом году? Думаю да

Ссылки:
[1] https://www.gov.uk/government/news/uk-surpasses-500000-coronavirus-covid-19-tests-genomically-sequenced
[2] https://www.gov.uk/government/news/groundbreaking-new-technology-to-detect-known-variants-of-concern

#data #covid19
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
7 июля в 15:00 проводим экспертную сессию "Подходы к общественному контролю государственных и муниципальных закупок".

Аналитики и команда проекта "Госзатраты" представят на семинаре:

- концепцию модуля "Контроль" (направленного на повышение прозрачности системы госзакупок в России путем формирования, обнародования и развития базы закупок/контрактов, потенциально содержащих признаки недолжных приемов и практик);

- методику выявления контрактов для контроля (источники и объекты рисков, категории рисков).

Подробнее о мероприятии по ссылке: https://infoculture.timepad.ru/event/1687385/ (мероприятие экспертное, поэтому для регистрации необходимо указывать организацию)
Свежая полезная книга Introduction to Modern Statistics [1] доступна онлайн под Creative Commons и за небольшие деньги можно заказать её в бумаге на сайте OpenIntro [2]. Сама книга/руководство как раз является частью проекта OpenIntro по повышению доступности качественных руководств по статистике и математике, а OpenIntro - это НКО в США [3]. За 2020 год они получили пожертвований на $63 тысячи [4] что очень немного с одной стороны, а с другой показывает что можно, в каком-то смысле, создавать качественные продукт для студентов и учителей без огромных расходов.

В России куда популярнее пиратство литературы и книги значительно дешевле и доступнее, поэтому, возможно, такое НКО ещё не актуально. А может быть актуально в какой-то другой форме и, на самом деле, в каких то формах существует.

Ссылки:
[1] https://openintro-ims.netlify.app
[2] https://www.openintro.org/book/ims/
[3] https://www.openintro.org
[4] https://www.causeiq.com/organizations/openintro,813557916/

#data #math #statistics
Facebook запускают [1] собственный сервис рассылки Bulletin [2] и, по факту, вступают в конкуренцию с Substack и Revue, причем Revue был куплен Twitter не так давно.

Лично мне, по прежнему, куда больше по душе Substack где я пишу, реже чем хотелось бы, в собственной рассылке [3], но сам тренд внимания к рассылкам и сервисам подписок весьма интересен.

И, кстати, не могу не отметить что большая часть подписок на госрассылки ужасны. Пресс-службы не умеют с ними работать, а чаще это только и исключительно автоматическая рассылка последних новостей.

Ссылки:
[1] https://www.theverge.com/2021/6/29/22555957/facebook-bulletin-newsletter-subscriptions-substack-competitor
[2] https://www.bulletin.com/
[3] https://begtin.substack.com/

#mailing #tech
В рубрике интересных наборов данных 440 записей голосов кошек в разных ситуациях в наборе данных CatMeows: A Publicly-Available Dataset of Cat Vocalizations [1] опубликованном исследователями университета Милана ещё в апреле 2020 года.

Данные записей систематизированы по кошкам, ситуациям, характеристикам животным и другим параметрам.

Записи звуков животных есть и в других коллекциях, например, их много на сервисе FreeSound [2], но без научной систематизации.

Ссылки:
[1] https://zenodo.org/record/4008297
[2] https://freesound.org/

#opendata #datasets
Продолжая рубрику интересных наборов данных, самое что ни на есть актуальное по COVID-19 - архивы русскоязычных чатов антипривочников. 1,1 млн записей (сообщений чуть меньше), 29к уникальных юзеров. Все данных сохранены в архив Хаба открытых данных [1], а также доступны в первоисточнике [2].

Источник публикации не указал условия распространения набора данных, поэтому он пока помечен как Public Domain.

Набор данных будет интересен многим исследователям социальной сферы во время COVID-19

Ссылки:
[1] https://hubofdata.ru/dataset/covid-19-antichat
[2] https://twitter.com/u_sockeye/status/1409224639713320960?s=09

#datasets #covid19
Дайджест полезного чтения про данные и открытые данные:
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.

Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul

#opendata #datasets #data #datascience
В рубрике интересные наборы данных полный слепок наборов данных с портала открытых данных города Москвы data.mos.ru [1].

Слепок включает все метаданные к наборам данных и все версии каждого набора данных опубликованного на портале. Всё 981 набор данных, вместе это около 25ГБ в распакованном виде и 6 ГБ в архивированном виде.

Ссылки:
[1] https://hubofdata.ru/dataset/datamosru-archive

#opendata #archives
Весьма интересная новость и, как раз, затрагивающая весь глобальный бизнес крупных цифровых платформ.
Forwarded from ЗаТелеком 🌐
130 стран договорились о введении во всем мире налога для технологических корпораций не менее 15 процентов. Политики расценивают это достижение как самое важное налоговое соглашение за десятки лет, а то и за целый век.
В переговорах о глобальном минимальном налоге для крупных корпораций достигнут прорыв: по данным Организации экономического сотрудничества и развития (ОЭСР), в четверг, 2 июля, 130 стран, на долю которых приходится 90 процентов мировой экономики, договорились о том, что ставка такого налога будет составлять "не менее 15 процентов".

https://m.dw.com/ru/o-vvedenii-globalnogo-cifrovogo-naloga-dogovorilis-130-stran/a-58132242
Я регулярно писал о том как многие органы власти "имитируют открытость", вместо открытых данных публикуют что-то другое, не публикуют данные или делают это каким-то особо странным образом вызывающим недоумение.

Вот несколько примеров мимо которых пройти сложно:
- Ростуризм создал специальный сайт для публикации открытых данных opendata.tourism.gov.ru [1] инициатива неплохая и там даже опубликовано 207 наборов данных. Но, они разрезали реестр туроператоров на 85 субъектов федерации и опубликовали по каждому субъекту федерации свой маленький кусочек этого реестра, а также реестр туристических маршрутов разрезали на 10 частей по 10 субъектам федерации. В результате внешне выглядит словно там 207 наборов данных, а по факту их 113. В результате "разрезания" реестра туроператора возникли наборы из 4-х записей [2] и, в целом, выглядит это странно поскольку он реально небольшой, и целиком в реестре содержится 4247 записей, а то есть решение никак не вызванное объёмам публикуемых данных
- У Минюста России, с одной стороны, публикуется 27 наборов открытых данных [3] и даже сразу на портале Data.gov.ru, можно увидеть что некоторые данные начали обновлять и публиковать в конце июня, например "
Список зарегистрированных политических партий" [4], но это все довольно смешно на фоне объёмов данных в информационных системах которыми Минюст РФ управляет. Нет никаких открытых данных из портала НКО Минюста, нет ничего, даже статистических сведений, из системы регистрации нормативных документов. Причём я говорю сейчас только про общедоступные данные создаваемые в рамках основных функций министерства. Иначе говоря если измерять goodwill (добрую волю) органов власти по раскрытию в машиночитаемой форме и так раскрываемых сведений, то Минюст будет в группе "агрессивно сопротивляющихся открытости органах власти", где-то рядом с МВД РФ.
- МВД РФ публикует 21 набор данных, которые даже, теперь время от времени обновляют [5], казалось бы прогресс, но нет. Например, данные по состоянию преступности [6] публикуются не накопительным итогом в виде цельного набора данных, а каждая новая версия набора данных - это срез за период времени. Иначе говоря чтобы собрать статистику преступности целиком, надо выгрузить все версии этого набора данных, но и в этом случае данные будут только с 2014 года. Как будто до этого МВД РФ не существовало, как будто не существовало МВД в СССР, как будто не было полиции в Российской Империи. И это, конечно, далеко не самый главный вопрос, есть немало вопросов о том почему нет данных муниципального уровня, не публикуется реестр участковых, нет никаких данных по функциям МВД переданным им вместе с ФМС, по миграции, да и объёмы расходов на ФГИС МВД несопоставимы с доступностью данных о деятельности министерства.

Я могу продолжать этот список очень и очень долго, анализ открытости любого ведомства или региональных властей идёт от списка полномочий и собираемых данных и реальная ситуация обычно значительно хуже декларируемой или демонстрируемой. В каких-то случаях это легко правится, вроде странной публикации Ростуризмом данных реестра туроператоров, а в каких-то открытость - это однозначно политические решения на уровне Правительства РФ которые с момента роспуска "Открытого правительства" до сих пор не приняты.

Ссылки:
[1] https://opendata.tourism.gov.ru
[2] https://opendata.tourism.gov.ru/7708550300-ReestrRosturizm1B
[3] https://minjust.gov.ru/ru/pages/opendata/
[4] https://data.gov.ru/opendata/7707211418-partii
[5] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5
[6] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/7727739372-sosprestupnost

#opendata #opengov #datasets #data
Госзакупки не только в России являются предметом пристального внимания.
Особенно в том что касается COVID-19, но не только.

Свежая подборка происходящего в мире (ссылки на английском, испанском и немецком):
- в Мексике выяснили что правительство решило заключить контракт на поставку 35 миллионов китайской вакцины CinoVac с несуществующей швейцарской компанией Latam Pharma Innovative Ventures и по сингапурскому законодательству [1]
- в Великобритании журналисты выясняют почему правительство закупает защитные маски и перчатки по цене на 25% выше рыночной [2]
- в Германии министр транспорта нанял юристов за 175 тысяч евро чтобы ответить на 8 запросов по закону о свободе информации (FOI) про политически спорные транспортные проекты [3]
- в Бразилии уволился министр здравоохранения и был расторгнут контракт на 324 миллионов долларов США на поставку вакцин Covaxin из Индии, после обвинений во взяточничестве [4]
- вакцина AstraZeneca одна из самых популярных в мире и, при этом, оказывается что она выходит дороже для бедных стран. А The Guardian напоминают что 97% стоимости разработки этой вакцины было оплачено налогоплательщиками Великобритании [5]
- в Коста-Рике вскрылось что строительные компании давали взятки наличными, автомобилями, землёй и сексом в обмен на преференции по госконтрактам [6] и их же обвиняют в использовании бракованного асфальта на 125 миллиона долларов.

Ссылки:
[1] https://www.univision.com/univision-news/latin-america/mexico-signed-a-contract-for-35-million-doses-of-chinas-cansino-vaccine-with-nonexistent-company
[2] https://bylinetimes.com/2021/06/21/how-much-did-we-pay-for-ppe-data-the-government-doesnt-want-to-reveal/
[3] https://www.tagesspiegel.de/politik/minister-intransparenz-andreas-scheuer-und-die-sieben-heiklen-fragen-zur-pkw-maut/27240086.html
[4] https://www.theguardian.com/world/2021/jun/29/brazil-cancels-covaxin-contract-after-serious-accusations-of-irregularities
[5] https://www.theguardian.com/world/2021/jun/17/astrazeneca-vaccine-price-pledge-omits-some-poor-countries-contract-shows
[6] https://www.france24.com/es/minuto-a-minuto/20210616-costa-rica-%C3%BAltimo-pa%C3%ADs-latinoamericano-salpicado-en-caso-de-corrupci%C3%B3n-en-obras-p%C3%BAblicas
[7] https://www.nacion.com/el-pais/empresas-encubrieron-asfalto-defectuoso-en/3DOPPKV3J5ACLKSPZRP3WXDPTI/story/

#procurement #corruption #spending
Вы меня не спрашивали, но я отвечаю (с)

Чем я занимаюсь вот уже более месяца?

Я развиваю APICrafter [1]. Это наш коммерческий сервис доступа к API госзакупок, ЕГРЮЛ, бух. балансов юр. лиц и иным сведениям, в первую очередь для юр. лиц. В течение июля наша команда запустит большой каталог данных, в виде сотен гигабайт данных, доступных через API который будет гибридным: коммерческим для коммерческих потребителей и некоммерческих для некоммерческих пользователей. Это продукт который я отложил на 2 года, но, ещё тогда всё было готово, не было лишь интерфейса для пользователей. Пришло время его доделать и выводить на рынок.

Сейчас он находится в режиме бета тестирования, часть данных не имеющих коммерческой ценности можно скачать целиком или пользоваться API без ключа и авторизации. Часть данных доступны только после регистрации по ключу.

В целом же это такой специальный каталог первичных данных с прибамбасами, когда разные первичные данные приведены к единому формату.

Зачем такой продукт нужен?
1. Заполнять внутрикорпоративные и учебные озёра данных уже подготовленными и унифицированными датасетами.
2. Создавать собственные сервисы поверх API, например для сбора информации о юр. лицах

Он не заменяет сервисы проверки контрагентов, но предосталяет ингредиенты для самостоятельного сбора информации о компании: ЕГРЮЛ, закупки и контракты, реестры, архивные контракты, отчеты и иные сведения. В общем и целом -возможность "пробить" юридическое лицо по сотням общедоступных баз данных.

Проект так и появился изначально, как внутренний банк данных на основе которого можно создавать и создаются новые дата-продукты, а в его основе те работы по сбору данных которые мы делали в рамках проектов Госзатраты, Открытые НКО и ещё ряде других которые пока/ещё не стали публичными.

Если Вы хотите стать бета-тестером, попробовать API и так далее напишите мне на ibegtin@infoculture.ru кто Вы, какую компанию/оргаизацию/проект представляете и немного о том что ищете, и я пришлю доступ. С просьбой лишь не распространять ссылку на проект публично до его анонса.

Ссылки:
[1] https://apicrafter.ru

#opendata #data #datacatalogs
ASEAN Data Management Framework [1] выл утверждён ещё в январе 2021 года [1] как набор рекомендаций для бизнеса и стран участников ASEAN по гармонизации их законодательства по регулированию и работе с персональными и коммерческими данными. Фреймворк довольно таки верхнеуровневый, как и большинства документов международной бюрократии, впрочем полезен для понимания того как развивается межстрановое регулирование в мире.

И вот некоторые оценки которые там приводятся:
- общий объём цифровой экономики в мире 3 триллиона долларов (на 2016 год)
- совокупный объём интернет экономики в ASEAN 72 миллиарда долларов (на 2018 год)
- ожидается что к 2025 году её объём составит 2025 миллиардов долларов

Важно что они делают акцент на важности инвентаризации данных.


Ссылки:
[1] https://asean.org/storage/2-ASEAN-Data-Management-Framework_Final.pdf

#opendata #data #asean #datamanagement