Ivan Begtin

Роботы, роботы... Тысячи индусов у камер наблюдения и отслеживание работы сотрудников магазинов и ограблений. В Vice статья о Live Eye [1], компании которая подключает магазины к системе наблюдения за сотрудниками и сотрудники в конце дня отчитываются о всех действиях на камеру. А также там же про пример того как удалённый наблюдающий из динамиков угрожает вызвать полицию во время ограбления.

Статья скорее осуждающая, и я согласен в том что такая слежка 24/7 некомфортна для работников. Но каким будет её развитие? То же самое будут делать алгоритмы, автоматически определяющие что идёт ограбление магазина или иная экстренная ситуация.

Ссылки:
[1] https://www.vice.com/en/article/4avnnn/a-cctv-company-is-paying-remote-workers-in-india-to-yell-at-armed-robbers

#tech #surveillance

Vice

A CCTV Company Is Paying Remote Workers in India to Yell at Armed Robbers

Clerks at 7-Eleven and other convenience stores are being constantly monitored by a voice of god that can intervene from thousands of miles away.

1.66K viewsIvan Begtin, 11:57

Ivan Begtin

Сегодня с 12 часов модерирую круглый стол на ЦИПР
.
Ссылка на трансляцию 12:00 -13:30 “Экономика данных. Цифровое ускорение глобального сотрудничества”: https://youtu.be/H3NFpg040Ek

#data #datamarkets

1.62K viewsIvan Begtin, 08:18

Ivan Begtin

Forwarded from Ассоциация участников рынка данных

Вышел доклад AI Watch - National strategies on Artificial Intelligence: A European perspective, 2021 edition [1] о инициативах ИИ в странах Евросоюза на основе базы данных EC-OECD.

Интересного там немало и, конечно же, практически все инициативы пересекаются с рынком данных на котором основан рынок ИИ.

Прямая ссылка на доклад [2]

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC122684
[2] https://publications.jrc.ec.europa.eu/repository/bitstream/JRC122684/ai_watch_report_national_ai_strategies.pdf

#data #eu #regulation

JRC Publications Repository

AI Watch - National strategies on Artificial Intelligence: A European perspective, 2021 edition

Artificial intelligence (AI) is transforming the world in many aspects. It is essential for Europe to consider how to make the most of the opportunities from this transformation and to address its challenges. In 2018 the European Commission adopted the Coordinated…

1.45K viewsIvan Begtin, 09:51

Ivan Begtin

В рубрике интересные наборы данных полный слепок данных с портала открытых данных Минкультуры России [1]. Всего 63 набора данных общим объёмом в архивной виде в 15.8 гигабайт, в формате JSON. Описание на хабе открытых данных [2].

Наибольший объём в архиве у госкаталога музейного фонда [3].

Зачем создан архив?
1) Для долгосрочного сохранения в виду частичного ухода команды в Минкультуры отвечавшей за открытость данных. На случай если они начнут исчезать с портала данных Минкультуры РФ.
2) Для возможности удобной выгрузки данных автоматизировано - достаточно взять значения из csv или json файла списка, добавить расширение .zip и выкачать по прямым ссылкам
3) Архивы каждого набора данных включают все версии набора данных и можно отследить изменения если есть такое желание.

Если Вы знаете наборы данных которые могут исчезнуть, находятся в зоне риска и тд. то пишите мне, они будут включены в план архивации и сохранены.

Ссылки:
[1] https://opendata.mkrf.ru
[2] https://hubofdata.ru/dataset/opendatamkrfru-archive
[3] https://cdn.ruarxive.org/public/datacollect/opendata.mkrf.ru/packages/7705851331-museum-exhibits.zip

#opendata #opengov #datasets

1.81K viewsIvan Begtin, 18:48

Ivan Begtin

Продолжая тему городов и данных о них, проект Metroverse [1] навигатор по городской экономике нескольких сотен городов по всему миру, включая российские. Создан в Growth lab [2], Центр международного развития в Гарварде.

Данные о экономике у них из Dun and Bradstreet’s World Base, насколько это близко к российской реальности сказать не возьмусь.

А сам проект по визуализации и подходу очень похож на Atlas of Economic Compexity [3] , также происходящий из Гарварда и оценивающие экспорт и импорт стран для понимания структуры экономики.

Ссылки:
[1] https://metroverse.cid.harvard.edu
[2] https://growthlab.cid.harvard.edu
[3] https://atlas.cid.harvard.edu

#opendata #data #cities #dataviz

metroverse.hks.harvard.edu

Metroverse | Harvard Growth Lab

2.08K viewsIvan Begtin, 18:01

Ivan Begtin

А вот и свежая новость о том что развитие очередной государственной информационной системы "Работа в России" пойдёт в сторону конкуренции с HeadHunter'ом, SuperJob'ом и так далее [1]

У меня всегда двоякое отношение к таким инициативам. Как человеку работающему с большим объёмом разных данных - это всегда интересно получить в руки большой набор данных и данные из госсистем получить легче чем из частных.

А как предприниматель и человек возглавляющий Ассоциацию предпринимателей по работе с данными (АУРД) не могу не отметить что чем больше государства на зрелых конкурентных не монопольных, а вполне живых рынках - тем хуже этим рынкам.

Ссыски:
[1] https://www.iksmedia.ru/news/5840066-Prezident-podpisal-zakon-o-edinoj.html

#opendata #opengov #data #jobs #fgis

Ассоциация участников рынка данных

Пишем о рынке данных в России. http://aurd.ru

1.47K viewsIvan Begtin, edited 07:21

Ivan Begtin

Тем временем в Великобритании рапортуют о 500 тысячном расшифрованном геноме вируса [1] и новой технологии ускоренной расшифровки геномов вариантов вируса [2]. А также о том что правительство готово помогать другим странам в развертывании этой технологии.

Интересно выложат ли всю эту базу данных в открытый доступ в этом году? Думаю да

Ссылки:
[1] https://www.gov.uk/government/news/uk-surpasses-500000-coronavirus-covid-19-tests-genomically-sequenced
[2] https://www.gov.uk/government/news/groundbreaking-new-technology-to-detect-known-variants-of-concern

#data #covid19

GOV.UK

UK surpasses 500,000 coronavirus (COVID-19) tests genomically sequenced

More than half a million positive COVID-19 samples have been genomically sequenced, cementing the UK’s status as a world leader in genomics.

1.61K viewsIvan Begtin, 11:49

Ivan Begtin

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

7 июля в 15:00 проводим экспертную сессию "Подходы к общественному контролю государственных и муниципальных закупок".

Аналитики и команда проекта "Госзатраты" представят на семинаре:

- концепцию модуля "Контроль" (направленного на повышение прозрачности системы госзакупок в России путем формирования, обнародования и развития базы закупок/контрактов, потенциально содержащих признаки недолжных приемов и практик);

- методику выявления контрактов для контроля (источники и объекты рисков, категории рисков).

Подробнее о мероприятии по ссылке: https://infoculture.timepad.ru/event/1687385/ (мероприятие экспертное, поэтому для регистрации необходимо указывать организацию)

infoculture.timepad.ru

Подходы к общественному контролю государственных и муниципальных закупок / События на TimePad.ru

7 июля 2021 года в 15:00 состоится экспертная сессия «Подходы к общественному контролю государственных и муниципальных закупок».

1.28K viewsIvan Begtin, 17:01

Ivan Begtin

Свежая полезная книга Introduction to Modern Statistics [1] доступна онлайн под Creative Commons и за небольшие деньги можно заказать её в бумаге на сайте OpenIntro [2]. Сама книга/руководство как раз является частью проекта OpenIntro по повышению доступности качественных руководств по статистике и математике, а OpenIntro - это НКО в США [3]. За 2020 год они получили пожертвований на $63 тысячи [4] что очень немного с одной стороны, а с другой показывает что можно, в каком-то смысле, создавать качественные продукт для студентов и учителей без огромных расходов.

В России куда популярнее пиратство литературы и книги значительно дешевле и доступнее, поэтому, возможно, такое НКО ещё не актуально. А может быть актуально в какой-то другой форме и, на самом деле, в каких то формах существует.

Ссылки:
[1] https://openintro-ims.netlify.app
[2] https://www.openintro.org/book/ims/
[3] https://www.openintro.org
[4] https://www.causeiq.com/organizations/openintro,813557916/

#data #math #statistics

openintro-ims.netlify.app

Introduction to Modern Statistics (2e)

1.62K viewsIvan Begtin, 08:31

Ivan Begtin

Facebook запускают [1] собственный сервис рассылки Bulletin [2] и, по факту, вступают в конкуренцию с Substack и Revue, причем Revue был куплен Twitter не так давно.

Лично мне, по прежнему, куда больше по душе Substack где я пишу, реже чем хотелось бы, в собственной рассылке [3], но сам тренд внимания к рассылкам и сервисам подписок весьма интересен.

И, кстати, не могу не отметить что большая часть подписок на госрассылки ужасны. Пресс-службы не умеют с ними работать, а чаще это только и исключительно автоматическая рассылка последних новостей.

Ссылки:
[1] https://www.theverge.com/2021/6/29/22555957/facebook-bulletin-newsletter-subscriptions-substack-competitor
[2] https://www.bulletin.com/
[3] https://begtin.substack.com/

#mailing #tech

The Verge

Facebook announces Bulletin, its Substack newsletter competitor

Writers retain control of their email list and content

1.35K viewsIvan Begtin, 11:24

Ivan Begtin

В рубрике интересных наборов данных 440 записей голосов кошек в разных ситуациях в наборе данных CatMeows: A Publicly-Available Dataset of Cat Vocalizations [1] опубликованном исследователями университета Милана ещё в апреле 2020 года.

Данные записей систематизированы по кошкам, ситуациям, характеристикам животным и другим параметрам.

Записи звуков животных есть и в других коллекциях, например, их много на сервисе FreeSound [2], но без научной систематизации.

Ссылки:
[1] https://zenodo.org/record/4008297
[2] https://freesound.org/

#opendata #datasets

Zenodo

CatMeows: A Publicly-Available Dataset of Cat Vocalizations

Abstract This dataset, composed of 440 sounds, contains meows emitted by cats in different contexts. Specifically, 21 cats belonging to 2 breeds (Maine Coon and European Shorthair) have been repeatedly exposed to three different stimuli that were expected…

1.66K viewsIvan Begtin, 12:23

Ivan Begtin

Продолжая рубрику интересных наборов данных, самое что ни на есть актуальное по COVID-19 - архивы русскоязычных чатов антипривочников. 1,1 млн записей (сообщений чуть меньше), 29к уникальных юзеров. Все данных сохранены в архив Хаба открытых данных [1], а также доступны в первоисточнике [2].

Источник публикации не указал условия распространения набора данных, поэтому он пока помечен как Public Domain.

Набор данных будет интересен многим исследователям социальной сферы во время COVID-19

Ссылки:
[1] https://hubofdata.ru/dataset/covid-19-antichat
[2] https://twitter.com/u_sockeye/status/1409224639713320960?s=09

#datasets #covid19

hubofdata.ru

Архив чатов противников вакцинации от COVID-19 (на 27 июня 2021 г.) - Хаб открытых данных

Набор данных с основными антиваксерскими чатами. 1,1 млн записей (сообщений чуть меньше), 29к уникальных юзеров.
Источник: https://twitter.com/u_sockeye/status/1409224639713320960

1.56K viewsIvan Begtin, 07:01

Ivan Begtin

Дайджест полезного чтения про данные и открытые данные:
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.

Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul

#opendata #datasets #data #datascience

Medium

Why So Many Data Scientists Quit Good Jobs at Great Companies

A look at why the ‘sexiest job of the 21st century’ has lost its appeal

1.47K viewsIvan Begtin, 13:01

Ivan Begtin

В рубрике интересные наборы данных полный слепок наборов данных с портала открытых данных города Москвы data.mos.ru [1].

Слепок включает все метаданные к наборам данных и все версии каждого набора данных опубликованного на портале. Всё 981 набор данных, вместе это около 25ГБ в распакованном виде и 6 ГБ в архивированном виде.

Ссылки:
[1] https://hubofdata.ru/dataset/datamosru-archive

#opendata #archives

hubofdata.ru

Архив наборов данных с портала открытых данных города Москвы - Хаб открытых данных

Архив наборов данных с портала открытых данных города Москвы на 1 июля 2021 года. Включает метаданные, сведения о структуре данных и все версии всех открытых наборов данных

1.47K viewsIvan Begtin, 04:53

Ivan Begtin

Весьма интересная новость и, как раз, затрагивающая весь глобальный бизнес крупных цифровых платформ.

1.34K viewsIvan Begtin, 06:32

Ivan Begtin

Forwarded from ЗаТелеком 🌐

130 стран договорились о введении во всем мире налога для технологических корпораций не менее 15 процентов. Политики расценивают это достижение как самое важное налоговое соглашение за десятки лет, а то и за целый век.
В переговорах о глобальном минимальном налоге для крупных корпораций достигнут прорыв: по данным Организации экономического сотрудничества и развития (ОЭСР), в четверг, 2 июля, 130 стран, на долю которых приходится 90 процентов мировой экономики, договорились о том, что ставка такого налога будет составлять "не менее 15 процентов".

https://m.dw.com/ru/o-vvedenii-globalnogo-cifrovogo-naloga-dogovorilis-130-stran/a-58132242

Deutsche Welle

О введении глобального цифрового налога договорились 130 стран

1.22K viewsIvan Begtin, 06:32

Ivan Begtin

Я регулярно писал о том как многие органы власти "имитируют открытость", вместо открытых данных публикуют что-то другое, не публикуют данные или делают это каким-то особо странным образом вызывающим недоумение.

Вот несколько примеров мимо которых пройти сложно:
- Ростуризм создал специальный сайт для публикации открытых данных opendata.tourism.gov.ru [1] инициатива неплохая и там даже опубликовано 207 наборов данных. Но, они разрезали реестр туроператоров на 85 субъектов федерации и опубликовали по каждому субъекту федерации свой маленький кусочек этого реестра, а также реестр туристических маршрутов разрезали на 10 частей по 10 субъектам федерации. В результате внешне выглядит словно там 207 наборов данных, а по факту их 113. В результате "разрезания" реестра туроператора возникли наборы из 4-х записей [2] и, в целом, выглядит это странно поскольку он реально небольшой, и целиком в реестре содержится 4247 записей, а то есть решение никак не вызванное объёмам публикуемых данных
- У Минюста России, с одной стороны, публикуется 27 наборов открытых данных [3] и даже сразу на портале Data.gov.ru, можно увидеть что некоторые данные начали обновлять и публиковать в конце июня, например "
Список зарегистрированных политических партий" [4], но это все довольно смешно на фоне объёмов данных в информационных системах которыми Минюст РФ управляет. Нет никаких открытых данных из портала НКО Минюста, нет ничего, даже статистических сведений, из системы регистрации нормативных документов. Причём я говорю сейчас только про общедоступные данные создаваемые в рамках основных функций министерства. Иначе говоря если измерять goodwill (добрую волю) органов власти по раскрытию в машиночитаемой форме и так раскрываемых сведений, то Минюст будет в группе "агрессивно сопротивляющихся открытости органах власти", где-то рядом с МВД РФ.
- МВД РФ публикует 21 набор данных, которые даже, теперь время от времени обновляют [5], казалось бы прогресс, но нет. Например, данные по состоянию преступности [6] публикуются не накопительным итогом в виде цельного набора данных, а каждая новая версия набора данных - это срез за период времени. Иначе говоря чтобы собрать статистику преступности целиком, надо выгрузить все версии этого набора данных, но и в этом случае данные будут только с 2014 года. Как будто до этого МВД РФ не существовало, как будто не существовало МВД в СССР, как будто не было полиции в Российской Империи. И это, конечно, далеко не самый главный вопрос, есть немало вопросов о том почему нет данных муниципального уровня, не публикуется реестр участковых, нет никаких данных по функциям МВД переданным им вместе с ФМС, по миграции, да и объёмы расходов на ФГИС МВД несопоставимы с доступностью данных о деятельности министерства.

Я могу продолжать этот список очень и очень долго, анализ открытости любого ведомства или региональных властей идёт от списка полномочий и собираемых данных и реальная ситуация обычно значительно хуже декларируемой или демонстрируемой. В каких-то случаях это легко правится, вроде странной публикации Ростуризмом данных реестра туроператоров, а в каких-то открытость - это однозначно политические решения на уровне Правительства РФ которые с момента роспуска "Открытого правительства" до сих пор не приняты.

Ссылки:
[1] https://opendata.tourism.gov.ru
[2] https://opendata.tourism.gov.ru/7708550300-ReestrRosturizm1B
[3] https://minjust.gov.ru/ru/pages/opendata/
[4] https://data.gov.ru/opendata/7707211418-partii
[5] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5
[6] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/7727739372-sosprestupnost

#opendata #opengov #datasets #data

1.45K viewsIvan Begtin, edited 05:48

Ivan Begtin

Госзакупки не только в России являются предметом пристального внимания.
Особенно в том что касается COVID-19, но не только.

Свежая подборка происходящего в мире (ссылки на английском, испанском и немецком):
- в Мексике выяснили что правительство решило заключить контракт на поставку 35 миллионов китайской вакцины CinoVac с несуществующей швейцарской компанией Latam Pharma Innovative Ventures и по сингапурскому законодательству [1]
- в Великобритании журналисты выясняют почему правительство закупает защитные маски и перчатки по цене на 25% выше рыночной [2]
- в Германии министр транспорта нанял юристов за 175 тысяч евро чтобы ответить на 8 запросов по закону о свободе информации (FOI) про политически спорные транспортные проекты [3]
- в Бразилии уволился министр здравоохранения и был расторгнут контракт на 324 миллионов долларов США на поставку вакцин Covaxin из Индии, после обвинений во взяточничестве [4]
- вакцина AstraZeneca одна из самых популярных в мире и, при этом, оказывается что она выходит дороже для бедных стран. А The Guardian напоминают что 97% стоимости разработки этой вакцины было оплачено налогоплательщиками Великобритании [5]
- в Коста-Рике вскрылось что строительные компании давали взятки наличными, автомобилями, землёй и сексом в обмен на преференции по госконтрактам [6] и их же обвиняют в использовании бракованного асфальта на 125 миллиона долларов.

Ссылки:
[1] https://www.univision.com/univision-news/latin-america/mexico-signed-a-contract-for-35-million-doses-of-chinas-cansino-vaccine-with-nonexistent-company
[2] https://bylinetimes.com/2021/06/21/how-much-did-we-pay-for-ppe-data-the-government-doesnt-want-to-reveal/
[3] https://www.tagesspiegel.de/politik/minister-intransparenz-andreas-scheuer-und-die-sieben-heiklen-fragen-zur-pkw-maut/27240086.html
[4] https://www.theguardian.com/world/2021/jun/29/brazil-cancels-covaxin-contract-after-serious-accusations-of-irregularities
[5] https://www.theguardian.com/world/2021/jun/17/astrazeneca-vaccine-price-pledge-omits-some-poor-countries-contract-shows
[6] https://www.france24.com/es/minuto-a-minuto/20210616-costa-rica-%C3%BAltimo-pa%C3%ADs-latinoamericano-salpicado-en-caso-de-corrupci%C3%B3n-en-obras-p%C3%BAblicas
[7] https://www.nacion.com/el-pais/empresas-encubrieron-asfalto-defectuoso-en/3DOPPKV3J5ACLKSPZRP3WXDPTI/story/

#procurement #corruption #spending

Univision

Mexico signed a contract for 35 million CanSino vaccines with a nonexistent company

A company with four employees, based out of an office in Switzerland and formed only after signing the contract with Mexico, is charged with packing and distributing 35 million doses of the controversial CanSino vaccine for the Mexican people. The president…

1.54K viewsIvan Begtin, 06:44

Ivan Begtin

Вы меня не спрашивали, но я отвечаю (с)

Чем я занимаюсь вот уже более месяца?

Я развиваю APICrafter [1]. Это наш коммерческий сервис доступа к API госзакупок, ЕГРЮЛ, бух. балансов юр. лиц и иным сведениям, в первую очередь для юр. лиц. В течение июля наша команда запустит большой каталог данных, в виде сотен гигабайт данных, доступных через API который будет гибридным: коммерческим для коммерческих потребителей и некоммерческих для некоммерческих пользователей. Это продукт который я отложил на 2 года, но, ещё тогда всё было готово, не было лишь интерфейса для пользователей. Пришло время его доделать и выводить на рынок.

Сейчас он находится в режиме бета тестирования, часть данных не имеющих коммерческой ценности можно скачать целиком или пользоваться API без ключа и авторизации. Часть данных доступны только после регистрации по ключу.

В целом же это такой специальный каталог первичных данных с прибамбасами, когда разные первичные данные приведены к единому формату.

Зачем такой продукт нужен?
1. Заполнять внутрикорпоративные и учебные озёра данных уже подготовленными и унифицированными датасетами.
2. Создавать собственные сервисы поверх API, например для сбора информации о юр. лицах

Он не заменяет сервисы проверки контрагентов, но предосталяет ингредиенты для самостоятельного сбора информации о компании: ЕГРЮЛ, закупки и контракты, реестры, архивные контракты, отчеты и иные сведения. В общем и целом -возможность "пробить" юридическое лицо по сотням общедоступных баз данных.

Проект так и появился изначально, как внутренний банк данных на основе которого можно создавать и создаются новые дата-продукты, а в его основе те работы по сбору данных которые мы делали в рамках проектов Госзатраты, Открытые НКО и ещё ряде других которые пока/ещё не стали публичными.

Если Вы хотите стать бета-тестером, попробовать API и так далее напишите мне на ibegtin@infoculture.ru кто Вы, какую компанию/оргаизацию/проект представляете и немного о том что ищете, и я пришлю доступ. С просьбой лишь не распространять ссылку на проект публично до его анонса.

Ссылки:
[1] https://apicrafter.ru

#opendata #data #datacatalogs

1.73K viewsIvan Begtin, 06:10

Ivan Begtin

ASEAN Data Management Framework [1] выл утверждён ещё в январе 2021 года [1] как набор рекомендаций для бизнеса и стран участников ASEAN по гармонизации их законодательства по регулированию и работе с персональными и коммерческими данными. Фреймворк довольно таки верхнеуровневый, как и большинства документов международной бюрократии, впрочем полезен для понимания того как развивается межстрановое регулирование в мире.

И вот некоторые оценки которые там приводятся:
- общий объём цифровой экономики в мире 3 триллиона долларов (на 2016 год)
- совокупный объём интернет экономики в ASEAN 72 миллиарда долларов (на 2018 год)
- ожидается что к 2025 году её объём составит 2025 миллиардов долларов

Важно что они делают акцент на важности инвентаризации данных.

Ссылки:
[1] https://asean.org/storage/2-ASEAN-Data-Management-Framework_Final.pdf

#opendata #data #asean #datamanagement

1.38K viewsIvan Begtin, 07:59

About

Blog

Apps

Platform