Ivan Begtin

По данным из Study on data sharing between companies in Europe [1], исследования по обмену данных в странах Евросоюза в EU присутствует:
- 255 000 компаний поставщиков данных
- 661 000 компаний потребителей данных и продуктов на их основе

В исследовании также немало цифр и анализа того как устроен рынок данных в Евросоюзе, в том числе и его расширительная трактовка на все компании компании которые встраивают сбор данных в свои продукты. К рынку данных относят рынки "Умного сельского хозяйства" и, например, рынки автопроизводителей встраивающих сбор данных в автомобили.

Также там неплохо перечислены основные механизмы обмена данными между компаниями.
Это такие способы как:
- продажа (монетизация) данных
- площадки продажи данных (data markets)
- индустриальные дата платформы
- использование технологических сервисов предоставления данных (technical enablers)
- политика открытых данных

Это большое и интересное исследование о котором я напишу ещё подробнее позже.

Ссылки:
[1] https://publications.europa.eu/en/publication-detail/-/publication/8b8776ff-4834-11e8-be1d-01aa75ed71a1/language-en

#datamarket #data

op.europa.eu

Study on data sharing between companies in Europe : final report.

B2B data sharing and re-use can be generally understood as making data available to or accessing data from other companies for business purposes. As detailed in this report, data sharing in a business-to-business context can take different forms: from unilateral…

971 viewsIvan Begtin, 07:54

Ivan Begtin

Каков размер рынков данных? В обзоре OnAudience Global Data Market Size 2016-2018 он измеряется в 18,2 миллиарда долларов США на 2018 год. Это значительно меньше 65 миллиардов евро размера рынка в Европе по оценке Lisbon Group, к примеру, и методология OnAudience не проясняет как они получили их цифры.

Однако даже если считать эту оценку консервативной, то 1 миллиард долларов размер рынка в России, в отчёте OnAudience - это хорошая минимальная оценка объёма рынка данных в России.

Ссылки:
[1] https://www.onaudience.com/files/Global_Data_Market_Size_OnAudience_Report.pdf

#data #datamarket

1.0K viewsIvan Begtin, 06:01

Ivan Begtin

В NYT статья об огромном, не самом публичном, и довольно скрытом от публики бизнесе разметки данных (data labeling) [1]. До сих пор часто и очень часто выгоднее нанять сотни низкоооплачиваемых сотрудников которые вручную проверят данные по очень базовым правилам чем разрабатывать алгоритмы которые будут делать это автоматически. Да и алгоритмы надо на чём-то тренировать, здесь никак не обойтись без ручной работы.

Основной рынок разметки данных связан с английским языком поэтому неудивительно что он развивается в Индии, где с одной стороны английский на базовом уровне знают многие, а с другой найм людей обходится недорого. Впрочем для других задач, связанной с разметкой изображений, возможно подобное и в других странах.

Подобная разметка также актуальна для тех задач которые не требуют реального времени в принятии решений. Например, разметка объектов на спутниковых снимках или же, расшифровка аудиозаписей.

Ссылки:
[1] https://www.nytimes.com/2019/08/16/technology/ai-humans.html

#data #datalabeling #datamarket

NY Times

A.I. Is Learning From Humans. Many Humans. (Published 2019)

Artificial intelligence is being taught by thousands of office workers around the world. It is not exactly futuristic work.

2.0K viewsIvan Begtin, 06:52

Add a comment

Ivan Begtin

Среди многочисленных проектов и бизнесов на данных, особо интересны имеющие качественное отраслевое применение, даже если сама бизнес модель совсем не про данные.

Molbase - китайский стартап [1], маркетплейс продажи и покупки химических компонентов. Объединяет спрос и предложения от малых и средних китайских компаний на химические вещества совершенно любого типа. У маркетплейсов своя понятная ниша и, казалось бы, ну что тут можно добавить, но вот создатели Molbase добавили базу знаний по всем продаваемым компонентам, поиск по видам и типам химических веществ, по формулам, химической структуре и так далее.

В декабре они вышли на IPO и сейчас их капитализация $205.9 миллиона [2], а бизнес модель построена на автоматизации хранения и логистики и заявленное число клиентов составляет 94 тысячи покупателей и 33 тысячи продавцов [3].

При этом особенный акцент во всех публичных материалах именно на данные и на искусственный интеллект, с рекомендательными возможностями.

Ссылки:
[1] https://molbase.com
[2] https://craft.co/molecular-data/metrics
[3] http://investor.molbase.com/static-files/d06191ae-4466-449d-a56f-ff27faf808d0

#data #datamarket

Molbase

MOLBASE | Chemical Search and Share

Search, Free Inquiry, Enhanced encyclopedia. MOLBASE is one of the largest integrated platforms for chemical e-commerce.

1.6K viewsIvan Begtin, 11:39

Add a comment

Ivan Begtin

Блеск и нищета бирж торговли данными, за всё время существования множества стартапов в этой нише, большая часть не выживает. Например, в Европейском каталоге DataLandscape перечислено 14 компаний [1]. Часть из них официально закрылись, часть отключили сайты и продукты и ещё часть, на самом деле, не про биржу данных. Относительно живым выглядит только Davex [2]. Они хотя и предлагают продукт на глобальном рынке данных, но куда больше веры в том что бизнес модель у них через создание и поддержку отраслевых проектов, вроде портала торговли данными в Японии JDEX [3]

За последние пару лет я много думал о возможности существования такой бизнес модели, в принципе, и пришёл к выводу что у неё может быть всего два выхода:
1. Инфраструктурная
Когда владелец биржи данных предоставляет услугу создания озер данных или хранилищ данных для корпораций и далее, как опцию, даёт возможность своими данными торговать на его же инфраструктуре. Вне зависимости от коммерческой успешности участников торгов владелец инфраструктуры выигрывает за счёт того участники используют его технические ресурсы и платят за них.

2. Отраслевая
Когда есть, или биржа, или сильная отраслевая ассоциация или влиятельный регулятор которые запускают биржу данных от своего имени. Регуляторы пока смотрят на это с большой осторожностью, отраслевые ассоциации часто не могут договориться у себя внутри, а пример бирж, это игра на уже сложившемся рынке торговли данными в финансовой сфере, там есть много глобальных и национальных игроков. Но есть и примеры, например, Nasdaq, купивший Quandl [4], и JDEX [5] запущенный Davex с крупным японским холдингом Kanematsu.

Есть ли другие успешные примеры? По моему опыту они только на рынке альтернативных данных для финансовых рынков, тот же Quandl и другие сервисы. Специфика данных как продукта в том что их владельцы (data holders) готовы продавать их через кого-то только в случае уверенности доступа к большой аудитории, в остальных случаях возникает слишком много рисков во взаимодействии с платформой.

И, конечно, самые востребованные и постоянно торгуемые данные о потребительском поведении находятся в "серой зоне". Ими торгуют все, сервисы слежки, аналитические сервисы, производители мобильных приложений и тд., но мало кто публично.

Ссылки:
[1] https://datalandscape.eu/companies?f%5B0%5D=field_action_area%3A7
[2] https://www.dawex.com
[3] https://www.dawex.com/en/news/japan-data-exchange-data-community/
[4] https://www.quandl.com
[5] https://www.jdex.jp

#data #datamarket #dataexchanges

Dawex

Data Exchange technology for data sourcing, acquisition & sharing

Orchestrate your data exchanges with Dawex: discover Data Marketplace and Data Exchange technologies awarded World Economic Forum Tech Pioneer 2020.

1.4K viewsIvan Begtin, edited 06:51

Ivan Begtin

Коллекция полезных размышлений о том как считать ROI у команд работающих с данными [1] [2] [3] и о разнице в работе между data engineer, data scientist, analytics engineer, data analyst и machine learning scientist. Размышления полезны, и с точки зрения стратификации задач, и с точки зрения понимания как оценивать результат от каждого специалиста.

Например, ставить KPI дата-инженеру или analytics engineer довольно бессмысленно, инженеры работают на основе тикетов, можно обеспечивая работу систем и инфраструктуры. А вот работу data scientist'ов можно и, некоторые утверждают, обязательно измерять в KPI.

Но, здесь конечно, надо оговориться что всё это ролевое разделение в первую очередь относится к in-house командам, включая команды на аутстаффе. Для команд которые работают как внешние подрядчики существуют разные KPI для заказчики и внутри для руководства.

Ссылки:
[1] https://medium.com/data-monzo/how-to-think-about-the-roi-of-data-work-fc9aaac84a3c
[2] https://benn.substack.com/p/method-for-measuring-analytical-work?r=7f8e7
[3] https://hex.tech/blog/data-team-roi

#data #datamarket #roi #kpi

Medium

How to think about the ROI of data work

In a way that makes you look smarter than your boss

1.2K viewsIvan Begtin, 09:04

Ivan Begtin

Свежая схема THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE [1] в виде PDF файла и в интерактивном режиме. Выглядит любопытно, особенно интерактивная версия [2] поскольку в ней есть ссылки и дополнительная информация о продуктах.

При этом, скажу честно, я лично уже порядком устал смотреть на такие картинки, они пухнут год от года, реальной картины не дают, а скорее создают некий визуальный антураж структуре рынка.

Можно ли делать похожее по смыслу, но приятнее визуально? вот в чём вопрос.

Ссылки։
[1] https://mattturck.com/mad2023/
[2] https://mad.firstmarkcap.com/

#datamarket #datatools #dataproducts #visual

2.4K viewsIvan Begtin, 05:49

Ivan Begtin

Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft

А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.

Правда этот список на 6 сентября и явно будет расти постепенно.

Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349

#regulation #eu #datamarket #digital

1.8K viewsIvan Begtin, edited 07:56

About

Blog

Apps

Platform