Ivan Begtin
9.08K subscribers
2.54K photos
4 videos
114 files
5.32K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]

Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.

Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.

Ссылки։
[1] https://t.me/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://t.me/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats

#startups #data #opendata
👍10🕊1
Архивы интернета

Все знают главный архив интернета – web.archive.org. Цель сервиса – сохранить вид всей мировой сети в каждый момент времени. Идеально эту задачу решить невозможно, но web.archive к этому стремится. Главную страницу Гугла он сохранил 13 миллионов раз, главную страницу моего блога – 126 раз.

Чего многие не знают, у интернета есть и второй архив – #стартапдня archive.today с меньшей, но сопоставимой посещаемостью. Его модель гораздо практичнее и, видимо, на много порядков дешевле, чем модель web.archive. Он сохраняет не всё подряд постоянно, а только то, что пользователь просит и только в тот момент, когда он просит. Понравился мне именно сегодняшний вид того же Google – иду на сайт, нажимаю кнопку, – всё, страница ушла в вечность, каждый сможет в будущем её посмотреть.

Любопытный побочный эффект: archive.today иногда работает, как средство халявного просмотра платного контента. Мне этот фокус показали на Business Insider, я проверил случайную статью на Financial Times – да, стартап отлично показал полный текст. Сервера газет думали, что общаются с поисковым роботом, а для них секретов нет, СМИ хотят индексироваться по максимуму.

Хочется сказать, что в этом и есть секрет популярности стартапа, но похоже, что нет. С того же Financial Times он индексировал всего 2000 статей за всю историю, это совсем немного на фоне десятков миллионов визитов на archive.today каждый месяц. Не знаю, что обычные посетители там делают. Личные сайты сохраняют? Зачем?...

Archive.today делается одним энтузиастом. Зарабатывает он донатами и, видимо, не окупает хостинг, но уверенно пишет – деньги есть, работать будем, убыток есть кому закрыть. И больше десяти лет действительно уже работает.

https://archive.ph/

#контент #насвои

——
http://t.me/startupoftheday — рассказ о новом стартапе каждый день. Кратко и без воды.
👍19🔥5