Ivan Begtin
9.1K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я не так давно размышлял и писал про сложности того как некоммерческие проекты превращаются в коммерческие, когда какой-то open source продукт превращается его командой в SaaS сервис и сейчас наблюдаю подобное в области веб-архивации. Оказывается команда Webrecord в 2024 создала SaaS сервис Browsertrix [1] на базе одноимённого open source продукта по архивации сайтов. Ценник там не то чтобы сильно кусается, начинается с $30 в месяц, но, есть нюансы. Главный из них в том что конкурируют они сами с собой. У них есть довольно неплохой одноимённый движок [2] под AGPL который можно развернуть самостоятельно и сохранить свои веб-сайты.

С одной стороны это хорошая новость, а с другой это сложно сочетается с тем что они много создавали открытого кода по работе с WARC файлами и создали стандарт WACZ для более продвинутой архивации сайтов.

С точки зрения устойчивости проекта и бизнеса я их прекрасно понимаю, а с точки зрения пользователя их кода немного опасаюсь.

Хороших открытых продуктов по веб-архивации мало и они становятся коммерческими всё более и более(

Ссылки:
[1] https://webrecorder.net/browsertrix/
[2] https://github.com/webrecorder/browsertrix

#digitalpreservation #webarchives
3👍1
Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.

Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.

В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.

Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.

В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.

Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter

#digitalpreservation #webarchives #opendata
5👍3