Я не так давно размышлял и писал про сложности того как некоммерческие проекты превращаются в коммерческие, когда какой-то open source продукт превращается его командой в SaaS сервис и сейчас наблюдаю подобное в области веб-архивации. Оказывается команда Webrecord в 2024 создала SaaS сервис Browsertrix [1] на базе одноимённого open source продукта по архивации сайтов. Ценник там не то чтобы сильно кусается, начинается с $30 в месяц, но, есть нюансы. Главный из них в том что конкурируют они сами с собой. У них есть довольно неплохой одноимённый движок [2] под AGPL который можно развернуть самостоятельно и сохранить свои веб-сайты.
С одной стороны это хорошая новость, а с другой это сложно сочетается с тем что они много создавали открытого кода по работе с WARC файлами и создали стандарт WACZ для более продвинутой архивации сайтов.
С точки зрения устойчивости проекта и бизнеса я их прекрасно понимаю, а с точки зрения пользователя их кода немного опасаюсь.
Хороших открытых продуктов по веб-архивации мало и они становятся коммерческими всё более и более(
Ссылки:
[1] https://webrecorder.net/browsertrix/
[2] https://github.com/webrecorder/browsertrix
#digitalpreservation #webarchives
С одной стороны это хорошая новость, а с другой это сложно сочетается с тем что они много создавали открытого кода по работе с WARC файлами и создали стандарт WACZ для более продвинутой архивации сайтов.
С точки зрения устойчивости проекта и бизнеса я их прекрасно понимаю, а с точки зрения пользователя их кода немного опасаюсь.
Хороших открытых продуктов по веб-архивации мало и они становятся коммерческими всё более и более(
Ссылки:
[1] https://webrecorder.net/browsertrix/
[2] https://github.com/webrecorder/browsertrix
#digitalpreservation #webarchives
❤3👍1
Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
❤5👍3