Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
❤5👍3
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
❤7👍2