Forwarded from Национальный цифровой архив
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].
В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).
Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.
Подробнее в их блоге [2].
Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index
#opendata #webarchives #datasets
В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).
Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.
Подробнее в их блоге [2].
Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index
#opendata #webarchives #datasets