Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике очень больших датасетов (хотя с чем сравнивать😏) проект The Web Data Commons [1] я о нём писал несколько раз, но всегда можно и повториться. Это проект по сбору и извлечению смысловых данных из поискового индекса Common Crawl. Common Crawl - это бесплатная и открытая альтернатива поисковому индексу Гугла и на его основе делают много чего, датасетов, исследований, продуктов.

В данном случае делают датасеты. Из интересного мне:
- датасеты разметки Schema.org [2]
- датасеты и анализ корпуса таблиц [2]

И там же ещё много датасетов на гигабайты и терабайты данных. Областей применения много, коммерческих и не очень.

Ссылки:
[1] https://webdatacommons.org
[2] https://webdatacommons.org/structureddata/schemaorg/
[3] http://webdatacommons.org/structureddata/schemaorgtables/2023/index.html

#opendata #datasets #web #entityrecognition