Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто хочет поработать с большими данными оцифрованных газет, Национальная библиотека Люксембурга опубликовала коллекцию датасетов отканированных газет 19-го века [1] сразу в нескольких форматах:
- от 250 мегабайт до 257 гигабайт отсканированных газет, максимальный за 10 лет (1860-1869)
- 2 гигабайта обработанных текстов за 38 лет (1841-1878)
- 125 мегабайт монографий за 228 лет (1690-1918)

Всё это данные высокого качества, с перепроверкой, вычисткой, в международных стандартах METS и ALGO. А также с открытыми лицензиями CC0.

Также на сайте у них есть API, ожидаются другие данные и открытый код публикуется на Github [2]

Можно лишь посетовать что про Россию там скорее всего немного и ничего на русском языке.

Ссылки:
[1] https://data.bnl.lu/data/historical-newspapers/
[2] https://github.com/natliblux

#opendata #openglam #data #libraries
Публикуют ли библиотеки данные? Если, да, то зачем? Британская библиотека (The British Library) опубликовала 274 набора данных [1] в основном в формате CSV и XML. Эти данные включают, например, базу диссертаций в Великобритании [2] или тексты из оцифрованных карт Африки.

Эти наборы данных публикуются как часть работ исследователей библиотеки на портале The British Library's Research Repository [4] где всего размещено 1663 научных материала, включая эти наборы данных.

Многие библиотеки, музеи, исследовательские центры публикуют данные как часть политики открытого доступа, либо создавая отдельные репозитории, либо на централизованных ресурсах таких как Zenodo.

Ссылки:
[1] https://iro.bl.uk/catalog?f%5Bresource_type_label_ssim%5D%5B%5D=Dataset&locale=en&q=&search_field=all_fields
[2] https://bl.iro.bl.uk/concern/datasets/23ac0382-d423-4686-885b-4930040d3ed5
[3] https://bl.iro.bl.uk/concern/datasets/117ed6c1-d9ba-481a-bae6-74d389f6a441
[4] https://bl.iro.bl.uk

#opendata #datasets #libraries