Ivan Begtin
8.09K subscribers
1.51K photos
3 videos
100 files
4.27K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Для тех кто хочет поработать с большими данными оцифрованных газет, Национальная библиотека Люксембурга опубликовала коллекцию датасетов отканированных газет 19-го века [1] сразу в нескольких форматах:
- от 250 мегабайт до 257 гигабайт отсканированных газет, максимальный за 10 лет (1860-1869)
- 2 гигабайта обработанных текстов за 38 лет (1841-1878)
- 125 мегабайт монографий за 228 лет (1690-1918)

Всё это данные высокого качества, с перепроверкой, вычисткой, в международных стандартах METS и ALGO. А также с открытыми лицензиями CC0.

Также на сайте у них есть API, ожидаются другие данные и открытый код публикуется на Github [2]

Можно лишь посетовать что про Россию там скорее всего немного и ничего на русском языке.

Ссылки:
[1] https://data.bnl.lu/data/historical-newspapers/
[2] https://github.com/natliblux

#opendata #openglam #data #libraries
Публикуют ли библиотеки данные? Если, да, то зачем? Британская библиотека (The British Library) опубликовала 274 набора данных [1] в основном в формате CSV и XML. Эти данные включают, например, базу диссертаций в Великобритании [2] или тексты из оцифрованных карт Африки.

Эти наборы данных публикуются как часть работ исследователей библиотеки на портале The British Library's Research Repository [4] где всего размещено 1663 научных материала, включая эти наборы данных.

Многие библиотеки, музеи, исследовательские центры публикуют данные как часть политики открытого доступа, либо создавая отдельные репозитории, либо на централизованных ресурсах таких как Zenodo.

Ссылки:
[1] https://iro.bl.uk/catalog?f%5Bresource_type_label_ssim%5D%5B%5D=Dataset&locale=en&q=&search_field=all_fields
[2] https://bl.iro.bl.uk/concern/datasets/23ac0382-d423-4686-885b-4930040d3ed5
[3] https://bl.iro.bl.uk/concern/datasets/117ed6c1-d9ba-481a-bae6-74d389f6a441
[4] https://bl.iro.bl.uk

#opendata #datasets #libraries