В рубрике интересных наборов данных The World Loanword Database (WOLD) [1] в виде базы заимствованных слов. Создатели из Института эволюционной антропологии им. Макса Планка собрали базу слов которые одни языки заимствуют из других на основе 41 источника публикаций исследователей лингвистов. В основном в базе слова заимствованные небольшими и вымирающими языками из языков более распространённых, но для специалистов в лингвистике и это может быть интересно. Общий объёмы базы невелик, около 3.5 мегабайт в ZIP архиве и 15 МБ в распакованном виде.
У Института им. Макса Планка есть плеяда проектов по компьютерной лингвистике с открытыми данными [3] включая такие проекты как: The World Atlas of Language Structures, Glottolog, Tsammalex, Dictionaria и многие другие. Во всех случаях данные публикуются, либо на сайте проекта, либо на портале Zenodo.
Ссылки:
[1] https://wold.clld.org/
[2] https://wold.clld.org/download
[3] https://clld.org/
#opendata #data #openaccess #liguistic
У Института им. Макса Планка есть плеяда проектов по компьютерной лингвистике с открытыми данными [3] включая такие проекты как: The World Atlas of Language Structures, Glottolog, Tsammalex, Dictionaria и многие другие. Во всех случаях данные публикуются, либо на сайте проекта, либо на портале Zenodo.
Ссылки:
[1] https://wold.clld.org/
[2] https://wold.clld.org/download
[3] https://clld.org/
#opendata #data #openaccess #liguistic
clld.org
CLLD - Cross-Linguistic Linked Data