Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных наборов данных The World Loanword Database (WOLD) [1] в виде базы заимствованных слов. Создатели из Института эволюционной антропологии им. Макса Планка собрали базу слов которые одни языки заимствуют из других на основе 41 источника публикаций исследователей лингвистов. В основном в базе слова заимствованные небольшими и вымирающими языками из языков более распространённых, но для специалистов в лингвистике и это может быть интересно. Общий объёмы базы невелик, около 3.5 мегабайт в ZIP архиве и 15 МБ в распакованном виде.

У Института им. Макса Планка есть плеяда проектов по компьютерной лингвистике с открытыми данными [3] включая такие проекты как: The World Atlas of Language Structures, Glottolog, Tsammalex, Dictionaria и многие другие. Во всех случаях данные публикуются, либо на сайте проекта, либо на портале Zenodo.

Ссылки:
[1] https://wold.clld.org/
[2] https://wold.clld.org/download
[3] https://clld.org/

#opendata #data #openaccess #liguistic