Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.26K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
К вопросу о "терминологических спорах". Их тоже очень любят в академической среде и поэтому там регулярно разрабатываются тезаурусы. Тезаурус, практически всегда - это не что-то сделанное на бегу, а полноценный и большой проект.

Пример подобного тезауруса - это HASSET [1], британский справочник по гуманитарным и социальным наукам созданный в рамках UK Data Service. Справочник включает чуть более 11800 терминов отклассифицированных как:
- Preferred Terms (предпочитетельные)
- Use For (UFs) or Non-Preferred Terms (используемые для...)
- Broader Terms (BTs) (широкие)
- Narrower Terms (NTs) (узкие)
- Related Terms (RTs) (связанные)

Справочник представлен как связанные данные и связан со онтологией SKOS [2]

А также его можно получить целиком по ссылке [3].

Другой пример профессионально сделанного тезауруса про данные - это тезаурус данных Network of the National Library of Medicine в США [4] где по каждому термину приведены все первоисточники на основе которых он строился и даже при тезаурусе в 70 понятий у него указываются все авторы и составители персонально
---
The Data Thesaurus is the updated eScience Thesaurus which was created by Kevin Read in 2013 and previously resided on the eScience Portal for Librarians (Read et al., 2013). The Thesaurus was rebranded and updated in 2018 by Tess Grynoch for the NNLM RD3 site.
---
Таких примеров ещё много. И не только в области работы с данными, а во всех профессиональных областях. Один и тот же термин в области бухучёта может означать совсем не то же что в регулировании госуслуг, к примеру.

Списки и глоссарии терминов устроены так что ты или делаешь их "тяп-ляп", например делаешь сайт по какой-то теме и выводишь их списком, либо придумываешь свои термины или интерпретацию с прицелом на то что они стали общепринятыми, либо подходишь к этому профессионально и описываешь каждый термин в модели полноценной базы данных тезауруса.

Ссылки:
[1] https://hasset.ukdataservice.ac.uk
[2] https://lod.data-archive.ac.uk/v2-skoshasset/page/en-GB/
[3] https://hasset.ukdataservice.ac.uk/hasset-guide/obtaining-hasset.aspx
[4] https://nnlm.gov/data/thesaurus

#terms #data #glossary
В рубрике интересных проектов на данных, о данных, публикующих данные Open Terms Archive [1] архив условий использования в виде коллекций условий использования, API, наборов данных и метаданных.

Включает такие коллекции как:
- Generative AI
- Platform Governance Archive
- P2B Compliance
- France Élections
- Dating
- France
- Contrib

Все коллекции хранятся на Github'е с автоматическим отслеживанием изменений и хранением всех версий в Git.

Проект отмеченный на многих международных площадках и даже зарегистрированный как Digital Public Good

Ссылки:
[1] https://opentermsarchive.org
[2] https://github.com/OpenTermsArchive

#datasets #opendata #opensource #terms #privacy #bigtech