Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это устроено у них Единый портал научных данных Республики Корея DataOn [1].

Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.

Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.

Репозиторий был создан в декабре 2018 года и с той поры активно развивается.

Ссылки:
[1] https://dataon.kisti.re.kr/

#opendata #datasets #openaccess #openresearch #datacatalogs #korea
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]

На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.

Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].

Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]

Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393

#datasets #datacatalogs #dataportals #korea #ai #ml
В рубрике как это работает у них, корейский негосударственный агрегатор поисковик по открытым данным Kimi Nine [1] 149 тысяч наборов данных, 11 тысяч API, 39 тысяч слоёв карт и 451 набор больших данных из 54 источников, большая часть источников - это государственные и научные каталоги данных.

Агрегатор заодно даёт картину того как устроена публикация данных в Южной Корее.

Ссылки:
[1] https://gimi9.com

#opendata #korea #datasets