Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Германские исследователи Corinna Kroeber и Tobias Remschel собрали набор данных всех публикаций Германского парламента (Бундестага) с 1949 по 2017 годы и опубликовали в формате удобном для последующей текстовой обработки языком R - " Every single word - A new dataset including all parliamentary materials published in Germany " [1]. Объём набора данных в сжатом виде около 1.2 гигабайт и более 131 тысячи документов включающих текст, даты, сведения об авторах и тд.

Этот набор данных скомпилирован из ранее публиковавшихся материалов германского парламента [2].

Итоговая научная работа на основе этих данных вышла в издании Government and Opposition [3] в декабре 2020 года.

Ранее, другие исследователи, Christian Rauh и Jan Schwalbach, публиковали набор данных The ParlSpeech V2 data [4] включающем 6 миллионов выступлений в парламентах 9 стран за периоды от 21 до 32 лет и общий объём набора данных составляет 8.5 гигабайт в сжатом виде.

Обращу внимание на хорошую подготовку этих наборов данных, детальное описание всех метаданных, не избыточное, не недостаточное, а ровно необходимое документирование и привязку к научным исследованиям в рамках которых данные наборы данных создаются.

Эти данные публикуются на таких платформах как DataVerse, Zenodo и многих других в рамках долгосрочной политики Европейского союза по повышению доступности научных знаний. Открытые данные являются продолжение инициатив Open Access и результатом совместной работы нескольких исследовательских центров.

Ссылки:
[1] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7EJ1KI
[2] https://www.bundestag.de/services/opendata
[3] https://www.cambridge.org/core/journals/government-and-opposition/article/every-single-word-a-new-data-set-including-all-parliamentary-materials-published-in-germany/34D424C406687F7446C6F32980A4FE84
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/L4OAKN

#opendata #data #politicalscience #science #datascience