Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике интересные наборы данных, базы данных лицензий на программного обеспечения. Их не так уж мало и они, чаще всего, связаны с сервисами которые анализируют исходный код и дают рекомендации, выдают информацию об ограничениях, с ним связанными.

- ScanCode LicenseDB [1] - 1793 текста лицензии и сопроводительные метаданные с указанием компании, категории ПО и ссылки на оригинал.
- SPDX License list [2] - большая коллекция лицензий в многочисленных форматах, включая связанные данные
- Open Source Initiative (OSI) [3] - база лицензий одобренных как лицензии для открытого кода

Наверняка есть и другие базы лицензий, эти наиболее открытые. Им нехватает юридической декомпозиции лицензий и перевод их на понятный язык, но даже в таком виде они могут быть весьма полезны.

Здесь полезно вспомнить про сервис TOS DR (Terms of Service Didn't Read) [4] где авторы задались целью перевести в понятный язык сложновыдуманные условия использования наиболее популярных сервисов. В частности, там есть разбор условий использования Яндекса и Вконтакте, жаль нет других российских сервисов, но никто не мешает помочь им их добавить.

Ссылки:
[1] https://scancode-licensedb.aboutcode.org/index.html
[2] https://github.com/spdx/license-list-data
[3] https://opensource.org/licenses/alphabetical
[4] https://tosdr.org

#privacy #licenses #datasets #opendata
Для тех кто интересуется интересными наборами данных, коллекция дата-файлов с частотами использования лицензий в порталах открытых данных, пока в форме репозитория с экспериментами и экспортом частотных файлов из Common Data Index [1]

Самая популярная лицензия, ожидаемо, Creative Commons. Но все вместе эти файлы пока не сведены, нужна аналитическая работа по систематизации описания лицензий в разных типах каталогов данных. Большой соблазн систематизировать это всё, но задача пока другая и придётся ограничится самыми популярными.

Тем не менее там много всего, особенно по лицензиями на геоданные из Geonetwork

Ссылки:
[1] https://github.com/commondataio/cdi-licensemapper

#opendata #licenses #opensource #openaccess
Давно подумываю сделать небольшой список/коллекцию и обзор плохих практик публикации государственных данных. Причём, как технических, так и про доступ к ним. Вот очень небольшой но показательный пример. В статкомитете Кыргызской республики публикуют открытые данные под лицензией CC-BY-NC [1] (Creative Commons «Attribution-NonCommercial-ShareAlike»).

Помимо того что версии лицензии Creative Commons для некоммерческого использования не являются свободными, так ещё и применение их для официальной статистики более чем спорно. Официальная статистика создаётся на деньги налогоплательщиков и используется, как гражданами, так и журналистами, так и бизнесом. Коммерческие компании являются одним из основных типов потребителей официальной статистики. Поэтому CC-BY-NC - это очень странная и запретительная лицензия для распространения государственных данных. Ещё она странная потому что показывает что те кто её указали, как минимум прочитали про лицензии Creative Commons, и понимают отличия CC-BY от CC-BY-NC, но, почему-то, не понимают что данные созданные на деньги налогоплательщиков и в рамках выполнения органами власти своих функций таких ограничений содержать не могут.

Но чаще, конечно, большая часть официальной статистики на многочисленных сайтах статслужб по всему миру, не содержат вообще никакого указания на условия использования.

Ссылки:
[1] https://www.stat.kg/ru/opendata/

#opendata #kyrgizstan #statistics #licenses