Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.24K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
На IQ.hse.ru вышла статья Ольги Моляренко "Такая статистика. Почему официальные данные расходятся с российской реальностью" [1] в которой можно немало узнать о том как в реальности устроен сбор официальной статистики, почему ей нельзя доверять и что с этим делать. При том что сделать что-либо весьма непросто, поскольку недостоверность статистики устраивает довольно многих.

Впрочем и последствия этой недостоверности тоже есть. Можно ли принимать обоснованные решения не имея объективной картины страны? А, судя по приведенным примерам в статье, в России живёт больше людей чем описано в переписи, реальное их число как проживающих так и работающих качественно не измеряется. Аналогичная ситуация с измерением экономической активности, преступности, смертности и многое другое. При этом кросс-сопоставление данных разных ведомств действительно может помочь, но его недостаточно. Важнее помнять саму культуру палочной установки показателей и того что _знать правду_ важнее, чем добиваться _нарисованных результатов_.

Ссылки:
[1] https://iq.hse.ru/news/314111372.html

#data #dataquality
AlgorithWatch опубликовали свежий отчёт о идентификации граждан и скоринге в 5 африканских странах и в Китае [1]. В отчете разобраны примеры Уганды, Туниса, Ганы, Руанды, Зимбабве и приведен пример китая по социальному скорингу. Почитать отчёт будет интересно всем тем кто задумывается о том как идентификация и цифровизация происходит в мире.

Вот лишь несколько важных факторов:
- только в Тунисе регистрируют всех детей до 5 лет, в остальных африканских странах только каждого второго;
- подавляющее число поставщиков систем скоринга и идентификации в Африке находятся за пределами континента. Это США, Китай и Евросоюз. Почти все они представлены на выставке ID4Africa проходящей с 2005 года;
- в Руанде компании секторов энергетики, ЖКХ и телекома передают данные о гражданах в кредитные бюро для большей точности кредитного скоринга;
- в Зимбабве работает наиболее продвинутая биометрическая база по идентификации людей по лицу и походке на базе китайской системы CloudWalk

Ссылки:
[1] https://algorithmwatch.org/en/identity-management-and-citizen-scoring-in-ghana-rwanda-tunisia-uganda-zimbabwe-and-china/

#privacy #biometrics
Меня регулярно спрашивают есть ли у меня добрые слова в адрес наших госорганов? Критиковать всегда легче, чем хвалить, конечно же, особенно когда поводов для критики много. Но бывают случаи когда они находятся.

1. Министерство культуры РФ и Фонд Кино разместили сведения о всех фактах господдержки отечественного кинематографа со сметами, кассовыми результатами и многим другим в разделе "Государственная поддержка" [1]. Теперь можно не просто строить прогнозы успешности кинопроката, но и создавать рейтинги наиболее провальных режиссёров и продюсеров и ещё многое другое. Это многое говорит о российской киноотрасли и надо отдать должное Минкультуры, они выкладывают в открытый доступ данные которые можно и интерпретировать для их критики, тем самым определяя прозрачность как важную часть госполитики. Это как если бы Минздрав начал бы публиковать данные по успешности операций на сердце по больницам, но Минздрав на такое не пойдет;)

2. Очень много примеров сильной ИТ работы есть у субъектов федерации. Например, в Санкт-Петербурге один из лучших в России, а может и просто лучший, реестр государственных информационных систем [2] где есть не только карточки самих систем, контракты, сведения о нормативных документах, но и данные о их базах данных, используемым классификциям и многое другое. Я даже не могу представить себе какую огромную работу проделывает Комитет информатизации Санкт-Петербурга чтобы поддерживать все эти данные в актуальном состоянии.

3. Чуть менее детальный, но также качественный реестр ГИСов в Ленинградской области [3]. Хотя и не столько дотошно как в Санкт-Петербурге, но весьма большая проделанная работа и данные общедоступны

4. Статистика ЕГЭ в Костромской области на сайте местного РЦОИ [4]. Простой, недорогой, BI с детализацией до районови куче фильтров через которые можно увидеть данные в очень интересных разрезах.

Ссылки:
[1] http://ekinobilet.fond-kino.ru/government-support/
[2] https://reestr-gis.gov.spb.ru/rgis/#gis
[3] http://reestr-is.lenobl.ru/registry/public/systems/list
[4] https://www.ege-kostroma.ru/stat/home

#govtech #gov #data
Я ранее писал про положительные практики разного рода проектов на данных, открытости и не только. Вопрос всегда возникает, а есть ли наоборот самые что ни на есть наглядные примеры закрытости того что "очевидно" должно быть открытым.

1. Более 4-х лет на общероссийском сайте ЕГЭ [1] (под управлением Рособрнадзора) не публикуется даже самая агрегированная статистика по сдаче экзамена. Видимо лишь случайным образом, в разделе для людей с ограниченными возможностями, ведомство не удалило данные общестрановой статистики за 2014-2015 годы [2]. А уж о том чтобы дать максимально подробную, детальную статистику до субъектов федерации и муниципалитетов - такого никогда не было. И тем более и тем жестче Рособранадзор все эти годы сопротивляется предоставлять статистику с детализацией до школ.

2. Попробуйте найти в материалах Росстата микроданные переписи 2010 года или иных ? Их нет. Ранее по ссылке [3] висели объявления что идут профилактические работы, сейчас ссылка просто недоступна. В лучшем случае доступны данные по выборочным переписям, и то давно никто не проверял насколько они доступны и сохранились. В принципе информационные ресурсы Росстата - это большая и явно недостаточно систематизированная свалка. А то что у них опубликовано в открытых данных - это, в лучшем случае, 2-5% имеющихся _опубликованных_ данных или данных которые _должны публиковаться_.

3. Один из наиболее непрозрачных реестров государственных информационных систем и реестров - то единый реестр города Москвы. Он существует в открытом доступе только в PDF формате [4] с минимальной информацией в виде названия системы и регистрационного номера. Нельзя даже узнать когда система была создана, кто оператор, как найти контакты оператора и так далее и тому подобное. Учитывая уровень информатизации в Москве - это не может быть случайностью. Так чего же это?

Фундаментальная проблема с доступом к данным в России - это доступ к данным о качестве жизни: экология, образования, здравоохранение, состояние преступности. Всё это раскрывается столь скудно и столь неудобно что всегда вызывает много вопросов.

Наверняка у Вас есть другие примеры того как что-то важное не публикуется или перестало публиковаться в последние годы.

Расскажите о них!

Ссылки:
[1] http://ege.edu.ru
[2] http://ege.edu.ru/ru/special/main/satistics-ege/
[3] http://std.gmcrosstata.ru/webapi/
[4] https://www.mos.ru/dit/documents/proekty-i-otchety/view/350220/

#govtech #data #opendata #opengovernment
В CNews вышла статья о том что ФТС строит свой центральный ЦОД на базе Тверской таможни [1] и тут интересно всё. И то что ЦОД строится самим госорганом, и то что выносится в регион и то сколько он стоит и что будет внутри. Пока всё дешевле и проще чем в ЦОДах ФНС в Дубне (Московская область) и в Городце (Нижегородская область), но таких примеров не так много в России.

Много ЦОДов арендуются у МТС, Мегафона, Ростелекома и ещё целого спектра негосударственных, полугосударственных и государтсвенных организаций.

Хорошо ли это или плохо? Как должны использоваться ЦОДы в государстве - строится госорганами или должен быть пул доверенных поставщиков или один большой ГосТех (читай - Ростелеком) должен предоставлять услуги по фиксированным ценам>

Хотелось бы здесь добавить что Минкомсвязь могли бы провести исследование и сделать доклад о применении ЦОДов в госуправлении, но трудно поверить в его объективность и что в Минсвязи есть кому его готовить;)

Ссылки:
[1] https://www.cnews.ru/news/top/2019-10-22_fts_nachinaet_stroit_glavnyj

#data #dataceters #fts
Как должна быть организована работа с ЦОДами для органов власти?
public poll

Должен быть реестр доверенных поставщиков и госрегулирование цен – 35
👍👍👍👍👍👍👍 46%

Органы власти должны создавать свои ЦОДы чтобы не зависеть от поставщика – 20
👍👍👍👍 26%

Нужен один на всех облачный ГосЦОД – 15
👍👍👍 20%

Ничего не надо делать, оставьте как есть – 6
👍 8%

👥 76 people voted so far.
Дайджест о данных:

1. Under digital surveillance: how American schools spy on millions of kids [1] статья в The Guardian о том как в США следят за миллионами студентов и школьников. А также упоминается Gaggle [2], ведущая компания по проактивной слежке за студентами и преподавателями. В том числе предлагают проактивный мониторинг склонности к суициду и отслеживание угроз.

2. Open data and cultural organizations [3] пост в блоге OpenDataSoft о том как открытые данные публикуются и могут публиковаться организациями культуры Евросоюза. Несмотря на то что открытые данные в сфере культуры не столь часто заметны, но многие решения вполне пересекаются.

3. В Новой Зеландии опубликовали черновик "Алгоритмической хартии" (Algorithm Charter) [4], документ на 1 страницу с тезисами условий запуска решений основанных на системах автоматического принятия решений. Обратите внимание что предполагается что его подписывают 3 руководителя организации: CEO, CIO и CPO. Если про CEO и CIO мы и так знаем, то CPO - это Chief Privacy Officer, руководитель по приватности. CPO - это государственный подвид CIPP [5] (Certified Information Privacy Professional) специалистов по приватности, многие из которых сейчас нанимают в крупных частных корпорациях.

Ссылки:
[1] https://www.theguardian.com/world/2019/oct/22/school-student-surveillance-bark-gaggle
[2] https://www.gaggle.net/
[3] https://www.opendatasoft.com/blog/2018/09/18/bringing-open-data-culture-and-heritage
[4] https://data.govt.nz/assets/Uploads/Draft-Algorithm-Charter-for-consultation.pdf
[5] https://iapp.org/certify/cipp/

#opendata #data #privacy
На CNews обзор текущего состояния нацпрограммы "Цифровая экономика", довольно подробный и с конкретными рекомендациями [1]. По многим признакам итоговые рекомендации и часть выводов явно не без позиции сотрудников Минкомсвязи писались, а мне столько есть всего что добавтить к этому.

Я постараюсь изложить максимально сжато:
1. Большая часть средств распределяет по крайне малому числу исполнителей - даже когда есть конкурентные процедуры их итог слишком предсказуем. Многое распределяется субсидиями на некоммерческие организации выпадающие из под 44-ФЗ и 223-ФЗ. А если добавить к этому ещё и сокрытие поставщиков по 223-ФЗ, то возникает ситуация фактической непрозрачности того кому и как идут деньги по нац. программе.
2. Отсутствует раскрытие результатов выполнения программ и принятия решений. Стенограммы не публикуются и есть сомнения что они вообще ведутся и собираются. Даже в тех случаях когда реальные результаты есть.
3. Полностью выхолощены вопросы открытости государства и открытых данных в частности. Например, НСУД выродился из системы правил в информационную систему, новую версию СМЭВа и бэкэнд цифрового профиля. Оттуда полностью пропали открытые данные в частности.
4. Слишком многое делается "с нуля". Повторное использование кода, ранее разработанных продуктов, концепций и решений невелико. Повторное использование кода могло бы существенно уменьшить стоимость многих разрабатываемых ГИСов.
5. И, конечно, цели. Всё начинается с целостной концепции от которой далее видно насколько адекватны мероприятие и их исполнение.

Можно было бы сказать при этом что другие нац проекты не всегда выглядят лучше, или то что их запуск - это множество бюджетных и политических ограничений. Самые главные риски нац программы "Цифровая экономика" - это отсутствии социального эффекта. Те же деньги могли бы пойти на строительство школ, детских садов, больниц и так далее.

А "Цифровая экономика" сейчас - это проданный государству "государственный техно-оптимизм" с некоторыми вкраплениями "техно-пессимизма", я имею в виду направление по инфобезопасностии. При огромном числе техно-пессимистов всех мастей, программа может в любой момент выродится в нац проект "Цифровая безопасность" или же разделиться на проекты в других нац. проектах.

Впрочем гадать на будущее дело неблагодарное.

Ссылки:
[1] https://www.cnews.ru/articles/2019-10-22_tsifrovaya_ekonomikakak_reorganizovat

#digital #digitalgov
Пример "силы сообщества" недавняя история с телеметрией в GitLab. Две недели назад сервис GitLab, второй по популярности после GitHub'а сервис для разработчиков по работе с кодом, объявил [1] о том что в включает в веб-страницы код телеметрии Pendo [2] для отслеживания действий пользователей.

Однако реакция сообщества была моментальной и резкой [3] и, в результате, GitLab откатили изменения (обновление поста от 24 октября) [4]. Неизвестно надолго ли, но факт остаётся фактом. При этом у владельцев других, гораздо менее продвинутых DevOps платформ пошли вверх платные регистрации, например [5] у сервиса Sourcehub [6].

Ситуация примечательна сразу несколькими фактами:
1. GitLab предупредили пользователей явно, а не включили сбор данных в условия использования втихую или даже могли бы не включать в условия использования и просто собирать данные.
2. Сообщество отреагировало очень быстро и ушло голосовать "рублём/долларом"
3. GitLab быстро передумали и начали всё возвращать назад.

Можно ли представить какой-либо относительно популярный сервис в России который бы заранее предупредил пользователей что он будет за ними следить?

Ссылки:
[1] https://about.gitlab.com/blog/2019/10/10/update-free-software-and-telemetry/
[2] https://www.pendo.io/
[3] https://news.ycombinator.com/item?id=21343761
[4] https://about.gitlab.com/blog/2019/10/10/update-free-software-and-telemetry/
[5] https://cmpwn.com/@sir/103018233505800721
[6] https://sourcehut.org/

#opensource #privacy
В сообществе Open Data Science большой текст о том что для алгоритмов важно быть "объяснимыми" [1], например, решения для этого были у IBM в проекте AI Explainability 360 [2]. Смысл в том что исполнение алгоритма должно показывать, желательно визуально, то как и почему было принято итоговое решение.

Возможно ли это? Почти наверняка возможно, хотя и будет непросто. Актуально ли это? Да, всё большее число пользователей будет требовать объяснений почему было принято то или иное решение.

Ссылки:
[1] https://medium.com/@ODSC/ai-black-box-horror-stories-when-transparency-was-needed-more-than-ever-3d6ac0439242
[2] https://opendatascience.com/ibm-research-launches-explainable-ai-toolkit/

#privacy #ai #aiexplainability
Свежая новость - это поручение Президента от 25 октября

2. Правительству Российской Федерации при участии Агентства стратегических инициатив, Счётной палаты Российской Федерации, Генеральной прокуратуры Российской Федерации и заинтересованных институтов развития обеспечить внесение изменений в нормативную правовую базу, определяющих допустимые случаи и объём невозврата венчурных инвестиций и (или) прямых инвестиций в капитал компаний, реализующих технологические проекты, осуществляемые с использованием средств государственного бюджета Российской Федерации.

Срок – 1 июня 2020 г.

Ответственные: Медведев Д.А., Чупшева С.В., Кудрин A.Л., Чайка Ю.Я. [1]

Даже не знаю что добавить к этой новости

Ссылки:
[1] http://kremlin.ru/acts/assignments/orders/61922

#tech #techpolitics
Дайджест новостей про данные:
- Netflix выложили открытый код Polynote [1], рабочей тетрадки для data science на базе Scala.
- научная статья о способе выбора способа визуализации [2] на основе пользовательского опыта и обратной связи. Немного неожиданно побеждает столбчатая диаграмма
- Zimperium, разработчики решений по безопасности мобильных приложений, проверили 30 наиболее популярных приложений для путешествий для iOS и Android и обнаружили практически во всех случаях злоупотребления приватностью пользователей [3]. Это и доступ к истории звонков, и возможность снимать скриншоты UI и доступ к базе контактов.
- не только в Сан-Франциско и Окленде, но теперь и во всей Калифорнии запрещено использование ПО для распознавания лиц [4] в The Body Camera Accountability Act [5]
- в США конгрессмены уже скоро рассмотрят законопроект по введению 4% оборотного штрафа и реальных тюремных сроков для компаний нарушающих приватность [6]. Краткое изложение законопроекта The Mind Your Own Business Act of 2019 можно прочитать на странице сенатора Wyden'а [7], а полный текст есть в распоряжении Arstechnica [8]

Ссылки:
[1] https://medium.com/netflix-techblog/open-sourcing-polynote-an-ide-inspired-polyglot-notebook-7f929d3f447
[2] https://blog.acolyer.org/2019/10/25/task-based-effectiveness-of-basic-visualizations/
[3] https://blog.zimperium.com/security-and-privacy-issues-found-in-popular-travel-apps/
[4] https://www.cpomagazine.com/data-protection/facing-down-the-surveillance-state/
[5] https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=201920200AB1215
[6] https://www.cpomagazine.com/data-protection/new-privacy-bill-proposes-jail-time-and-financial-penalties-for-privacy-violations/
[7] https://www.wyden.senate.gov/imo/media/doc/Mind%20Your%20Own%20Business%20Act%20of%202019%20One%20Pager.pdf
[8] https://arstechnica.com/wp-content/uploads/2019/10/Mind-Your-Own-Business-Act-of-2019-Bill-Text.pdf

#privacy #opendata #data #digital
Я все думал что случилось с Гос Вебом, а тут драматические подробности из судебных исков [1]

Лично я всей истории никогда не знал в деталях, удивлялся почему до сих пор сервер в gov.ru не перешел на новый дизайн.


Ссылки:
[1] http://www.tadviser.ru/index.php/Статья:Госвеб

#digital #govru
Да, политическая цензура, увы не имеет национальности и формы правления государством. Правительство Испании понудило GitHub удалить приложение Tsunami для координации каталонских протестующих.
Forwarded from addmeto
А в этом время любимый ресурс разработчиков всего мира, GitHub, получил письмо от правительства Испании с требованием удалить пользователя, репозиторий и его форки, принадлежащий движению Tsunami Democratic. Там было приложение (и исходники), которое позволяло членам движения зарегистрировться и получать информацию о ближайших точках протеста за отделение Каталонии. Почитайте, поучительная история https://techcrunch.com/2019/10/30/github-removes-tsunami-democratics-apk-after-a-takedown-order-from-spain/
Важное изменение последних лет - это рост вовлечения в открытый код крупнейших технологических компаний. Можно сказать что их послание разработчикам сменилось с "Мы делаем крутые сервисы для вас" на "Мы делаем крутые сервисы и пишем крутой код вместе с вами". И это изменение не стоит недооценивать.

Например, специальные сайты раскрытия исходного кода есть у Google [1], Microsoft [2], Facebook [3], Twitter [4], Pinterest [5], Netflix [6] и многие другие. Практически все они, либо отдельные сайты, поддомены начинающиеся с opensource, либо статическими сайтами на базе github.

Можно предположить что всё это делается из соображений поддержания репутации, хантинга и формирования собственной экосистемы.

Единственный близкий ресурс в России - Яндекс.Технологии [7] не про открытый код, а про демонстрацию технологий компании. Которые безусловно есть, но призыва к совместному их развитию к разработчикам увы нет такого призыва. Впрочем у многих других компаний нет даже этого.


Ссылки:
[1] https://opensource.google/
[2] https://opensource.microsoft.com/
[3] https://opensource.facebook.com/
[4] https://twitter.github.io/
[5] https://opensource.pinterest.com/
[6] https://netflix.github.io/
[7] https://tech.yandex.com/

#opensource
Вышел отчёт об использовании данных частных компаний для общественного блага [1] со множеством примеров эффективных практик взаимодействия. Скачать доклад в PDF можно по ссылке [2]

В докладе охвачены такие примеры работы с частными данными как:
- порталы открытых данных и API (общедоступные интерфейсы)
- доверенный посредник
- "пруды данных" (объединения нескольких владельцев данных по совместному предоставлению данных)
- исследовательские соглашения
- конкурсы и соревнования
- создание знания - компании исследуют данные самостоятельно и делятся аналитикой с другими компаниями.

И рассмотрены такие примеры как: Uber Movement, UN Global Pulse & Twitter, World Bank and LinkedIn Data Sharing Initiative, Zillow Research, Singapore Data Discovery Challenge и многие другие.


Ссылки:
[1] https://datacollaboratives.org/existing-practices.html
[2] https://datacollaboratives.org/static/files/existing-practices-report.pdf

#data #opendata #privatedata
Германская комиссия по этике данных (German data ethics comission) выпустили 240 страничный доклад [1], с заключением их работы. В докладе рассматривается понятие "алгоритмические системы", рекомендуется их классификация и более 75 конкретных рекомендаций по их регулированию. А также рассмотрены подробно вопросы данных и этики.

В частности в докладе предлагается применять разное регулирование в зависимости от нахождения системы на следующей 5 балльной шкале:

1. Системы с низким потенциалом вреда, например, устройства раздачи напитков не должны регулироваться.
2. Системы с некоторым потенциальным вредом такие как динамические цены в e-commperce должны регулироваться облегченно и контроль должен применяться пост-фактум.
3. Системы с регулярным или очевидным потенциалом вреда такие как персонализированные цены должны проходить обязательную процедуру одобрения регулятором до применения и подвергаться регулярному контролю.
4. Системы со значительным потенциальным вредом, таким как компании которые имеют квази-монополии в кредитном скоринге, должны публиковать детали алгоритмов, включая факторы влияющие на расчёт алгоритма и вес факторов, сведения об обработке данные и объяснение внутренней логики. Контроль за алгоритмами должен осуществляться в реальном времени.
5. Системы неоправданного потенциального вреда такие как автономное вооружение должны быть "полностью или частично" запрещены.

Среди пунктов с рекомендациями могу отметить:
- поощрение бизнеса к публикации открытых данных не только, в том числе через механизм государственных тендеров и налогообложения;
- регулирование и ограничения, при необходимости, на B2B торговлю данными.
- создание стандартов аудита и тестирования алгоритмических систем;

И многое другое. Например, авторы доклада предлагают следующей комиссии создать "Кодекс алгоритмической подотчётности" и поощерять саморегулирование.

С довольно позитивной повесткой доклада несогласны в AlgorithmWatch [2], германской НКО по защите прав граждан в отношении алгоритмических систем, указывая что многие из них оказываются между указанными выше категориями систем.

Учитывая что новый президент Еврокомиссии - Урсула вон дер Лэйен уже анонсировала новое регулирование ИИ в Евросоюзе к марту и её предыдущий пост в правительстве Германии, стоит ожидать что рекомендации из этого доклада скоро появятся в законодательстве Евросоюза.

В более сжатом виде, но на английском языке, можно прочитать доклад по ссылке [3].

P.S. Не могу не отметить разницу в организации комиссий в Германии и в России. Например, эта комиссия была создана в сентябре 2018 года, с конкретно сформулированным госзаданием (ключевыми вопросами) к комиссии от федерального правительтства [4] и с задачей найти ответы в течение 1 года - это период работы комиссии. А этот доклад - это итог работы комиссии одновременно с завершением её работы. В России, мало того что комиссии существуют на много лет (десятилетий) так ещё и превращаются в форму/продолжение исполнительной власти [5].

Ссылки:
[1] https://datenethikkommission.de/wp-content/uploads/191015_DEK_Gutachten_screen.pdf
[2] https://algorithmwatch.org/en/germanys-data-ethics-commission-releases-75-recommendations-with-eu-wide-application-in-mind/
[3] https://datenethikkommission.de/wp-content/uploads/191023_DEK_Kurzfassung_en_bf.pdf
[4] http://s801237046.online.de/datenethikkommission/wp-content/uploads/DEK_Leitfragen_eng.pdf
[5] http://government.ru/orders/selection/405/33944/

#privacy #ai #regulation
В NYT статья [1] о том как автор запросил свои данные у сервиса Syft и узнал что о нём знают и собирают. А знают практически всё - транзакции, оставленные комментарии в Yelp, каждое открытие приложения Coinbase и сообщения пересылаемые в Airbnb в переписке с владельцами квартир.

Всё это стало возможно благодаря калифорнийскому аналогу GDPR California Consumer Privacy Act [2] принятому в 2018 году и вступающему в силу с 2020 года, но некоторые компании подготовились к нему заранее.

Тем самым уже не только в Европе "право знать о себе" - становится неотъемлимым правом каждого потребителя/гражданина.

Ссылки:
[1] https://www.nytimes.com/2019/11/04/business/secret-consumer-score-access.html
[2] https://www.nytimes.com/2018/06/28/technology/california-online-privacy-law.html

#privacy #data
Признаться мне очень не хотелось и не хочется сейчас комментировать инициативу по поводу большой советской российской энциклопедии как замену Википедии. Не хочется не потому что нечего сказать, а потому что жить в режиме обязательной реакции на негатив утомляет. Но, видимо, всё таки придётся.

Чтобы понять на что выделяют деньги федеральные власти важно вначале понять что такое Википедия и как устроено распространение знаний в современном мире.

За последние 10 месяцев (с 01.01.2019 по 01.11.2019)
- 26,5 миллионов просмотров страниц в сутки
- 11 тысяч активных участников
- 6 миллионов страниц
- 1,6 миллионов статей
- 103 миллиона правок
- 221 тысяча изображений

Много это или мало? Это очень много. Википедия является одним из наиболее посещаемых сайтов в мире, а российская версия - одним из наиболее популярных сайтов в России и во всех странах СНГ.

Почему Википедия так популярна? Здесь много факторов срабатывающих одновременно:
- изначальная благая цель на сохранение знания и нейтральная позиция
- набор критической массы саморегулируемого сообщества
- огромное число контрибьюторов со всех стран мира
- финансовая поддержка глобальных корпораций, частных лиц, частных фондов и тд.
и, конечно же, открытые данные и открытость в целом.

Вот уже много лет как все данные Википедии публиковались и публикуются под свободной лицензией Creative Commons [1], а все данные доступны как открытые данные на сайте дампов [2] фонда Викимедиа, где кроме Википедии есть ещё и все остальные проекты фонда.

Что означает доступность открытых данных? То что данные Википедии активно используются учёными, исследователями, учащимися для изучения программирования и, безусловно, они активно используются всеми крупнейшими корпорациями и сервисами. Google и Яндекс встраивают сведения в поиск не просто как ссылки в поисковой выдаче, а в виде подсказок и, хотя поисковые сервисы и создают до 84% трафика в Википедию [3] тем не менее они активно стараются использовать контент оттуда чтобы удержать пользователя в своей поисковой строке. Подобный качественный бесплатный контент создаваемый сотнями тысяч волонтеров по всему миру и приводит к тому что многие компании поддерживают Википедию технически, финансово и иными способами. Например, Яндекс в России поддерживает один из проектов фонда Викимедиа - Wikidata, и звучат призывы к Google и Facebook больше поддерживать Википедию [4].

Но и без их поддержки Википедия является ключевым, можно сказать одним из центральных ресурсов в сети, ключевым ресурсом на который ссылаются поисковые машины, ключевым источником структурированного знания доступного всему человечеству и пока не имеющему сколь бы то ни было сравнимых по управлению и масштабу альтернатив.

Конечно решение о создании "альтернативы Википедии" не экономическое, у него политическая предыистория, в которой больше страшилок, чем реальной необходимости и возникает много вопросов о том насколько далеко российские регуляторы будут готовы пойти в продвижении Большой Российской новой энциклопедии (далее - БРНЭ).


1. Основной трафик Википедии приходит из поиска, необходимо ли ожидать требований к поисковым системам в России по регулированию поисковой выдачи, в том числе удалению ссылок на Википедию и добавление ссылок на БРНЭ?
2. Как именно предполагается привлекать основной костяк из тысяч редакторов статей в БРНЭ?
3. Есть ли опыт у получившей финансирование команды в запуске проектов сравнимых с Википедией по масштабу и объёму статей?
4. Есть ли, в принципе, концепция и стратегия создания БРНЭ и если да, то где именно можно её увидеть?
5. Почему в показателях выданной субсидии [5] на создание БРНЭ отсутствуют показатели посещаемости, вовлечённых авторов, подготовленных статей?
6. Будут ли все созданные доступны под свободными лицензиями, а база целиком в виде открытых данных?

Да и рпыт ранее "утонувшего" [6] поисковика "Спутник" не даёт многих надежд на успешность БРНЭ.

У меня осталось ещё много вопросов, но я начинал с того что очень не хочется постоянно реагировать на негатив и очень хочу закончить на позитивной ноте.