Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Европейский стартап Elvis [1] был сделан на базе данных по закупкам нескольких стран Евросоюза и делает, немного не мало, а даёт возможность расследователям
смотреть на то какие отношения есть между разными подрядчиками и закачиками.

Очень интересный проект, не завершённый, явно декларирующий что он развивается. Фактически его аудитория - это НКО и журналисты расследователи. В Евросоюзе где условный рынок таких НКО существует и где много активных СМИ - он обязательно получит развитие, и я думаю что ещё станет медиа-проектом какого-нибудь года.

Я могу сказать что, конечно же, такой проект в России сделать очень просто. Я бы даже сказал феноменально просто. Когда мы проектировали Госзатраты [3] мы, конечно же, думали об этом, но тогда тоже решили что правильно разделить эти темы. Система раскрытия информации и система для расследователей - это 2 разных проекта. Система для расследователей гораздо больше имеет политических рисков, она требует другого интерфейса, вовлечения участников, работы с сообществом журналистов и расследователей, больший акцент на визуализации и многое другое.

Но, при этом на базе API Госзатрат сделать такую систему может кто угодно. Это именно то для чего API гораздо удобнее чем работа с первичными данными, потому что в расследовании нужны не все данные по всем организациям, а чёткий фокус и акцент на правильной упаковке материала.

API Госзатрат уже сейчас позволяет проводить расследованиям по массовым нарушениям, например, по факту латиница в госзакаке хорошо отслеживается через данные, как и многие другие нарушения.

В Госзатратах мы сознательно и тщательно отодвигались от любых антикоррупционных расследований. Я не устаю повторять что мне всё равно кто будет расследовать - журналисты "провластные" или журналисты "оппозиционные".

Но я хочу напомнить что проект существует уже 4 года, он никуда не денется, его API стабильно и про его API мы рассказываем, объясняем и помогаем. Это один из наиболее технологических и устойчивых проектов Комитета Гражданских Инициатив. И если Вы хотите технологизировать свои расследования - Вы знаете с помощью чего это можно сделать.


Ссылки:
[1] https://tenders.exposed/
[2] https://medium.com/startups-for-news/elvis-visualising-public-spending-and-investigating-corruption-7464fc30c7c0
[3] http://clearspending.ru

#opendata #clearspending #opengov #investigations
Расшифровка генома стала довольно популярной в наши дни, в России пока не так массово как, например, в США, но постепенно, шаг за шагом, генететические базы данных создаются, и частные, и государственные.

О том как генетические данные используются при расследовании преступлений мы знаем куда меньше, а примеров становится всё больше. Например, в New York Times статья [1] о том как с помощью данных публичного банка генетических данных GEDMatch [2] генетик исследователь на основе данных о семейном древе, генетических данных, данных в газетах и так далее выявили подозреваемого в убийстве и изнасиловании, а далее в рамках следственных действий подтвердили подозрение образцам ДНК в выброшенной им чашке.

При этом сам подозреваемый свой геном никогда в банк генома не сдавал, его вычислили по связям с его родственниками. Это называется "reverse genealogy", восстановление связей между родственниками на основе баз генетических данных. При том что в России отсутствуют открытые базы вроде GEDMatch, основные базы сейчас -
это закрытые базы компаний Genotek и Атлас, по факту, поделившие рынок расшифровки генома в России.

Однако их сервисы до сих пор не являются массовыми - цены в 19900 рублей и 29900 рублей у Генотек и Атлас никак не смогут пока сделать их сервисы достаточно популярными чтобы у них был масштабный спрос.

Но ситуация может развиваться по разному. В сентябре 2017 года ФАНО впервые объявило конкурс на масштабные ДНК-исследования, проект "ДНК-Идентификация" на 1.3 миллиарда рублей [3]. Но по неизвестныим причинам контракт не был заключён и не находится, ни на портале Госзакупок, ни на странице ФАНО в Госзатраты [4].

В публичных закупках МВД пока также нет, ни доступа к базам российских генетических компаний, ни создание собственных банков данных.

Ссылки:
[1] https://www.nytimes.com/2018/05/18/science/ancestry-site-arrest-washington.html
[2] https://www.gedmatch.com
[3] http://zakupki.gov.ru/epz/order/notice/ok44/view/common-info.html?regNumber=0195100000617000011
[4] https://clearspending.ru/customer/01951000006/?sort=-price

#privacy #investigations
Маленький преданонс. В августе-ноябре 2018 года мы в Информационная культура и Ассоциация участников рынка данных, а конкретно я лично проводили обследование открытых интерфейсов государственных информсистем и иных информационных систем под госрегулированием на предмет раскрытия из них персональных данных пользователей.

Только на основе общедоступной информации. Результаты не были публичными, их направили в Минсвязь, Роскомнадзор, Генпрокуратуру, что-то всё ещё в работе, а многое уже исправлено.

Около половины найденного - это сведения из удостоверяющих центров, государственных и не очень. И как раз в их случае большая часть найденного уже исправлена, а остальные не исправят пока их явно не "пнешь" похоже.

Лично я долго думал что делать с найденным. Можно ли делать общедоступными результаты этого исследования? Можно ли рассказывать о путях вылова раскрытия перс. данных в информационных системах.

В итоге ту часть исследования которая касается удостоверяющих центров мы будем делать общедоступной. Это подробный анализ систем с конкретными путями воспроизведения и скриншотами по 17 УЦ в которых выявлена эта история (из примерно 50% существующих которые мы проверили).

Сейчас есть развилка:
1. Сделать это в виде собственного доклада, после перепроверки и дополнения информацией о том что было исправлено в итоге после чего рассылать пресс-релиз.
2. Поделиться с одним из крупных федеральных изданий под то что у них будет 1-2 журналиста готовых проверить то что тогда было выявлено и что исправлено и написать об этом качественный материал сославшись на Инфокультуру и Ассоциацию. Может быть даже провести это исследование повторно охватив 100% УЦ.

Если есть идеи и предложения как это лучше сделать - пишите мне на ibegtin@infoculture.ru

#openness #investigations #gis #personaldata
В свежем расследовании Сергея Шпилькина про 29 миллионов переболевших [1] важно не только само расследование, к нему уже есть комментарии разбирающие его [2], важнее то что нет смысловой/содержательной/осмысленной реакции Минздрава РФ да и оперштаба тоже. Важная российская особенность в том что с начала пандемии российским Правительством / Минздравом / Оперштабами не опубликовано ни одного набора данных относящихся к COVID-19. Всё что есть было собрано активистами с сайтов вроде стопкоронавирус.рф, из поисковой выдачи поисковых систем, по другим косвенным признакам. Мы от Инфокультуры контактировали с теми кто такие данные собирал и выкладывали их на Humanitarian Data Exchange [3], фактически, выполняя ту работу которую должны делать правительственные и региональные чиновники.

Я хочу обратить внимание что за эти годы весь социальный блок органов власти в нашей стране по закрытости мог бы соревноваться разьве что с МВД или другими правоохранительными органами. Данные не раскрываются не только о COVID-19, в принципе медицинская статистика, даже региональная, а уж о более гранулярной и речи ещё нет, не публикуется. Диалога с обществом о доступности данных не ведётся и, не велось даже во время открытого пр-ва, сопротивление со стороны Минздрава, Минобра и др. было коллосальным.

Что хуже - это то что шло и идёт вымывание профессионалов из очень многих областей госусправления. Вот этот пример с номерами переболевших очень показателен. Может ли со стороны Минздрава кто-то содержательно подробно прокомментировать откуда возникла такая ситуация? Проблема в том что нет, не могут. Также как и в десятках других отраслей. В ИТ сфере это выражается в вымывании самого понятия архитектуры государственных ИТ решений причем в долгосрочном плане. Все настолько увлечены тактическими планами что "поговорить не с кем".

Ссылки:
[1] https://holod.media/2021/07/20/unrz/
[2] https://www.facebook.com/alexx.dragan/posts/4263649057027571
[3] https://data.humdata.org/organization/infoculture

#opendata #investigations
Международный консорциум журналистов расследователей начали публикации материалов в рамках Pandora Papers, большой базы данных документов и переписки сотрудников 14 фирм регистрации оффшоров, полученные ICIJ из источника который они не раскрывают. Подробнее о том что это за база данных, как её обрабатывали и какие фирмы она охватывает есть на сайте ICIJ [1]

Можно слегка позавидовать журналистами работающими с этими 3 Терабайтами данных, как я понимаю для широкой публики именно данные будут доступны уже после завершения основных публикаций и ещё неизвестно в каком объёме.

Кроме непосредственно содержания этих материалов интересен их источник. Лично я не могу представить у кого могла бы быть переписка и документы одновременно 14 оффшорных регистраторов. Такого масштаба операции под силу только некоторым, не всем, спецслужбам.

Прошлые материалы ICIJ выкладывали в виде баз данных для графовой СУБД Neo4J [2] и других форматах.
У ICIJ, также, интересный подбор инструментов с открытым кодом [3] который они много лет развивают и который даёт много возможностей по анализу документов.

Я думаю что в ближайшее время мы ещё прочитаем немало об оффшорных компаниях российских и зарубежных официальных лиц, но самое интересное, конечно, когда данные будут опубликованы как данные и многие другие расследователи начнут сопоставлять их со своими базами данных.

Ссылки:
[1] https://www.icij.org/investigations/pandora-papers/about-pandora-papers-leak-dataset/
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ

#investigations #datasets
В качестве воскресного чтения читаю Viral: The Search for the Origin of COVID-19 [1] о лабораторном происхождении COVID-19 за авторством исследователя Alina Chan [2] и журналиста Matt Ridley [3].

Об Алине Чан была в июне 2021 года статья в MIT Technology Review [4] о том как она расследовала лабораторное происхождение COVID-19 и была одним из тех кто добился что администрация Байдена начала официальное расследование.

Книга интересная, хорошо написана, читается как журналистское дата-расследование, можно сказать научная расследовательская журналистика, причём не в режиме теорий заговора, а вполне с критическим подходом анализа всех нестыковок.

Книгу читать я только начал, поэтому говорить о том правы ли авторы её или нет, я не готов, но само чтение интересное.

Ссылки:
[1] https://www.amazon.com/Viral-Search-COVID-19-Matt-Ridley-ebook/dp/B09794TRBB
[2] https://twitter.com/Ayjchan
[3] https://www.mattridley.co.uk/
[4] https://www.technologyreview.com/2021/06/25/1027140/lab-leak-alina-chan/

#investigations #covid19 #books
В Science вышла статья о "фабрике публикаций" [1], компании International Publisher, предлагающей учёным становится соавторами научных публикаций за деньги. В статье упоминается также происхождение сайта, его руководителя и сам сайт с таким предложением. Исследователь, Анна Абалкина провелֆ детальный анализ связываясь с учёными, компанией, представителями научных журналов и, собственно, итоги этого исследования/расследования запечатлены в статье в Science.

Ранее другая команда проводила похожий анализ [2] в отношении этого же сайта и компании и собрала большой набор данных [3], как раз для тех кто интересуется темой paper mills, такой набор данных будет интересен.

Ссылки:
[1] https://www.science.org/content/article/russian-website-peddles-authorships-linked-reputable-journals
[2] https://retractionwatch.com/2021/12/20/revealed-the-inner-workings-of-a-paper-mill/
[3] https://data.world/beperron/international-publisher

#dataset #science #data #research #investigations