Ivan Begtin
9.07K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Где искать данные исследователям?

- Mendeley Data - поисковик агрегатор по 26.9 миллионам наборов данных для исследователей от Elsevier, также отдают весь реестр по спецификации OAI-PMH
- DataCite Search - поиск по наборам данных публикуемых с DOI DataCite, около 8 миллионов наборов данных
- Dimensions Datasets - база Dimensions.ai, более 8 миллионов наборов данных проиндексированных CrossRef и упоминаемых в научных публикациях
- Google Dataset Search - поиск по наборам данных Google, использует поиск по объектам размеченным на страницах как Schema.org Dataset, много мусорных результатов из-за SEO оптимизаторов
- Re3Data - каталог научных репозиториев для данных по всему миру
- OpenAIRE - европейская система поиска по результатам научных исследований, включая исследовательские данные
- Dataverse - более 67 инсталляций ПО Dataverse используемых как научные репозитории для данных ведущими университетами по всему миру

Главный залог существования поиска по научным данным - это доступность данных академических центров в форматах пригодных для повторного использования и документирование метаданных, в первую очередь, в формате OAI-PHM

#opendata #researchdata
Интересные наборы данных по всему миру:

- Не только в России проходят киберучения, есть жанр игр кибернетической безопасности. Например, кибернетические игры CyberCzech проходят в Чехии [1].
По их итогам появляются публикации включающие данные о сетевом трафике и логах [2]. В мире, не в России, довольно часто подобные данные публикуются вместе с научными статьями по итогам учений.

- Коллекция геоданных о 3-й французской республике (1870–1940) [3], 16 наборов данных с объектами и границами территорий.

- Данные системы World Factbook [4] были преобразованы энтузиастом в JSON формат удобный для быстрого использования [5].

- База переворотов Coup D'état Project (CDP) [6], в Университете Иллинойса, включает набор данных о более чем 900 переворотах [7]

Ссылки:
[1] https://csirt.muni.cz/projects/cyber-czech
[2] https://www.sciencedirect.com/science/article/pii/S2352340920306788
[3] https://dataverse.harvard.edu/dataverse/TRF-GIS
[4] https://www.cia.gov/library/publications/the-world-factbook/
[5] https://github.com/factbook/factbook.json
[6] https://clinecenter.illinois.edu/project/research-themes/democracy-and-development/coup-detat-project-cdp
[7] https://databank.illinois.edu/datasets/IDB-0433268

#datasets
Согласие без власти ведет к неравенству.

Не все знают, поэтому важно напомнить что Убунту - это не только дистрибутив Linux, но и африканская философская концепция [1]
Человек с убунту открыт и доступен для других, принимает других людей, не видит для себя опасности в том, что другие талантливы и добры, поскольку он твёрдо уверен в себе, понимая, что является частью большего целого, и, наоборот, человек с убунту угнетён, когда других оскорбляют или унижают, пытают или угнетают.

В публикации From Rationality to Relationality "Ubuntu as an Ethical & Human Rights Framework for Artificial Intelligence Governance" [2] автор Sabelo Mhlambi предлагает применить философию Убунту к регулированию искусственного интеллекта и автоматизированных алгоритмов.

Это текст для чтения, перечитывания и размышления, я всячески рекомендую его тем кто задумывается о природе этического регулирования ИИ.

Читая этот и другие тексты о этике ИИ я могу лишь в очередной раз посетовать дефициту этой темы в содержательном дискурсе по этой проблеме в России.

А один из тезисов статьи я бы вынес в отдельную большую тему для обсуждения: Согласие без власти ведет к неравенству.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Убунту_(идеология)
[2] https://carrcenter.hks.harvard.edu/files/cchr/files/ccdp_2020-009_sabelo_b.pdf

#ai #regulation #discussion #papers #ubuntu
Малоизвестный, но существующий, проект OpenDRI по открытости данных в области изменения климата и природных катастроф [1]. С довольно сильным фокусом в сторону открытости городов и их планирования [2], включая проект Open Cities Africa [3] по сбору городских данных африканских крупнейших игроков.

А кроме того у OpenDRI есть индекс открытости данных [4] где ничего нет о России, но есть многое о других странах. Видно что этот индекс всё ещё в активной разработке и незавершён, хотя ему и несколько лет, но помнить о нём немаловажно, тем более что российское МЧС сложно назвать открытым ведомством да и данные по изменению климата официальные органы власти в России не то чтобы не публикуют, но системно этого не делают.

Я отмечу что многие международные проекты шаг за шагом преобразуют свои индексы и создают новые индексы сравнений стран по открытости данных и этому можно только порадоваться.

Ссылки:
[1] https://opendri.org/
[2] https://opendri.org/resource/planning-an-open-cities-mapping-project/
[3] https://opencitiesproject.org/
[4] https://index.opendri.org

#opendata #hazards #opendri
Блеск и нищета бирж торговли данными, за всё время существования множества стартапов в этой нише, большая часть не выживает. Например, в Европейском каталоге DataLandscape перечислено 14 компаний [1]. Часть из них официально закрылись, часть отключили сайты и продукты и ещё часть, на самом деле, не про биржу данных. Относительно живым выглядит только Davex [2]. Они хотя и предлагают продукт на глобальном рынке данных, но куда больше веры в том что бизнес модель у них через создание и поддержку отраслевых проектов, вроде портала торговли данными в Японии JDEX [3]

За последние пару лет я много думал о возможности существования такой бизнес модели, в принципе, и пришёл к выводу что у неё может быть всего два выхода:
1. Инфраструктурная
Когда владелец биржи данных предоставляет услугу создания озер данных или хранилищ данных для корпораций и далее, как опцию, даёт возможность своими данными торговать на его же инфраструктуре. Вне зависимости от коммерческой успешности участников торгов владелец инфраструктуры выигрывает за счёт того участники используют его технические ресурсы и платят за них.

2. Отраслевая
Когда есть, или биржа, или сильная отраслевая ассоциация или влиятельный регулятор которые запускают биржу данных от своего имени. Регуляторы пока смотрят на это с большой осторожностью, отраслевые ассоциации часто не могут договориться у себя внутри, а пример бирж, это игра на уже сложившемся рынке торговли данными в финансовой сфере, там есть много глобальных и национальных игроков. Но есть и примеры, например, Nasdaq, купивший Quandl [4], и JDEX [5] запущенный Davex с крупным японским холдингом Kanematsu.

Есть ли другие успешные примеры? По моему опыту они только на рынке альтернативных данных для финансовых рынков, тот же Quandl и другие сервисы. Специфика данных как продукта в том что их владельцы (data holders) готовы продавать их через кого-то только в случае уверенности доступа к большой аудитории, в остальных случаях возникает слишком много рисков во взаимодействии с платформой.

И, конечно, самые востребованные и постоянно торгуемые данные о потребительском поведении находятся в "серой зоне". Ими торгуют все, сервисы слежки, аналитические сервисы, производители мобильных приложений и тд., но мало кто публично.

Ссылки:
[1] https://datalandscape.eu/companies?f%5B0%5D=field_action_area%3A7
[2] https://www.dawex.com
[3] https://www.dawex.com/en/news/japan-data-exchange-data-community/
[4] https://www.quandl.com
[5] https://www.jdex.jp

#data #datamarket #dataexchanges
На фоне исхода из Facebook'а, WhatsApp и других систем быстрой связи, важно помнить что одним из ключевых изменений в коммуникациях за последние лет 10 было в то что системы обмена сообщения слились с социальными сетями и медиа платформами. Это сочетание оказалось эффективным для бизнес моделей, даже если эти бизнес модели только про инвестиционные деньги, но для пользователя это превратилось в те самые цифровые монополии.

Здесь важно напомнить что у Telegram'а эта же особенность присутствует в полной мере и исход значительной части медиапроизводителей и медиапотребителей в телеграм - это ни в коем случае не подтверждение защищённости личной переписки.

Для защищённой переписки есть специализированные инструменты:
- Signal - один из наиболее популярных защищённых мессенжеров
- Keybase - специализированная соцсеть для шифро-панков, просто для всех кто озабочен собственной безопасностью и приватностью. Команду Keybase в мае 2020 года купил Zoom. Если хотите безопасно мне написать то мой аккаунт в Keybase ibegtin
- Cyph - единственный близкий к Keybase продукт по функционалу. Активно развивается после покупки Keybase со стороны Zoom

Большая подборка защищённых мессенжеров есть на PrivacyTools

#privacy #tools
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Госпрограммы стали доступнее: новый раздел портала «Госрасходы» поможет разобраться в финансировании.

На сайте проекта «Госрасходы» Счетной палаты РФ заработал новый раздел, посвященный финансированию действующих Государственных программ РФ (https://spending.gov.ru/gp/). В разделе представлены данные о 46 действующих на сегодняшний день программах, которые сгруппированы в пять направлений в соответствии с принятой классификацией. Раздел предоставляет агрегированные данные за 2016-2020 годы из трех основных источников: паспорта госпрограмм, данные соглашений о субсидиях, данные государственных закупок.

Пользователи портала-агрегатора «Госрасходы» получили доступ к сведениям о крупнейших контрактах и субсидиях в разрезе госпрограмм. В карточке каждой из них можно сравнить данные о плановом и фактическом бюджете (на основе данных Казначейства России) с суммой контрактов и субсидий за рассматриваемый период. Доступны агрегированные и детализированные сведения по соответствующим подпрограммам, главным распорядителям бюджетных средств (ГРБС), расходующим средства в рамках госпрограммы, и о получателях этих средств.

К примеру, в рамках госпрограммы «Развитие образования» основная доля расходов (57%) ожидаемо приходится на Минобрнауки и Минпросвещения. Лидеры в списке получателей средств: МГУ им. М.В. Ломоносова (38,5 млрд за 2016-2020 годы) и НИУ ВШЭ (30 млрд за тот же период).

В разделе «Аналитика» портала «Госрасходы» дополнены индикаторы, рассчитанные на основе данных о контрактах, заключаемых на федеральном уровне в рамках госпрограмм (https://spending.gov.ru/analytics/indicators/):

- Доля субъектов МСП среди исполнителей контрактов по госпрограммам;
- Распределение контрактов по суммам контрактов по госпрограммам;
- Объем и доля средств, уходящих 1% крупнейших поставщиков по госпрограммам;
- Конкурентность закупок по госпрограммам;
- Доля единственных поставщиков по госпрограммам;
- Доля социально ориентированными некоммерческими организациями (СОНКО) среди исполнителей контрактов по госпрограммам.

Индикаторы рассчитаны по годам, начиная с 2016-го. Для каждого из них приводится методика расчета, а данные для самостоятельного анализа можно скачать в формате CSV.
А вот и анонс нового раздела "Госпрограммы" на портале Госрасходы [1], проекта Счетная палата Российской Федерации

Он сделан по аналогии с предыдущим разделом "Национальные проекты" и его цель в том чтобы сделать декомпозицию госпрограммы по контрактам, субсидиям, участникам и получателям.

Декомпозиция эта непростая в виду того что современный бюджет - это почти полностью госпрограммы контрактов там миллионы, но полезная с точки зрения того чтобы понимать то как распределяются средства.

Пытливый читатель быстро обнаружит госпрограммы и подпрограммы в которых есть чуть ли не 100% государственной монополии и большая часть средств уходила от одной до 10 организаций.

Ссылки:
[1] https://ach.gov.ru/news/novyy-razdel-na-portale-gosraskhody-gosprogrammy-stali-bolee-ponyatnymi
[2] https://spending.gov.ru/gp/

#spending #opendata #opengov #achgovru
Может ли искусственный интеллект обманывать государство? Люди управляющие им или автоматизированными алгоритмами определённо могут. Статья AI-Powered Text From This Program Could Fool the Government [1] в Wired о том как студент-медик Гарварда автоматически нагенерировал комментарии к госпрограмме Medicaid так что люди-волонтеры не смогли отличить их от человеческих комментариев и этот случай не первый из применяемых в автоматических кампаниях поддержку или против какой-либо государственной инициативы, их несколько приводится в этой статье.

Каковы последствия ? Ускоренное введение единых механизмов авторизации, вроде ЕСИА в России или RealMe в Австралии.

Ссылки:
[1] https://www.wired.com/story/ai-powered-text-program-could-fool-government/

#privacy
В свободное время я пишу синопсисы к фантастическим рассказам и сами рассказы и собираю идеи для воплощения.

Три политико-философских тезиса которые можно было бы воплотить в фантастических рассказах о высоко-вероятностном
ближайшем будущем.

1. Цифровое отделение органов управления
Изменение общественного отношения к иститутам государственного управления локализованных в виде физических объектов, таких как "Белый дом", "Кремль", "Капитолий", "Бундестаг". Оцифровка деятельности органов власти приводит к полностью распределённой форме работы и невозможности воспрепятствовать их работе путем физического захвата/разрушения/повреждения инфраструктуры. Уже обыграно во многих других произведениям, но можно добавить красок.

2. Цифровые метрополии и контроль за данными
Контроль за данными жителей, корпораций, бизнеса и др. со стороны метрополий как гарантия не-сепаратизма территорий. Сценарий: конфликт с распадом или разделения или отделением территории от крупного государства приводит к тому что все данные остаются в метрополии что полностью парализует какую-либо экономическую активность за пределами натурального обмена. Захват территории теперь - это, в первую очередь, замена информационных систем одной метрополии на другие.

3. "Серые" люди с публичным интерфейсом в виде ИИ
Люди отказывающиеся от публичной жизни в социальных сетях и так далее, выполняющие только функции авторизации по биометрии и иных способов подтверждение что это человек, а вместо них искусственный интеллект общается, комментирует, формирует цифровой след, живёт политической жизнью и голосует.

Можно попробовать адаптировать повесть "Нос" Гоголя под современные реалии, можно придумать другой сценарий.
Для тех кто интересуется, дополнительно могу порекомендовать телеграм-канал о доказательной политике @evidence_guide, например, где рассказывается про весьма интересную публикацию Machine Coding of Policy Texts with the Institutional Grammar и многое другое.
"Грамматика институтов" - это подход к анализу институтов через фокус на синтаксических структурных элементах, которые составляют и формируют институты, воплощенные в языковой форме. К таким институтам относятся государственные политики, стратегии, законы и нормы. 

Подход был предложен Сью Кроуфорд и Элионор Остром еще в 1995 году. Вместе с тем, распространению “грамматики институтов” препятствуют значительные затраты времени и ресурсов, связанные с его применением.  Преодолению этой проблемы может помочь применение машинного обучения для классификации синтаксических элементов "грамматики институтов".

Об этом статья "Machine Coding of Policy Texts with the Institutional Grammar", принятая к публикации в журнале «Public administration».

Обзор по ссылке.
Регулярная подборка ссылок по работе с данными, открытости и приватности

На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1]
Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных.

Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python

Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев.

GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования.

Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT.

GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7]

Ссылки:
[1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
[2] https://github.com/ml-tooling/best-of-ml-python
[3] https://github.com/signalapp
[4] https://github.com/signalapp/Signal-Server
[5] https://github.com/mxrch/GHunt
[6] https://github.com/ivbeg/awesome-forensicstools
[7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/

#data #dataengineering #datascience #privacy #opendata
Браузер Brave теперь включает встроенную поддержку IPFS [1], децентрализованного пирингового протокола доступа к контенту [2]. Для других браузеров можно использовать расширение IPFS Companion [3]

Становится интересно когда IPFS включат в Chrome, Mozilla Firefox и другие браузеры, включенная по умолчанию эта технология может оказаться тем что изменит правила игры в экосистеме блокировок, слежки за пользователями и ещё многих других атрибутов "классического веб".

Ссылки:
[1] https://brave.com/brave-integrates-ipfs/
[2] https://ipfs.io
[3] https://github.com/ipfs-shipyard/ipfs-companion

#privacy
👍1
Этот телеграм канал Министерства стихов долго скрывать бы не получилось. Пость он позабавит вас в перерывах между серьёзными новостями @ministryofpoems