Ivan Begtin
9.07K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открывается ли у вас сайт проекта «Госрасходы» (spending.gov.ru) без VPN?
Anonymous Poll
66%
Да, я в России
18%
Нет, я в России
0%
Да, я не в России
16%
Нет, я не в России
👍1
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive
👍8
Полезное чтение про данные:
- обзор использования SQLPad для расследований на данных [1]. Простой и полезный инструмент, для дата журналистов и дата аналитиков полезный в первую очередь.
- построения простого data pipeline на Python [2], реально простой пример с хорошим объяснением для начинающих.
- современные модели архитектур работы с данными [3]
- очередное рассуждение о том какой формат файлов выбрать для труб данных [4] со сравнением Parquet, Avro и Orc. Вообще-то есть и много других вариантов.
- Jupyter Notebooks теперь можно интегрировать в любой веб сайт используя Jupyter Lite [5], весьма полезно для наглядности

Ссылки:
[1] https://medium.com/codex/introduction-to-a-tool-for-data-investigation-sqlpad-3d20c127556c
[2] https://blog.devgenius.io/python-etl-pipeline-the-incremental-data-load-techniques-20bdedaae8f
[3] https://preetihemant.medium.com/modern-data-architecture-models-69e90b725a05
[4] https://medium.com/@montadhar/how-to-choose-an-appropriate-file-format-for-your-data-pipeline-69bbfa911414
[5] https://medium.com/jupyter-blog/jupyter-everywhere-f8151c2cc6e8

#reading #datatools #data
👍2🔥2
В рубрике интересных наборов данных Research Organization Registry (ROR) [1] некоммерческий проект по созданию сводного полного реестра всех исследовательских организаций в мире. В общей сложности включает более 100 тысяч организаций для которых собраны сведения о их сайтах, названиях, идентификаторах в других реестрах таких как GRID, WikiData, ISNI и многих других. И присвоен свой идентификатор ROR.

У проекта есть описание хранимых данных и REST API [2], а все данные в виде дампа на регулярной основе публикуются в каталоге научных данных Zenodo [3], около 200MB в распакованном виде.

А также весь код проекта и его компонентов раскрывается [4], также как и планы его развития [5] также в виде проекта на Github

Ссылки:
[1] https://ror.org
[2] https://ror.readme.io/docs/ror-data-structure
[3] https://zenodo.org/record/6347575
[4] https://github.com/ror-community
[5] https://github.com/ror-community/ror-roadmap

#opendata #dataset #research
2👍2
Новости проекта на 31 марта 2022 г.

- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.me/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.

Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y

#digitalpreservation #archives #webarchives
👍15
Когда-то много лет я потратил на тему которая может показаться многим странной - превращение сайтов в API причём с минимальным участием человека. Потом все эти наработки пошли в DataCrafter где наборы данных структурируются из изначально не особо структурированного вида и в кучу разного опенсорса. Дошли руки до актуального здесь и сейчас - доделать утилиту превращения сайтов на Wordpress в наборы данных.

Так что в рубрике интересных наборов данных... пам-пам-пам... все сайты на Wordpress.

#opendata #data #opensource
👍10🔥4😱1
Подготовлена бета версия утилиты командной строки wparc [1] архивации данных из сайтов Wordpress.

Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.

Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].

Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump

Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.

Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.

В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).

Найденные ошибки заполняйте в issues репозитория проекта wparc [3]

Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues

#wordpress #webarchives #digitalpreservation #opensource #tools
👍6
В рубрике интересных каталогов открытых данных большое открытие, Oracle Open Data [1], каталог огромных наборов данных доступный на базе облака компании Oracle.

Их особенность - это данные большого объёма, минимальные в десятках гигабайт, максимальные в сотнях терабайт. Акцент на данных о земле, данных расшифровки генома и так далее. Всё это под открытыми лицензиями и в удобном доступе на их инфраструктуре. По идеологии очень напоминает открытые датасеты на платформах Azure и Amazon AWS, а также данные которые доступны в Google Cloud. Но лидер по масштабам пока именно Amazon. И почти все делают акцент на наиболее востребованных научных данных.

Почему крупные BigTech корпорации создают такие каталоги? Потому что для их сервисов облачной инфраструктуры - это мощная "замануха" позволяющая убить сразу нескольких зайцев:
- социальный эффект от доступности для всех интересных наборов данных
- возможность с самого начала подсаживать на свою инфраструктуру студентов и исследователей
- маркетинг на общественно благих целях

Конечно без попыток vendor lock-in не обходится, но это, в целом, хорошие инициативы и за ними интересно наблюдать.

Кстати, если кто-то из российских облачных провайдеров задумается о том чтобы создать похожий каталог из очень больших датасетов связанных с Россией и нужных российской аудиторией - обращайтесь, мы как раз собрали масштабный каталог в DataCrafter'е (data.apicrafter.ru) и это ещё не все данные, а только те что успели обработать;)

Ссылки:
[1] https://opendata.oraclecloud.com

#opendata #datacatalogs #bigtech #oracle #data #datasets
👍19
В свете последних событий я слегка упустил тему с последними утечками персональных данных которые публиковали украинские хакеры (Яндекс.Еда, СДЭК и др.) и интенсивными хакерскими атаками в первую очередь на органы власти в России.

И тут есть два аспекта. Первый, что делать если "shit happened" и второй, что делать если "shit will happen soon".

Первый вопрос в том как должны себя вести компании когда у них произошли утечки данных и достаточно существенные чтобы это нельзя было бы скрыть.

Должны ли они?
- уведомить регулятора(-ов)
- уведомить всех пострадавших
- написать публичный отчет о подробностях инцидента
- поименовать и уволить/иным образом наказать ответственных
- описать полный перечень принимаемых действий для неповторения утечки в будущем
- обеспечить материальную компенсацию пострадавшим

Что-то ещё не перечисленное выше? Что компании должны сделать и делать в таких случаях?

Потому что текущие утечки - это серьёзно, но могут быть утечки и посерьёзнее. Например, утечки из крупных государственных систем или биллинга физ. лиц естественных монополий или внутренний документооборот крупных корпораций и многое другое.

А второй аспект про то что надо делать прямо сейчас компаниям/организациям для минимизации ущерба до того как дерьмо случится. Потому что можно почти на 100% быть уверенными что произошедшее только начало и оно точно случится, в зоне риска могут быть все недостаточно защищённые информационные системы, частные и государственные.

Регулирование в России и в мире развивается по принципу усиления ответственности для операторов и обработчиков персональных данных. И в России сейчас говорят об оборотных штрафах для компаний.
Что должны делать компании прямо сейчас?
- кратно увеличивать расходы на информационную безопасность
- проводить срочный аудит унаследованных информационных систем
- ужесточать ответственность за несанкционированный доступ к данным
и тд.

#security #privacy #leaks
👍3
Правительство Великобритании опубликовало The Digital, Data and Technology Playbook [1] о том как управлять цифровыми проектами на данных и технологиях. Руководство весьма конкретное, про то как такие продукты готовятся и запускаются и о том как взаимодействовать с коммерческими компаниями.

Ссылки:
[1] https://www.gov.uk/government/publications/the-digital-data-and-technology-playbook/the-digital-data-and-technology-playbook

#data #digital #government #uk
👍7
Цензура бывает не только в России не только в авторитарных странах, но имеет другую природу. Свежий законопроект в США SMART Copyright Act [1] предполагает введение практики технической блокировки онлайн ресурсов распространяющих материалы под копирайтом. Это не единственный и не первый такой нормативный документ в мире, ранее похожие инициативы были в Канаде и в Великобритании. Обо всём этом пишет Peter Routhier в блоге Archive.org [2].

Против этого законопроекта уже выступили такие НКО как Electronic Frontier Foundation, Public Knowledge, the Library Copyright Alliance и многие другие организации выступающие за свободу знаний [3].

Если закон будет принят, то неизбежны блокировки многих сайтов распространяющих знания, онлайн инициатив таких как Sci-Hub и многих других.

Ссылки:
[1] https://www.tillis.senate.gov/services/files/435EB2FD-145A-4AD6-BF01-855C0A78CEFC
[2] http://blog.archive.org/2022/03/29/internet-archive-joins-opposition-to-the-smart-copyright-act/
[3] https://archive.org/details/joint-letter-opposing-smart-act

#digital #censorship #copyright #copyleft #laws #usa
👍4🤬4
Я много писал про государство и технологии, всё больше про данные в предыдущий год и вот всё чаще про цифровые архивы. Может показаться что это не взаимосвязанные темы, но это не так. Веб архивы - это одна из форм данных очень большого объёма, полуструктурированных как правило, но тем не менее вполне подпадающих под задачи data science.

Один из примеров такого применения - это проект Archives Unleashed [1] его авторы создали множество инструментов того как представлять, обрабатывать, анализировать и иными способами работать с файлами веб архивов. Собственно их Archives Unleashed Toolkit (AUT) [2] это инструментарий по созданию инфраструктуры обработки WARC файлов с помощью Hadoop, Apache Spark, Jupiter Notebook и других инструментов работы с данными большого объёма.

Многие наборы данных были созданы с помощью AUT, также как и проведены многочисленные исследования [3]. Не стоит недооценивать эти инструменты, они весьма полезны исследователям современного мира и не только.

Ссылки:
[1] https://archivesunleashed.org/
[2] https://aut.docs.archivesunleashed.org/
[3] https://archivesunleashed.org/cohorts2022-2023/

#opendata #data #tools #opensource
👍7
Как устроены веб-архивы в мире?

Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].

Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․

Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.

Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].

Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection

#webarchives #australia #digitalpreservation
👍3🥰1
Продовольственная и сельскохозяйственная организация ООН (FAO) опубликовали отчёт Towards open and transparent forest data for climate action: Experiences and lessons learned [1]

В докладе опыт сразу нескольких проектов по работе с данными в FAO. Это, например:
- Global Forest Resources Assessment Platform [2] - платформа для мониторинга лесов
- Food and Agriculture Microdata Catalogue (FAM) [3] - каталог микроданных о еде и агрокультуре

и многое другое.

Доклад в формате Lessons Learned непривычен для российского читателя, у нас на удивление не принято признавать что не всё и не всегда идёт как планировалось и что надо учиться на ошибках, по крайней мере в публичном секторе.

Что важно так это то что открытые данные, открытый код, свободные лицензии становятся нетъемлимой частью работы структур ООН.

Ссылки:
[1] https://www.fao.org/documents/card/ru/c/cb8908en/
[2] https://fra-data.fao.org
[3] https://www.fao.org/food-agriculture-microdata/en

#opendata #data #un #food #agriculture #fao
👍12
В рубрике полезных инструментов по работе с данными Mito [1], движок с открытым кодом встраивающийся в JupyterLab 2.0 и 3.0 и позволяющий работать с данными как если бы это был Excel или OpenRefine.

Фактически это lowcode инструмент по генерации кода на Python на основе манипуляций с датафреймом внутри тетрадки Jupyter. Как оказалось, очень удобная штука с большим числом пользователей.

Ссылки:
[1] https://www.trymito.io/

#data #datawranling #tools #datatools #opensource
👍5🔥1
В рубрике интересных больших наборов данных, данные OpenAIRE Research Graph [1]. В наборе данных собраны все метаданные о публикациях, данных, исследователях, изданиях, финансировании и иных сведений из европейского проекта OpenAIRE. Это, в общей сложности, сведения о:
- 24 финансирующих структуры
- 97 000+ публикаторов (изданий/организаций)
- 3 000 000+ научных проектов
- 132 000 000+ научных публикаций
- 15 000 000+ научных наборов данных
а также сведения о программном обеспечении и иных научных продуктах.

Общий объём хранения в системе OpenAIRE около 860ТБ, а объём OpenAIRE Research Graph около 136ГБ [2].

Данные собираются из множества источников, включая ORCID, Crossref, Microsoft Academic Graph и других [3].

Это большая, сложная, неплохо продуманная система агрегации данных и публичный продукт в виде сайтов, данных и API.

Есть ли там исследователи и исследовательские центры из России? Да, конечно же есть. 797 научных организаций из России зарегистрированы в OpenAIRE [4].

Ссылки:
[1] https://graph.openaire.eu/develop/graph-dumps.html
[2] https://zenodo.org/record/5801283
[3] https://graph.openaire.eu/about#architecture
[4] https://explore.openaire.eu/search/find?active=organizations&country=%22RU%22

#data #opendata #science #openacess #datasets #eu
В рубрике больших наборов открытых данных для аналитической работы, в проекте Open Beneficial Ownership выложили наборы данных в виде аналитических баз данных по конечным владельцам компаний [1].

Данные можно скачать в виде CSV файлов, баз данных Postgres и Sqlite, в виде сайта Datasette и доступны через Google Bigquery. Тут важно вспомнить что оригинальные данные в проекте хранятся в виде больших JSON дампов и то что выложено сейчас - это нормализация этих данных в виде плоских таблиц. Вот тут можно их скачать [2] и использовать любым удобным аналитическим инструментом.

Главный недостаток этих наборов данных - это неполнота. Пока совсем далеко не все страны охвачены, в базах есть сведения из реестров Великобритании, Дании, Словакии, Украины и частично Латвии.

Ссылки:
[1] https://www.openownership.org/en/blog/launch-of-beneficial-ownership-data-standard-analysis-tools/
[2] https://bods-data.openownership.org/

#datasets #opendata #data #companies
👍4
Forwarded from Трансперенси
«Декларатор» и Инфокультура собрали в архив инстаграмы российских чиновников

После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.

Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org
🔥11👍3