Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Сегодня у меня день мероприятий и второе мероприятие на котором я выступал - это всероссийская конференция «Информация и коммуникация в цифровую эпоху: явные и неявные воздействия» [1]

С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.

Ссылки:
[1] http://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97

#privacy #covid19
Помните в мае 2019 года я публиковал доклад об утечках персональных данных из государственных информационных систем? [1] Хотите знать что изменилось за эти годы? А ничего не изменилось.

1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.

В качестве примера сайт http://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.

Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
Но вернуться к этой теме всё равно придется несмотря на её "подвешенное состояние", с её регулятором Роскомнадзором, взаимодействовать бессмысленно, по моему опыту, у Минцифры тема не на повестке, у Счетной палаты у неё нет полномочий, а говорить об этом с людьми в Прокуратуре - это сразу жесткий вариант и неизвестно работающий ли.

Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.

#privacy #leaks
Если Вы ещё не читали, то очень рекомендую почитать свежий документ Third wave of Open Data [1] от Open Data Policy Lab [2] о том как развивается тема открытых данных.

Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.

В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?


Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org

#opendata #reports
Минприроды вывело из эксплуатации/закрыло/случайно уничтожило/(свой вариант?) сайты в заповедников в домене zapoved.ru [1], они ещё есть в кеше Гугла, но в остальном они закрыты. Архивные копии Минприроды не делало, анонсов о закрытии тоже.

Ссылки:
[1] http://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite

#archives #digitalpreservation
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
2 новости об открытых данных Минфина России:

1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».

2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
Для тех кто работает с открытыми данными (и просто с данными) напоминание про инструменты полезные для сбора и извлечения данных из самых разнообразных источников

- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines

Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].

А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.

Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.

Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.

Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.

Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.

Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping

#scraping #data #extraction
Forrester провели анализ по 39 критериям 10 крупнейших продуктов каталогов для машинного обучения и опубликовали отчет [1].

Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin

У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.

Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.

Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).

Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://t.me/begtin/2175

#dmp #data #opendata #datacatalogs
Я бы сказал удивительно, но на самом деле не очень то что на сайте Открытого бюджета Москвы есть новость о том что проект бюджета на 2021-2023 годы внесен в Московскую городскую думу [1] а ссылки на сам текст внесенного проекта бюджета или данные отсутствуют.

В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.

Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv

#opendata #moscow #budget
Forwarded from Инфокультура
Счетная палата РФ запускает Конкурс исследовательских проектов в госуправлении — DataContest. Инфокультура — информационный партнер конкурса.

Приглашаем принять участие профессионалов в области аналитики данных, которые знают, как сделать систему госуправления эффективнее.

Для участия необходимо предложить решение одной из задач по аудиту в ключевых направлениях: закупки в энергетическом комплексе, господдержка предпринимательства и резервных фондов, промышленность и технологическое развитие, образование и инновации и др.

Конкурс исследовательских проектов по аналитике данных DataContest проходит cо 2 ноября по 11 декабря. Сбор заявок продлится до 27 ноября. Лучшие проекты будут использованы в работе Счетной палаты.

Изучить список задач DataContest и подать заявку на участие: https://data-contest.ru/
Как обрабатывать данные? Какие бесплатные и платные инструменты существуют? И, особенно, как работать с данными изначально не в самом лучшем качестве.

Наиболее правильный термин data wrangling, плохо переводится на русский, но по сути - это "преобразование данных" и в этой области есть много инструментов. Другой часто используемый термин - data preparation или data prep (подготовка данных) за которым скрывается обработка и трансформация данных для последующей загрузки (ETL) или постобработки после загрузки (ELT).

Инструментов существует огромное количество. Есть много что можно собрать из маленьких компонентов, в академической среде, чаще это инструменты завязанные на executive papers такие как Jupyter Notebook, в open source среде - это многочисленные инструменты преобразования данных через командную строку и в корпоративной среде - это, чаще, дорогие коммерческие продукты сочетающие в себе множество возможностей.


- OpenRefine [1] бесплатный инструмент, некогда вышедший из проекта Google Refine который опубликовали в Google после поглощения команды Metaweb (проект Freebase). Один из лучших бесплатных инструментов в этой области.
- Trifacta [2] де-факто лидеры рынка, изначально делали акцент на обработке данных, сейчас это комплексный продукт по подготовке данных, их преобразованию и построение дата труб (data pipelines). Одно из самых дорогих решений на рынке, от $419 в месяц за пользователя.
- Microsoft Excel один из мощнейших инструментов о возможностях применения которого в обработке данных знают не все. Но с расширениями вроде ReshapeXL [3] позволяет добиваться многого.
- Microsoft PowerBI [4] включает многочисленные возможности обработки данных для последующей визуализации
- Tableau Prep [5] позволяет делать пред-обработку данных для последующей визуализации в продуктах Tableau.
- Datameer X [6] подготовка данных специально для озёр Hadoop
- Easy Morph [7] ETL инструмент подготовки данных без программирования
- Meltano [8] инструмент обработки данных через Python и с открытым кодом с интеграцией с разными источниками

Также большой список инструментов в коллекциях:
- Awesome ETL [9] подборка Extract, Transform and Load инструментов
- Gartner Data Preparation tools [10] список от Gartner

Основной тренд сейчас - это то что подготовка данных уходит в облака, я ранее писал о переходе от подхода ETL к ELT и обработке данных уже в облачном хранилище. Таких продуктов всё больше и, похоже, будущее за ними.

Ссылки:
[1] https://openrefine.org/
[2] https://www.trifacta.com/
[3] http://reshapexl.com/
[4] https://powerbi.microsoft.com/en-us/
[5] https://www.tableau.com/products/prep
[6] https://www.datameer.com/datameer-x/
[7] https://easymorph.com/
[8] https://meltano.com
[9] https://github.com/pawl/awesome-etl
[10] https://www.gartner.com/reviews/market/data-preparation-tools

#dataprep #datawrangling #data
Весьма симпатичный и простой проект Open Infrastructure Map [1] основанный на данных по энергетической и телеком инфраструктуре в Open Street Map (OSM).

Даже с поправкой на неполноту данных, очень нагляден для осознания обитаемой зоны человечества.

Ссылки:
[1] https://openinframap.org

#opensource #osm #data
7-я еженедельная рассылка "#7. Рождённые в цифре (digital born). Цифровые архивы новейшей истории" [1].

Всю эту рассылку я решил посвятить незаслуженно забываемой в России теме сохранения новейшего культурного и исторического наследия. Тема цифровых архивов незаслуженно игнорируется, хотя, уже сейчас наступило время когда она как никогда актуальна.

Ссылки:
[1] https://begtin.substack.com/p/7-digital-born-

#opendata #digitalpreservation
АНО Цифровая экономика открыли сайт CDO2Day [1].

Мне лично непонятно чему он посвящен и вообще о чём. Выходных данных нет, статуса СМИ нет, инсайтов нет, контент в целом мало отличается от моего канала тут. В общем, сделали конкурента моему каналу (шутка) или CNews (наверное тоже шутка).

Но производство контента - это дорогое удовольствие, либо тебя "прёт" от этого, например, я пишу в своём канале в телеграм и в фэйсбуке только по этой причине или ты нанимаешь журналистов писать статьи и рерайтеров перепечатывать новости. А если ты нанимаешь их то, надо и приличия соблюдать, и как СМИ зарегистрироваться и главного редактора определить и редакционную политику сформировать и выходные данные публиковать. В общем, не партизанить, а честно делать то что делаешь.

Пока попытка так себе. Для профессионального издания слишком поверхностно, для массового недостаточно глубоко и не скандально.

Я по прежнему недоумеваю. Если кто-то знает концепцию этого проекта, расскажите плз.

Ссылки:
[1] https://cdo2day.ru

#data #digital #media
Для тех кто работает с данными постоянно, выбирает инструменты для экспериментов, создает методологии и исполняемые статьи (executive papers) подборка инструментов для автоматизации работы:

Проекты с открытым кодом:
- Jupyter Notebook и JupyterLab [1] - стандарт де-факто, используется в большинстве проектов
- Apache Zeppelin [2] - система записных книжек с поддержкой SQL и Scala, с открытым кодом
- BeakerX [3] - расширения для Jupyter Notebook с дополнительными возможностями, такими как интерактивными таблицами
- Polynote [4] - платформа для записных книжек на Scala от Netflix
- Elyra [5] - расширения для Jupyter Notebook для работа с AI

Внутри редакторов кода
- Pycharm [6] - поддерживает Jupyter Notebook прямо в среде разработки. Коммерческий
- Hydrogen [7] - поддержка Jupyter Notebook внутри редактора Atom. Открытый и бесплатный

Облачные коммерческие продукты:
- DeepNote [8] - коммерческий продукт совместимый с Jupyter
- franchise [9] - облачные записные книжки для работы с SQL
- Starboard [10] - записные книжки с поддержкой Markdown, Latex, Javascript и Python. Стартап
- Google Colab [11] - облачные записные книжки на базе Jupyter от Google
- Microsoft Azure Notebooks [12] - облачные записные книжки на базе Jupyter от Microsoft
- Wolfram Notebooks [13] - специализированные научные блокноты на базе языка Wolfram

Корпоративные продукты:
- DataIku [14] - комплексный продукт организации работы data scientist'ов

Список наверняка неполный и его ещё не раз можно пополнять.

Ссылки:
[1] http://jupyter.org
[2] https://zeppelin.apache.org/
[3] http://beakerx.com/
[4] https://polynote.org
[5] https://elyra.readthedocs.io/en/latest/
[6] https://www.jetbrains.com/help/pycharm/jupyter-notebook-support.html
[7] https://nteract.io/atom
[8] https://deepnote.com
[9] https://franchise.cloud/
[10] https://starboard.gg
[11] https://colab.research.google.com
[12] https://notebooks.azure.com/
[13] https://www.wolfram.com/notebooks/
[14] http://dataiku.com/

#datascience #tools
Много лет назад, когда я мониторил расходы государства больше времени чем сейчас занимаюсь работой с данными я много раз сталкивался с тем как государственные органы и государственные структуры тратили ресурсы на контентные проекты и на контентное наполнение официальных и не очень сайтов.

Если кратко, то в большинстве случаев эти расходы были большой ошибкой. Вообще госрасходы в создание контента это плохая стратегия, обычно свидетельствующая что, либо некуда девать деньги, либо одно из двух.

Вот несколько примеров.
- anticartel.ru - был создан ФАС России не позднее 2010 года, прекратил работу в 2018 году. Был просветительским сайтом по картелям и антикартельной политике. Контент только изнутри самого ФАС, содержание было довольно, скажу так, скучным. Уже 2 года как не действует. Контента от пользователей там не было, просто просветительский проект.
- takzdorovo.ru - проект Минздрава в России на который в разные годы министерство контрактовалось от 20 до 60 миллионов в год. Лично у меня до сих пор есть сомнения настолько ли он востребован гражданами и нельзя ли было потратить лучшим образом на пропаганду здорового образа жизни субсидиями СМИ. Здесь, казалось бы, контент от пользователей должен был быть, но он не взлетел.
- gosbook.ru - когда-то неплохая идея с блогами чиновников/окологосударственных экспертов и тд. Какое-то время он жил, но довольно быстро выродился в поток новостей, а поддержание движухи с контентом от пользователей не пошло.
- regionalochka.ru - соцсеть для чиновников, тоже вокруг контента от пользователей. Появилась чуть более 10 лет назад и несколько лет просуществовала после чего исчезла.
- digital.ac.gov.ru - портал нацпрограммы "Цифровая экономика" на сайте АЦ при правительстве. По началу пытались создавать контент, я им даже писал колонку. А сейчас это поток репостов (даже не рерайт) новостей с сайта правительства и АЦ

Я не буду упоминать сейчас десятки других _контентных_ госпроектов за эти годы, среди них более устойчивыми были те что создавались под крупными госмедиахолдингами вроде РИА и ТАСС, которые просто перенаправляли туда часть своего медиа-потока и менее устойчивыми были те в который стоимость единицы текста была значительно выше.

К чему я это всё веду. Если к примеру АНО ЦЭ создаёт контентный медиа проект на деньги своих учредителей (не государства), то это ещё можно классифицировать как специальный подвид корпоративных медиа.

А вот 58 тысяч терминов которые и 13.5 тысяч тегов в отраслевых словарях которые ОАО "Большая российская энциклопедия" должны внести в интерактивный энциклопедический портал к декабрю 2020 года на который они получили субсидию 13520P0S000 в 684 млн. рублей - это главная интрига уходящего года. Больше неё - только то сколько будет посетителей у этого портала.

#content #government
Подборка разного о государственных информационных ресурсах и базах данных о которых Вы можете не знать:
- ФМБА России публикует данные по санитарно-эпидемиологической обстановке на сайтах своих межрегиональных управлений с детализацией до муниципалитетов (городов и поселков). Пример: МРУ N 156 [1]. Один минус - данные все неструктурированные

- Минздрав России имеет свой сервис API на базе данных адресов ФИАС и это API общедоступно и документировано [2]

- у ФФОМС и Минздрава России есть порталы НСИ [3] [4] где можно скачать в машиночитаемом виде их справочники

- а общероссийские справочники можно скачать из системы справочников Санкт-Петербурга [5]

- у сайта Мэрии Москвы есть большое недокументированное API по большинству опубликованных там объектов. Например, по организациям на портале [6]

- ФМБА публикует регулярные сводки по забоеваемости COVID-19 на их территориях. По ссылке [7] можно менять последние цифры в названии файла "приложение к сайту 01.10.pdf" от 01.10 (1 октября) до 09.11 (9 ноября) все файлы имеют одинаковые префиксы. На самом сайте ссылок на архивные данные нет [8]. Это пока единственные данные с муниципальной детализации в статистике по COVID-19, но охватывают они только закрытые города РФ. Данные в pdf в табличной форме, легко переводятся в машиночитаемый вид.

- Информационный ресурс ФАИП [9] один из немногих ресурсов Минэкономразвития РФ где общедоступно публикуются результаты исполнения контрактов в рамках ФАИП. Вернее публиковались очень давно

- База данных «Стенограммы заседаний Государственной Думы» [10] включает стенограммы выступлений депутатов всех созывов. Может оказаться хорошей базой для обучения алгоритмов по самым разным текстовым задачам: измерения объёма лексики публичного человека, поиск негатива, позитива и ещё много чего. Данные неплохо размечены и относительно несложно превратить их в датасет.



Ссылки:
[1] https://mru156.fmba.gov.ru/deyatelnost/sanitarno-epidemiologicheskoe-sostoyanie/
[2] http://fias.egisz.rosminzdrav.ru/
[3] http://nsi.ffoms.ru
[4] https://nsi.rosminzdrav.ru/
[5] http://classif.gov.spb.ru/
[6] https://www.mos.ru/api/structure/v1/frontend/json/ru/institutions
[7] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BA%20%D1%81%D0%B0%D0%B8%CC%86%D1%82%D1%83%2001.10.pdf
[8] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/#fmba_rossii_operativnaya_informatsiya
[9] http://infrfaip.economy.gov.ru/
[10] http://transcript.duma.gov.ru/

#opendata #government #resources