Ivan Begtin
9.08K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Одна из тем на которые я регулярно пишу здесь, в телеграм канале, это регулирование цифры и, в первую очередь, данных в ЕС, США и других развитых странах. Пишу я об этом всём уже чёрт знает сколько лет, минимум лет 12, на разных площадках и читать об этом регулировании регулярно у меня уже вошло в привычку.

Но вот в свежих дискуссиях с коллегами/экспертами/лоббистами, в последние месяцы постоянно всплывает одна и та же тема что приводить в России сейчас малорезультативно приводить в пример ЕС или США. Как минимум в части GR, как максимум в части большей части публичных коммуникаций. Например, не поможет в разговоре с Роскомнадзором говорить про GDPR, а в разговоре с Минцифрой про европейские экосистемы обмена данными или американский опыт публикации данных. Это касается не только этих регуляторов, а уже практически любых.

Но, как минимум, русскоязычный мир Россией не ограничивается и нельзя сказать что в России настолько всё хорошо с работой с данными чтобы чужой опыт можно было бы не учитывать.

Поэтому я подумывал сократить число публикаций про регулирование и госполитику в своём канале, но останавливает пока то что:
a) Есть и другие постсоветские страны и русскоязычные читатели по всему миру
б) "Вся эта хрень" не навсегда и думать про то как мир устроен надо.

А что вы думаете про нерелеватность мирового опыта для GR в России? Предлагаю поговорить об этом в комментариях и сейчас я размещу опрос для тех кто готов только проголосовать.

#thoughts #gr #government #regulation
👍8
Полезные материалы по управлению метаданными и каталогами данных

Open source продукты
-
Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года

Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов

Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]

Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen

Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k

#datacatalogs #data #metadata #datatools
👍6
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.

Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги

Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.

Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022

#opendata #government #eu #opengov #digital #economy
👍6
XML файлы бывают разными, мы практически все сталкиваемся с ними когда надо работать с данными и API по ранее разработанным стандартам или когда работа идёт с унаследованными системами.

Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.

Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.

Примеры таких файлов [1] [2], а всего их более 48.

Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.

Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].

Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.

Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71

#opendata #data #government #opengov
👍11
Закрываю опрос и по его итогам большинство читателей, всё же, считает что зарубежный опыт развитых стран в цифре в России нужен и актуален. Пока такое настроение сохраняется продолжу писать на эту тему на регулярной основе.
👍7
Две неприятные новости про Минцифры РФ.

1. Про то что эксперимент про созданию госрепозитория кода провалился отложен на неопределённый срок. [1] Странная история, могу лишь предполагать какой-то дефицит кадров в министерстве потому что это была бы нужная инициатива ещё и про открытый код, при правильной реализации. Но, похоже, ни правильной, ни неправильной реализации мы не дождёмся.
2. Минцифры предложило собирать биометрию россиян без их согласия [2], а вот это реально плохая инициатива, в чистом виде китайский путь по регулированию перс данных. Китайский путь можно описать такой короткой фразой: "мы очень-очень защищаем персональные данные которые о гражданах собирает бизнес, а вот само государство может собирать их как-угодно, где-угодно, делать с ними что угодно, а кому это не нравится, идите сами знаете куда". Это если описать это простым русским понятным языком.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/08/08/935090-gosudarstvennogo-repozitoriya-po-perenesen
[2] https://www.rbc.ru/politics/09/08/2022/62f1e7fb9a7947174c3125aa

#digital #privacy #government #regulation
👍14🤬5😱31😁1
Как обещал, я буду стараться чаще писать про технологические инструменты которые делаются в рамках проекта APICrafter, в том числе тот о котором я пишу часто в последнее время - metacrafter про распознавание семантических типов данных.

Инструмент уже, в принципе, в состоянии когда его надо переводить в промышленное использование, но, всегда хочется докрутить ещё чуть-чуть.

Так вот, здесь про пользу государственных порталов открытых данных вроде российского data.gov.ru, британского data.gov.uk и др. Польза эта в многообразии. Например, по data.gov.ru я обучаю распознавалку семантических типов данных.

Для тех кто интересуется как это работает, в репозитории metacrafter-datacatalogs-raw собраны метаданные с разных порталов и опубликован результат распознавания семантических типов данных по data.gov.ru. Желающие могут скачать нефильтрованный результат распознаваний в файле datagovru_semantictypes.jsonl.xz

В цифрах:
- 18+ тысяч обработанных наборов данных
- 198 660 полей полей структурированных файлах
- 66 921 полей у которых автоматически определен семантический тип (примерно 34%)
- наиболее успешно идентифицируются: уникальные идентификаторы, булевые значения, наименования, ФИО, дата и время, номер телефона, url, год и тд
- самые частые ошибки в полях когда название поля используется как булевое значение, а не как содержащие сущность. Например, если поле называется "passport", а не "hasPassport" и по факту является словарем в значениях "имеется" и "отсутствует"
- распознавание можно улучшить зная контекст, источник данных, дополнительные метаданные и тд., но это какое-то дополнительное направление исследований, скорее научное чем практическое.

В общем и целом могу сказать что такое разнообразие данных полезно для разработки алгоритмов несмотря даже на бесполезность данных для практического использования.

Но даже для такой задачи есть ключевая проблема - это качество данных. Я не просто так пишу про то что госданные, в целом, это мусор.
Вот лишь несколько характеристик именно низкого качества данных:
- CSV файлы публикуются в разных кодировках и с разными разделителями (это, отчасти, преодолимо)
- CSV файлы очень часто публикуются без заголовков, например, многие данные из ХМАО (это реальная проблема)
- многие расширения файлов не соответствуют содержанию. CSV или ZIP вместо XML, HTML вместо CSV и так далее
- многие ссылки на файлы на других сайтах давно протухли, например, ссылки на сайт fstrf.ru давно ведут на какой-то левый сайт.
- вместо настоящих XML файлов с данными публикуются файлы разметки. Я об этом писал ранее, это вообще напоминает какой-то подлог
- многие CSV файлы это кривой экспорт из Excel с многострочтными заголовками и строками ИТОГО нарушающими разбор файла
- огромное число файлов просто пустые

Делать полную оценку причин и проблем с качеством открытых гос данных долго, я пишу о том насколько они влияют на возможность их автоматизированного анализа. Собственно по причинам выше и из 26+ тысяч наборов данных удалось обработать около 18+ тысяч и среди обработанных есть ошибки связанные с неверными заголовками у CSV файлов.

При этом, не в защиту российских чиновников, а в сторону госчиновников в принципе могу сказать что мало где в мире над качеством открытых данных реально работают. Я недавно общался с командой одного из крупных продуктов по публикации открытых данных и они говорят что чиновники по всему миру просят их, скорее, добавить возможность публикации PDF'ов и других плохоструктурированных данных, чем мониторинг качества данных.

Но всё постепенно меняется и я про качество данных расскажу ещё не раз.

#opendata #datasets #metadata #metacrafter #apicrafter
👍4
Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.

RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.

Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.


Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/

#standards #google #apple #messaging #rcs #privacy
👍5🔥1
Интересная статья венских исследователей о том что можно снизить рассеивание сигнала WiFi с помощью специального "антибликового" покрытия на стенах. Об этом в статье в Nature [1] и в более понятном изложении в NewsWeek [2]․

Идея такая что если перед железобетонной стеной создать поверхность аналогичную антибликовому покрытию на очках, только применительно к радиоволнам в определенном диапазоне, то сигнал не рассеивается, а, наоборот, значительно лучше передается далее.

В статье акцент на технологиях 6G и того что такие разработки будут полезны, а я вот не могу не смотреть на это с других точек зрения.

Во первых интересно как будут меняться строительные нормы и практическое применение. Если для бизнес центров применение будет довольно очевидным, то в жилых домах наличие такого покрытия на стенах и потолках позволит на последней миле использовать не роутер-в-каждой-квартире, а, условно, один роутер на 3 этажа. Возможно ли такое? Практично ли такое?

Во вторых увеличение дальности передачи сигнала - это, ведь, ещё и увеличение дальности приёма сигнала. Увеличит ли это точность геопозиционирования с помощью Wifi? Создаст ли это возможность отслеживать перемещение конкретного устройства в закрытых помещениях на большем расстоянии?

Ссылки:
[1] https://www.nature.com/articles/s41586-022-04843-6.epdf?sharing_token=IZPhXGh_UB8vpyGhMtbWFNRgN0jAjWel9jnR3ZoTv0OJKS2U2m5YIN0ttreuTZyoFceV-NgY6T0XAsRIt97bgyhYGbkxzf4IbIhkuCeqiTI4jWocZlHGQqCpzHYMakiv7f_xbv1IsgN42Ol2Szv9d2RyISqm5pBgA1pdoqH4kIgCZTP-bL6x5tDLwNmJDMqURyYJDSAZuWRxAm-xWlG0QN6jWlN12Ikp-cntE2eFW24%3D&tracking_referrer=www.newsweek.com
[2] https://www.newsweek.com/new-wifi-reflection-tech-could-send-signal-through-impenetrable-walls-1732088

#wifi #privacy
👍7🤔2
В рубрике как это устроено у них B2Find EUDAT [1] поисковик по научным данным в европейских репозиториях данных. Охватывает более 1 миллиона наборов данных, позволяет фильтровать по:
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.

Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.

Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.

Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.

По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.

По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.

Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.

Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy

#opendata #researchdata #openaccess #datasets #search
👍6🔥1🥰1
В рубрике интересных проектов на данных, проекты в области цифровых гуманитарных наук.

OmiaViae [1] планировщик пути по дорогам Римской Империи. Можно задать город выхода и город куда ты направляешься и сервис построит дорогу. Основан он на данных из Tabula Peutingeriana копии карты публичных римских дорог. Ей посвящён отдельный сайт и собраны данные [2]․

В основе этого же проекта ещё один проект по истории античности Vici [3] созданный в виде пополняемой семантической вики с картой Европы и не только с местами связанными с античными событиями. Проект претендует на то чтобы быть Wikidata для античности, ну или интегрироваться в Wikidata в будущем.

А в основе их всех проект Pleiades [4], большая открытая база данных созданная в Ancient World Mapping Center and Institute for the Study of the Ancient World. В ней опубликованы данные о 39,503 местах, 35,825 именах, 42,338 местонахождениях. Всё это доступно под свободной лицензией CC0 и в виде JSON, CSV, RDF и KML форматов данных.

Всё это примеры того что историки могут создавать на основе накопленных открытых данных. Есть много других похожих проектов и многие ещё ожидают своих создателей.

Ссылки:
[1] https://omnesviae.org
[2] https://www.tabula-peutingeriana.de/
[3] https://vici.org
[4] https://pleiades.stoa.org

#opendata #digitalhumanities #datasets
👍7🔥5🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
Rill Data [1] стартап по визуализации данных в виде простых дашбордов составляемых из SQL запросов поднял инвестиций в $12M. Внутри продукта базы Apache Druid и DucksDB, есть версия для разработчиков с открытым кодом [2]

Позиционируют продукт как радикально простые панели и выглядит продукт интересно, надо посмотреть его в подробностях.

Из минуса - вся та же глобальная проблема в Modern Data Stack, работа с плоскими таблицами, невозможность работать с JSON без подготовки данных.


Ссылки:
[1] https://www.rilldata.com/
[2] https://github.com/rilldata/rill-developer

#dataviz #opensource #data #datatools #startups
👍5
Из любопытных инструментов, в Hex, онлайн сервисе тетрадок для машинного обучения, появились no-code cells [1], это когда вместо написания Python или SQL можно выбрать интерактивно параметры, а сервис сам сгенерирует код.

Выглядит удобно как гибридный инструмент, и для тех кто напишет код сам, и для тех кому угодно не в виде кода, и для тех кто поправит за вторыми, то что они не могут сами.

Наступает время гибридных инструментов!

Ссылки:
[1] https://hex.tech/blog/introducing-no-code-cells

#datatools #sql #python
👍9
Как и многие имевшие отношение к госИТ я читаю телеграм канал ГосТех'а и их последние тексты про мировой опыт ИТ в государстве.

Как бы при этом сказать, уровень этих текстов удручающий, ещё лет 7-8 назад я видел куда более детальный анализ того что делается в мире и сам составлял с несколько десятков презентаций, текстов, докладов и иной аналитике обо всём вот этом.

Чтобы не томить, я кратко опишу в чём сейчас мировой опыт заключается и как он отличается от российского. Оговорюсь что мировой опыт - это не только развитые страны, но и все более менее крупные.

1. Стратегии и долгосрочные планы
В мире - до реализации, реже, в процессе принимают национальные стратегии развития ИТ, облачных технологий, данных и ИИ. При необходимости их корректируют, их наличие мониторят, например, ОЭСР и ООН.
В России - стратегии скорее редкость, если они и есть то вторичны реальным процессам, а чаще их нет.

2. Открытый код госпроектов
В мире - происходит массовое раскрытие кода госпроектов, проектов финансируемых госорганами и госучреждениями и компонентов этих проектов. В основном на Github, но и на других платформах. Сотни организаций, тысячи репозиториев кода.
В России - раскрытие кода госорганами и госучреждениями не практикуется, повторное использование кода почти нулевое.

3. Облачная инфраструктура
В мире - сертификация и унификация требований к облачным провайдерам для обеспечения работы госсистем. Цель в том чтобы разработчики умеющие работать с коммерческими облаками могли бы без переподготовки работать над госпроектами и в экономии средств на обслуживании оборудования и инфраструктуры.
В России - вместо сертификации коммерческих облачных провайдеров, несколько безуспешных попыток запустить гособлака.

4. Работа с данными
В мире - в основе работы с данными работа с потребителями, бизнесом и гражданам, а лишь потом решение задач самих госорганов. Работа с данными строится вокруг порталов открытых данных созданных для публикации данных государства. Эти порталы активно развиваются.
В России - усиление работы с данными для потребностей госорганов, патерналистичный подход к доступности данных для пользователей, вместо данных, предоставляются госсервисы. Общее снижение открытости государства для независимого анализа и гражданского контроля

5. Стандарты
В мире - принятие национальных и международных стандартов работы с данными, спецификаций обмена сведениями, использование стандартов для интеграции информационных систем.
В России - минимизация международных стандартов, медленное создание национальных стандартов. Внедрение общих технологий через централизацию информационных систем.

6. Интеграция информационных систем
В мире - большая работа по интеграции унаследованных систем, систем в разных юрисдикциях и у разных уровней и ветвей власти, тщательная проработка юридических аспектов интеграции и обработки данных.
В России - сверхцентрализация информационных систем, вместо интеграции замена информационных систем регионов на единые федеральные. Политизация процесса интеграции, де-факто, перевод всех ветвей власти в зависимость от федеральной исполнительной власти.

Это, конечно, не всё, я таких пунктов могу написать ещё несколько десятков страниц, но хочу сделать акцент на другом. Информатизацию уже давно нельзя отделять от внутренней политики, в первую очередь контроля центральной/федеральной исполнительной власти, не только за гражданами, но и за всеми остальными ветвями и видами власти. Это сохраняющийся тренд вот уже почти два десятилетия и он никуда не делся.

Поэтому, наглой рекламы добавлю, если хотите узнать как устроено госИТ в мире и в России, читайте меня, а не телеграм канал ГосТеха😜

#russia #it #digital #government
👍18🔥14👏3👎2
Тем временем, буквально недавно, в июле, появилось предложение по изменению в стандарт HTTP добавлением типа запроса QUERY для запросов в базы данных [1] [2] нечто что имеет самое непосредственное отношение к современным базам данных, индексированию веб сайтов и работе большого числа веб ресурсов.

По сути идея в том чтобы иметь тип запросов который, с одной стороны, должен нести нагрузку при передаче от клиента, а с другой поддерживать кеширование, то что сейчас не обеспечивается для POST запросов ну или вернее обеспечивается путем настройки кеширующих веб-серверов, на уровне кеш серверов ключ-значение и так далее.

У меня лично нет уверенности в строгой необходимости такого изменения. Запросы в HTTP ещё давно проектировались по модели CRUD (GET, POST, DELETE, PUT и PATCH), а аналога SELECT никогда небыло. Большая часть REST API и запросов Ajax работают на базе GET или POST запросов.

Будет ли эффективен запрос QUERY? Хочется увидеть референсную реализацию и тестирование производительности.

Ссылки:
[1] https://datatracker.ietf.org/doc/draft-ietf-httpbis-safe-method-w-body/
[2] https://horovits.medium.com/http-s-new-method-for-data-apis-http-query-1ff71e6f73f3

#data #standards
👍5👎1
Полезная статья [1] о применении машинного обучения и глубокого обучения для задач VDU (Visual document understanding), распознавания текстов (и образов) в документах. Автор пишет о том как на базе библиотеки transformers [2] от HuggingFaces, модели Donut [3] (Document understanding transformer) и базы сканированных чеков она настроила их автоматическое распознавание в структурированный формат в JSON так что на выходе получается не текст неким свободным образом написанный, а структура объекта чтобы сразу класть в базу данных.

Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.

Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.

Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE

#data #opensource #ml #datascience
👍5