Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В продолжение изысканий Ивана Бегтина о данных на новом портале ОД.
Мы поискали геоданные...и можно сказать, что не нашли. Может быть плохо искали?
https://gisgeo.org/opendata_portal/
🤨1
Я очень скоро прекращу так часто упоминать российский портал открытых данных, всё таки реально применения у опубликованных там данных очень немного и одно из них более-менее не бесполезное - это обучение алгоритмов выявления семантических / смысловых типов данных. Это когда поле/колонка таблицы аннотируется пометками о том что там реально содержится. Я в своё время создавал инструмент metacrafter это такая довольно продвинутая штука с большой базой этих самых семантических типов и многое из типов там имеет реальное отношение к российским данным, всё таки русскоязычные/российские наборы данных были для меня в большей доступности долгое время.

Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.

1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.

Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.

А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.

Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.

P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.

#opendata #opensource #datacatalogs #russia
75🤣5😢2💯1
По моему Ольга даже излишне оптимистично отзывается о новом российском портале открытых данных. Мой вердикт ему гораздо более суров. Это что-то между "очень плохо" и просто "плохо". И я об этом написал уже несколько раз. Это просто деньги выброшенные на ветер. Серьёзно. Портал открытых данных Москвы data.mos.ru созданный чёрт знает когда или портал открытых данных Минкультуры РФ opendata.mkrf.ru выглядят значительно лучше. И это то что называется "примеры рядом", а есть сотни примеров в мире.

Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.

Даже чёртов Роскосмос предоставляет свои открытые данные через STAC сервер, а не вот это всё.

На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме

#opendata #russia #datacatalogs
1👍142
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минэк опубликовал видео с ответами на вопросы про Портал открытых данных

На удивление, видео неплохое и даже содержательное (https://t.me/minec_russia/10643): есть ответы на часть вопросов, обсуждавшихся в профильных чатах, даже опубликовали тайм-коды.

Но, публиковать только в формате видео ответы на волнующие пользователей-айтишников вопросы - это не тот формат коммуникации, который можно было бы назвать удобным. Продублировать видео текстом-интервью или FAQ было бы намного удобнее.

Нерешенными все еще остаются, как минимум, следующие вопросы:

- Почему Минэк не публикует и не создает свои открытые данные?

- Почему полностью обошли стороной данные по финансам? От Минфина и Казначейства датасетов на портале нет, Казначейство, правда, вскользь упомянули в конце видео в разделе "планы».

- Почему на портале не опубликованы условия (лицензия) использования открытых данных? В разделе «Нормативные документы» можно найти типовые условия почти 10-летней давности, но надпись «Все права защищены» в футере сайта заставляет сомневаться в возможности использования данных.

- Чат-бот, судя по тексту в видео, починили. Но он до сих пор не может ответить ни на один вопрос и просто молчит.

- С момента открытия Портала открытых данных удалено несколько сотен датасетов. В видео говорили о 200, но сейчас на портале еще почти на 100 датасетов меньше. Объясняется это наличием ошибок в датасетах и модерацией. Но ошибки надо исправлять (а не удалять дотасет), а модерацию надо проводить до публикации датасета, а не после.

Единственное положительное в данном случае то, что о Портале Минэк хотя бы заговорил, есть шанс, что что-то изменится. И отдельный респект Минэку за то, что прямо и открыто признали ручную публикацию наборов открытых данных и отсутствие интеграции с другими системами.
👍72
В рубрике закрытых в России данных, я обнаружил что не писал про портал открытых данных Самарской области opendata.samregion.ru который был закрыт где-то между 2022 и 2024 году. В Интернет архиве на февраль 2022 года , а позже только слепки страниц с упоминанием геоблокировки. Сейчас портал перенаправляет на страницу на сайте Пр-ва Самарской области где вместо данных просто свалка разноформатных документов.

Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.

#opendata #datasets #russia
👍522
Европейцы всё активнее обсуждают цифровой суверенитет и независимость от американских технологии, в особенности big tech'ов. .

Из свежего о чём стоит знать - это в недавних слушаниях [1] в Сенате Франции представитель Microsoft отказался под присягой давать гарантию что спецслужбы США не могут получить доступ к данным европейских граждан в европейских ЦОДах Microsoft в любой момент.

Поэтому в том что касается локализации данных - это вопрос не только физического их местонахождения, но и то кто имеет или в любой момент может получить доступ к этим данным.

Ссылки:
[1] https://www.senat.fr/compte-rendu-commissions/20250609/ce_commande_publique.html

#europe #regulation #clouds
👍106🔥4💯1
На фоне очередных и ожидаемых ограничений в РФ на работу WhatsApp, внедрения Нацмессенжера, штрафов за VPN и постоянно обсуждаемых каких-то новых реестров мне много что есть сказать. Много-много есть что сказать, но но я поберегу слова для художественных текстов, а не публицистики. Да и из событийного, не устаю повторять, что про данные мне куда интереснее, чем про всё остальное. За исключением тем для будущих антиутопических фантастических рассказа

Поэтому в качестве оффтопа и в качестве ментального упражнения, давайте представим будущее Россия 2050. Достаточно близкое чтобы многие дожили, недостаточно близкое чтобы говорить со 100% уверенностью

Чтобы можно предсказать в виде государственных информационных систем, новых реестров, новых запретов и ограничений?

Мои предсказания:
- реестр недружественных культурных образов (всяческие там герои Марвел, Гарри Поттера и др. ). Автоматическое цензурирование и недопуск книг к публикации, фильмов к прокату и тд. Развитие рынка автоадаптации произведений под локальный рынок РФ.
- тотальное регулирование ИИ. Требования к локализации, требования к полной прослеживаемости обучения языковых моделей, обязательная аккредитация и тд.
- госцентрализация ИИ. Централизованные ИИ помощники для школьников, студентов, госслужащих через Госуслуги
- запуски программ "госсводничества" включая реестры женщин желающих детей, на фоне серьёзного демографического кризиса

Но я всё время сбиваюсь на то что могу представить и то что может быть и не через 25 лет, а через 1-2 года.

А что, всё таки, можно предсказать к 2050 году ? Интерес не праздный, ищу опору для творческого вдохновения очередного рассказа😉

#offtopic #ai #thoughts
😁1210😢531
Одна из крупнейших поисковых систем по данным в мире о которой мало кто знает - это Datacite Commons. Сервис созданный компанией Datacite специализирующейся на выдаче DOI для данных публикуемых исследователями.

Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).

Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.

Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.

Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных

Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.

Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.

Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.

#opendata #datasets #datadiscovery #datacite
👍62
Forwarded from Privacy Advocates
🇨🇳 В Китае ввели «киберпространственные идентификаторы» для защиты ПД граждан
🔸С 15 июля в Китае вступили в силу положения о «киберпространственных идентификаторах» (КИ), призванных усилить защиту конфиденциальности персональных данных (ПД) в Интернете.
🔸Согласно документу, онлайн-идентификатор может быть двух видов: набор букв и цифр или учётная запись. Оба соответствуют реальной личности человека, но исключают какую-либо информацию в виде открытого текста.
🔸Используя КИ, граждане не должны будут предоставлять такую личную информацию, как номера карт удостоверения личности или настоящие фамилии и имена, провайдерам интернет-услуг – при регистрации или идентификации. Соответственно, онлайн-сервисы не в праве требовать от пользователя предоставления дополнительной информации «в виде открытого текста», если это не предусмотрено законами и административными регламентами.
🔸КИ рассматриваются властями как метод борьбы с утечками ПД граждан и последующим их использованием мошенниками и спамерами. Оформление КИ является добровольным.
👍7🤔31🤣1
Объёмы задач в Dateno у нас постоянно растут, есть потребность в ещё одном Data инженере, с акцентом на конвееры данных, обработку большого числа наборов данных из разных источников. Напомню что Dateno - это международный стартап с командой разбросанной по разным странам и работающий по принципу remote-only, вся команда работает дистанционно.
5
Forwarded from Dateno
Data engineer needed!

We are looking for a data engineer to develop an ambitious modern dataset search engine Dateno (dateno.io). Fully remote

Today the technology stack includes FastAPI, Airflow, MongoDB, Elasticsearch. We use Github + Discord for management.

Our technology stack more https://stackshare.io/dateno/dateno

Responsibilities:
Development and maintaining of Dateno data infrastructure
Preparing, adjusting and monitoring data pipelines
Resolving data quality issues

Requirements:
Experience with Python data stack 1+ year with real product;
Experience with building data pipelines with open source data stack;
Understating data quality management and monitoring;
Knowledge of the data observability issues and frameworks
Experience with REST API;
Knowledge of English at the level of reading technical documentation and basic communication;
Strong technical problem solving skills
Responsibility, ability to work independently.

Pros are:
Data engineering education: MS degree or equivalent industry experience
Experience or willingness to work with NoSQL databases such as MongoDB and Elasticsearch;
Experience and willingness to use modern database engines stack as DuckDB, Clickhouse and e.t.c.
Portfolio - github link with example projects/modules/code/contributions to open source projects;
Love for open data and open source is a definite plus.

Conditions: Full-time, salary based on the results of the interview.

The main thing - compliance with deadlines and the desire to make the world a better place.

Company: Dateno
Contact: dateno@dateno.io
64🤩1
Полезные ссылки про данные, технологии и не только:
- DuckDB XML Extension - расширение для DuckDB для парсинга XML/HTML, пока не пробовал и интересно как он сможет съесть XML в пару пару десятков гигабайт, но выглядит полезно
- remote-jobs - репозиторий с огромным числом IT компаний имеющих вакансии для дистанционной работы. Некоторые компании remote-only, без офисов, в некоторых гибридный подход, в любом случае список полезный для тех кто ищет работу дистанционно
- Embedding User-Defined Indexes in Apache Parquet Files - для тех кто хочет поглубже разобраться с тем что такое Parquet, разбор реализации специализированного индекса внутри Parquet файлов.
- Rethinking CLI interfaces for AI у автора рефлексия о переосмыслении подхода к созданию и развитию утилит командной строки в контексте MCP и LLM. Текст довольно короткий, но здравый
- Edit перевыпуск древнего редактора Edit для MS-DOS переписанного на Rust под множество платформ. Для тех кого пробивает на ностальгию, но у меня лично по Edit'у никакой ностальгии не осталось, он мне не нравился ещё тогда;)

#opensource #ai #datatools
👍732🔥1
Когда я начал смотреть на то как поисковые системы по данным и крупнейшие агрегаторы репозитории устроены изнутри то единственный вывод который напрашивался - все врут! многое недоговаривают

Самое главная проблема о которой не говорят - это data diversity, то насколько у поисковых систем общего типа доступно данных из разных областей и для разных пользователей.

А это важно, потому что всегда есть возможность сделать поисковую систему по какой-либо тематике и выдавать её за просто поисковую систему или просто, скажем так, лукавить с цифрами.

Я расскажу об этом на примере индекса Datacite, их поисковик commons.datacite.org один из крупнейших для научных данных, но надо понимать как он формируется.

Например, в индексе Datacite, я недавно рассказывал, 43 миллиона наборов данных из исследовательских репозиториев. Всё это данные которым были присвоены DOI с помощью самого Datacite или Crossref. 43 миллиона кажется огромным количеством данных, очень и очень много. Когда я анализировал потенциальные источники данных для Dateno я не так то много находил каталогов данных где есть хотя бы миллион наборов данных. Так откуда 43 миллиона?

У меня возникли подозрения которая оправдались. Из 19.8 миллионов наборов данных имеют лишь один источник происхождения, это японский National Institute for Fusion Science которые присвоили DOI этому числу своих экспериментов, каждый из которых назван набором данных и проиндексирован в Datacite. Таким образом можно было бы сказать что Datacite Commons - это поисковик по данным ядерной физики, но никаких специфичных для этой области фильтров в нём не предусмотрено, а все данные имеют почти идентичные название отличающиеся лишь номером эксперимента с префиксом LHD Fast-RF-Spec.

Ещё от 3.5 миллионов наборов данных - это биоразнообразие, из систем GBIF и GBIF совместимых репозиториев. Это отличается от числа датасетов в самом GBIF, там их всего 115 тысяч, а эти самые 3 миллиона формируются из списка occurences (возникновений), фактов регистрации событий в привязке к биологическим видам. Это то что можно отнести к данным, но в терминах GBIF это не набор данных, это occurence.

И тут мы приходим к разнице в терминологии. Внутри Datacite все дата объекты - это наборы данных. Вне зависимости от размера и типа. Поэтому и occurences из GBIF там наборы данных и, к примеру, кристаллографические структуры из Кэмбриджского кристаллографического центра данных - это тоже наборы данных, хотя, по сути, это экспорт единичных объектов из базы данных.

Чтобы было понятнее поясню на примере Википедии. У каждой страницы Википедии есть ссылка на её XML представление. Это как если бы сделать поисковую систему по данным где проиндексировать все статьи Википедии и сказать что у тебя крупнейшая поисковая система/крупнейший каталог данных.

Когда я писал вредные советы для data.gov.ru у меня было немало примеров перед глазами.

Для сравнения, в OpenAIRE это проблему уже, частично, понимают. У них понятие набора данных уже имеет некоторое число подтипов таких как:
- dataset - собственно набор данных
- bioentity - биологическое понятие имеющие машинное представление
- collection - список объектов
- Image - изображения
- Clinical Trial - данные клинических исследований
и так далее

Но все те же проблемы что с Datacite там сохраняются, результаты ядерных экспериментов в отдельный тип там не выделены и National Institute for Fusion Science (NIFS) даже не упоминается как репозиторий (интересно почему?).

Поэтому индексирование научных каталогов данных и их агрегаторов это такая непростая задача с точки зрения их содержания. Многое из того что там содержится не является набором данных в общепринятом понимании, в лучшем случае некоторым подтипом или цифровым объектом. С их помощью мы могли бы в Dateno в очень короткие сроки сказать что у нас на 22 миллиона, в 60 или даже 100 миллионов наборов данных, но достаточно очевидно что для десятков миллионов из них пользователей в мире насчитывалось бы пара сотен человек и у них всех давно есть свои инструменты поиска и работы с этими данными в 2-3 первоисточниках.
👍5🔥431
Universal Tool Calling Protocol (UTCP) спецификация и SDK для тех кто думает об альтернативах MCP. Вместо специальной доработки инструментов они описываются в специальном файле utcp.json и вся взаимодействие с инструментом осуществляется через HTTP/gRPC/cli, с акцентом на то что нет накладных расходов на обращение к инструментам/сервисам.

Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.

#ai #mcp #utcp #specifications
👍73🙏2
Devising a Strategic Approach to Artificial Intelligence : A Handbook for Policy Makers [1] свежий документ от Всемирного банка в виде руководства для нормотворцев и чиновников по регулированию ИИ.

Почти все примеры там из развивающихся стран и чуть-чуть из развитых, ни одна из стран постсоветского пространства не упоминается.

Выглядит как документ по которому в дальнейшем тот же Всемирный банк или какая-то из поддерживаемых им структур будет создавать AI Government maturity index или что-то вроде этого.

С одной стороны небесполезно, а с другой я столько уже видел похожих документов по другим тематикам.

Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/099060525125542871

#ai #regulation #readings
👍51
Про российский портал открытых данных data.gov.ru я писать в канале почти перестал, почти потому что одно из российских изданий попросило написать авторскую колонку на эту тему и я напишу, причём с тем о чём писал в лонгриде ранее повторяться не буду.

Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.

Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉

#opendata #russia
😁15💯32👍1
Оказывается Яндекс сертифицировался по ISO/IEC 42001:2023 до этого это сделали не так уж много компаний. Amazon AWS в декабре 2024, Microsoft несколько дней назад, Thompson Reuters в марте 2025, Anthropic в январе 2025. В любом случае их немного.

Что важно, нельзя получить сертификат используя чужую облачную LLM, это сертификат на управление ИИ, рисками и тд.
Сертификация по этому стандарту, в любом случае, никого не спасёт от регулирования, но некую планку этической разработки ИИ задаёт.

#ai
👍9🤔2🤣2