Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Подборка полезных ссылок про данные, технологии и не только:
- Scrapegraph-ai проект с открытым кодом по интеграции языковых моделей в задачи скрейпинга данных с сайтов. Выглядит как бэкэнд для будующих и текущих проектов по скрейпингу для не-Итшников или как полезный инструмент тем кто хочет упростить себе эту работу.
- pyspread альтернатива Excel написанная на Python. Открытый код под почти все платформы. Может показаться странным, но, как минимум, идея заслуживающая внимания.
- Substrait межязыковая сериализация операций над данными. Спецификация, будет понятна всем кто делает запросы к данным в разных СУБД и не только SQL и непонятна тем кто с таким не сталкивался. Одна из попыток создать универсальный подход/язык запросов поверх десятков диалектов SQL
- Data Council 2024 видео с выступлениями спикеров конференции Data Council 2024 в Austin. Много интересного по дата инженерии, стандартам и созданию больших датасетов. Хорошая концентрация интересных докладов
- nimble новый формат хранения больших колоночных данных. Под открытой спецификацией, сделан внутри Meta. Подробнее в выступлении рассказывают про главный акцент на скорости загрузки датасетов и о том что загрузка датасетов для ML задач занимает до 30% времени.

#opensource #data #datatools
В блоге UBER история о том как они реализовали движок по автоматической категоризации данных DataK9 [1]. Выглядит интересно и очень похоже на то что я делал в опенсорсном продукте Metacrafter [2].

Если пересказать вкратце, то они взяли чуть более 400 тысяч датасетов для анализа, а до этого 1 тысячу датасетов для обучения и ручной разметки людьми и далее натравили созданные людьми правила на оставшиеся датасеты. Правила готовились людьми вручную, но пишут что и ИИ применяли где-то, до конца непонятно где.

Описания правил у них в YAML что тоже очень похоже на Metacrafter

В чём сходства и отличия:
1. В их правилах есть bloom filters и value range, что является хорошей идеей, надо к ней присмотреться.
2. Кроме include patterns они используют ещё и exclude patterns что тоже весьма логично и разумно.
3. Cмешивают типы данных и правила, фактически правила детекции привязывают к типу прямо в YAML файле. В Metacrafter'е это иначе. Типы данных и правила разделены.
4. Не имеют языковых особенностей при идентификации, всё про английский язык.
5. Не используют семантические типы данных. В Metacrafter они вынесены в отдельный реестр [3]

Ключевое, конечно, в среде эксплуатации. DataK9 работает в корп среде с внутренними данными заточенными под AI/ML, а Metacrafter писался под работу с общедоступными данными на разных языках.

Ссылки:
[1] https://www.uber.com/en-DE/blog/auto-categorizing-data-through-ai-ml
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry

#opensource #data #datatools #semanticdatatypes
В продолжение про категоризацию данных я расскажу о том какое моё видение по развитию Metacrafter'а [1]. Напомню что это опенсорс утилита по идентификации семантических типов данных, категоризации и автодокументирования данных.

1. Это расширение числа семантических (смысловых) типов данных и правил их идентификации. Сейчас есть сотни типов и сотни правил, но далеко не для всех типов данных правила есть и добавлять там много что есть. В особенности когда это касается отраслей: медицина, биохимия, финансовые структуры, нефтянка, и много что другое. Специфики отраслевой немало, правила для них готовятся совсем не быстро.
2. Расширение видов правил идентфикации смысловых типов данных. В первую очередь определение уникальных полей, общих префиксов и других особенностей.
3. Возможно обновление языка управления правилами и добавление и переписать правила для добавления bloom filter, пространств значений для цифр и исключающих фильтров.
4. Перестройка работы metacrafter'а на работу с сервером по умолчанию. Сейчас для работы утилиты командной строки правила каждый раз загружаются и компилируются из файлов с правилами. А это небыстро, дольше чем сама работа категоризатора. Альтернатива в виде prefech и запуска локального сервера и работы через него.
5. Введение режима идентификации неизвестных типов данных. Это когда Metacrafter'у скармливаются датасеты для обучения и по определенным правилам он рекомендует разметить конкретные поля и конкретные типы данных. Это самая сложная и исследовательская задача. Вот её по настоящему интересно решить.

Ну и как не добавить что сейчас создаётся архив датасетов проиндексированных Dateno и по ним как раз идёт тестирование Metacrafter'а и будущая доработка.

Ссылки:
[1] https://github.com/apicrafter/metacrafter


#opensource #data #datatools #semanticdatatypes
The OpenDataLab выпустили доклад по использованию открытых данных в генеративном ИИ [1] Выводы в нём все довольно общие и соответствуют общим трендам развития порталов открытых данных, но хорошо систематизированы так что прочитать стоит. Доклад достаточно короткий, интересный примерами которые там разбираются когда на основе данных строят разного рода системы вопросов и ответов.

Например, оттуда я впервые узнал про Wobby [2] систему смешивания открытых госданных и собственных датасетов и построения анализа данных и систем вопросов и ответов, чатботов на основе этого микса.

Другие примеры тоже весьма любопытны.

Ссылки:
[1] http://www.genai.opendatapolicylab.org/
[2] https://wobby.ai/

#opendata #datasets #data #reports #thegovlab #opendatalab
Ещё в копилку происходящего с регулированием данных в России, одна из причин почему я лично перестал как-либо пытаться влиять на госполитику в этой области в том что весь GR в цифре свёлся к "защитному GR'. А то есть он не про продвижение каких-то инициатив выгодных бизнесу, типа открыть какие-то данные, а про снижение вреда от нового регулирования и совсем уж людоедских законопроектов.

Вот и со сдачей данных ровно точно также. Тот же цифровой крупняк в ассоциации толстых котов больших данных хотел бы чтобы этой инициативы вообще не существовало, но вместо этого предлагают модель дата брокеров по обезличиванию данных. Хотя всем прекрасно понятно что главный бенефициар госрегулирования это спецслужбы и пара госов которые получат монополию на частные данные. А обезличивание тут - это дело такое, необезличенные данные кому надо всегда будут доступны. Поэтому история с дата брокерами - это как самих себя высечь небольно, чтобы барин сильно не высек.

А как оно в мире? А в мире всё наоборот. Бизнес обсуждает с государством о том как получать доступ к госданным через дата брокеров, когда не госорганы раздают права, а госорганы дают чувствительные данные сертифицированным дата брокерам и те обезличивают их и передают бизнесу для коммерческих продуктов.

Почувствуйте, что называется, задницу разницу.


#data #government #regulation #russia
Firecrawl [1] любопытный новый инструмент по работе с данными с помощью LLM. Обещает что умеет отдавать команды LLM по извлечению данных по определенным схемам.

Плюс публикуют исходный код, но только клиентской библиотеки к своему сервису.
Всё это выглядит любопытно и какие то простые схемы действительно удалось с его помощью извлечь. Пока выглядит, конечно, не суперпродвинуто, но и в такой простоте есть плюсы для тех кто не хочет писать тысячи парсеров для бесконечного числа сайтов.

Я когда-то много времени посвятил теме преобразованию сайтов в данные, но остановился когда написал алгоритм превращения в RSS любой вебстраницы со списками чего-то.

Полноценно превращать сайты в базы данных осложнено тем что надо их вначале краулить, потом анализировать и уже по итогам идентифицировать характер хранимой информации и превращения её в данные. Тем не менее задача не невозможная.

Ссылки:
[1] https://firecrawl.dev

#data #datatools #ai
В рубрике *как это устроено в России* о том что должно было бы быть открытыми данными, но ими не является. У почти всех российских регионов есть инвестиционные карты. Это, либо отдельные геопорталы, либо разделы на инвестиционных порталах которые точно есть у всех. Например, инвестиционная карта Курганской области [1] или инвестиционная карта Волгоградской области [2]. Можно убедиться что на них есть слои карт и их от десятков до полутора сотен. Другие подобные инвестиционные карты легко находятся по ссылкам с портала инвестпроектов Минэка РФ [3].

Что можно о них сказать? Они все содержат то или иное недокументированное API. Там всего несколько вендоров геоинформационных систем и у них всё довольно стандартизировано. При очень небольших усилиях то же Минэкономразвития могло бы добавить на нацпортал открытых данных более 1000 датасетов и/или стандартизированных API по стандарту WFS. Очень небольшие расходы на всё это нужно, я бы даже сказал мизерные, а вероятность что эти данные были бы небесполезны, конечно, есть.

Но в России нет уже давно нацпортала открытых данных, деятельность в этой области на федеральном уровне, если не свернута, то подзабили на неё изрядно, особенно в Минэкономразвития.

Кстати, к примеру в Казахстане национальный геопортал [4] сделан довольно прилично и там публикуют открытые данные. Не со всех региональных геопорталов они их агрегируют, но и 571 слой карт - это неплохо.

Возвращаясь к ситуации в РФ. Мне бы вот, например, хотелось агрегировать данные с российских геопорталов в Dateno и даже недокументированность их API решается. У типовых систем, типовые API. Но тут уже другое ограничение, российские госсайты в большинстве своём недоступны с зарубежных IP адресов. Краулер работающий не изнутри страны не сможет достучасться до большого числа сайтов. Это, конечно, тоже решается, но требует больше времени и усилий.

В этом смысле поразительна ситуация с европейскими открытыми данными и открытыми данными в других развитых странах где именно геоданные составляют большую часть всего раскрываемого и опубликовано.

Ссылки:
[1] https://invest45.ru/investmap
[2] https://investmap.volgograd.ru
[3] https://invest.economy.gov.ru
[4] https://map.gov.kz

#opendata #data #geodata #russia #api
В рубрике закрытых данных Правительство Тамбовской области в неизвестный момент между 7 февраля 2024 года и текущей датой убрало все ссылки на данные в разделе "Открытые данные" своего сайта [1]. Как этот раздел выглядел в феврале 2024 года можно увидеть в интернет архиве [2]. Данных там не то чтобы было много, но и эти теперь недоступны.

Можно также обратить внимание что контент официального сайта Пр-ва Тамбовской области не индексируется Интернет архивом уже 2 года, так что при его исчезновении восстановить его из внешних источников будет почти невозможно.

Ссылки:
[1] https://www.tambov.gov.ru/opendata.html
[2] https://web.archive.org/web/20220206004218/https://www.tambov.gov.ru/opendata.html

#opendata #data #tambovregion #dataportals #closeddata
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.

Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].

Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.

Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.

Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/

#opendata #datasets #data #geodata #microsoft
Поднакопилось какое-то количество мыслей про доступность/открытость данных и дата инженерию, прежде чем писать по каждой мысли отдельный текст, изложу тезисами:

- проблема поиска данных под конкретную задачу в том что структурированных данных может и не быть. Ищущий решает задачу интеграции данных в свой продукт/решение своей задачи и машиночитаемость данных - это лишь снижение барьера по работе с ними, а так то данные могут быть и распарсены из любого неструктурированного формата или собраны вручную. Из-за такой модели потребления главный недостаток поиска структурированных данных в том что их может не быть и пользователю нужен первоисточник.

- самое сложное - это производство данных и ещё сложнее производство хороших данных. Создавая Dateno одной из мыслей было хотя бы частично решить задачу нахождения данных индексируя основных производителей. Но это не решает проблему отсутствия данных. Как поощрять их создание? Конкурсы для волонтеров? Datathon'ы ? Вопрос открытый.

- геоданные очень прикольная штука когда они очищены и приведены в удобную форму. Можно, например, довольно быстро сделать геопортал Армении на базе TerriaJS и интегрировать туда данные из нашего портала открытых данных data.opendata.am даже сейчас пара сотен слоёв данных наберётся из открытых источников и результат даже будет вполне симпатичен и открыт. Стоит ли делать его с учётом скорого обновления maparmenia.am (не отовсюду и не всегда доступен, неизвестно чем будет после обновления) ? Стоит ли делать такой портал для других стран?

- особенность доступности данных в России что всё что на сайтах госорганов названо "открытыми данными" таковыми не является, или бесполезно, или не обновлялось от 4 до 8 лет. Создать портал открытых данных без гос-ва не так сложно, сколь сложно его держать актуальным и с тем что его надо обновлять. Перезапуск темы открытых данных в России так чтобы данные были востребованы? Ха! Самое очевидное - машиночитаемые нормативные документы и первичные нормативные документы и тексты для машинного обучения, систематизация научных данных и их агрегация и много-много-много датасетов. Это не дорого, этим некому заниматься внутри гос-ва и не похоже что появится кто-то в ближайшие годы. Но если федералы всё же запустят новую версию data.gov.ru то точно сделаем альтернативу ему, больше и лучше, просто чтобы все знали что они не умеют;)

- веб архивация, цифровая архивация находится в кризисе. Причин много, и они нарастают. Во первых многие страны огораживаются, как РФ от поисковых ботов, во вторых информации производится сильно больше чем раньше, волонтеров и НКО недостаточно, далее контент тяжелеет, далее всё больше контента в соцсетях с авторизацией и пэйволов, инструменты устаревают, соцсети блокируют доступ к контенту, а в некоторых странах нет даже политики сохранения даже ключевого контента.

#opendata #data #thoughts #webarchives #geodata