Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них эстонский портал культурного наследия E-Varamu включает 23.8 миллиона описаний архивных объектов из которых 1.94 миллиона доступны онлайн. Включает изображения, документы, карты, тексты, аудио и видеозаписи, и даже наборы данных.

Для сравнения в российском НЭБ доступно 49.8 миллионов описаний из которых 5.3 миллиона доступны онлайн. С одной стороны вдвое больше, с другой стороны в Эстонии проживает 1.3 миллиона человек, а в России 143 миллиона. В России примерно в 100 раз больше людей и можно ожидать примерно в 100 раз больше объектов культурного наследия.

Можно еще к российским культурным объектам добавить данные Госкаталога РФ, это + ~55 миллионов объектов, но даже так разница с эстонским порталом в 4 раза, а не в 100 раз. Есть к чему стремиться, не говоря уже о том что метаданные госкаталога довольно куцые, а, по удивительным причинам каталоги метаданных НЭБ и Госкаталога не объединены.

Возвращаясь к эстонскому каталогу - более всего поражает детальность метаданных и огромное число доступных фасетов для поиска и фильтрации материалов.

Из минусов - отсутствие публично задокументированного API и наборов данных с метаданными.

#opendata #digitalheritage #culture #culturalheritage #estonia
32🔥2
Я ранее писал про применение ИИ агентов для рефакторингка кода и про декларативное программирование, а теперь а теперь расскажу про декларативное создание баз данных.

Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.

И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется

В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.

Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"

и так далее.

Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.

Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).

Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах

А также огромное число исправлений в метаданных всех каталогов.

Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.

Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.

#opendata #datacatalogs #dateno #dataengineering #dataanalysis
7🔥4👍31
Forwarded from Dateno
Regular country open data overview, this time Estonia

Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint


Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures. ...

More at LinkedIn https://www.linkedin.com/pulse/open-data-estonia-small-country-remarkably-large-footprint-sdkce/

#opendata #estonia #datacatalogs
33🤔2
Короткий текст The fate of “small” open source где автор рассказывает о будущей печальной судьбе программных библиотек на примере свой библиотеки blob-util и того что ИИ агенты не предлагают использовать её, а автоматически генерируют код.

Это, кстати, довольно таки важная тема что по мере прогресс ИИ инструменты чаще всего игнорируют не самые популярные библиотеки для ПО и каждый раз плодят бесконечное число кода. Можно, конечно, в запросе к ИИ агенту поставить задачу на использование конкретной библиотеки, но это не то что является поведением по умолчанию.

Итоговые изменения пока малопредсказуемы, но вероятность того что многие библиотеки кода будут быстро устаревать весьма вероятно.

И тут я бы ещё добавил что еще одно важное возможное изменение - это применение LLM для переписывания ПО с блокирующими лицензиями на открытые. Например, есть открытый продукт с кодом на GPL или AGPL который Вам надо интегрировать в свой продукт. Подключаете LLM которое переписывает полностью код так чтобы не доказать что он использовался и у Вас на руках появляется продукт под более разрешающей лицензии и с тем же открытым кодом.

Похоже на реалистичный сценарий?

#opensource #ai #llm
🤔7😢32🌚2
Рубрика "Циничное интеллектоведение"
В России открыт новый рынок - рынок российского интеллекта.
Источник - альманах "Искусственный интеллект. Индекс 2022 года" (выпуск 12, 2022 год), выпускаемый Центром компетенций НТИ "Искусственный интеллект" при МФТИ
😁15🤔4😱2
Для тех кто интересуется цифровой архивацией моя презентация с недавно прошедшей международной конференции посвященной библиотечному делу https://www.beautiful.ai/player/-Oe_rMY5u8Z1QKT9mqsu

#opendata #opanapi #digitalpreservation #webarchives
👍133
Большое обновление реестра каталогов данных в Dateno, это то про что я писал в части применения ИИ для обогащения базы в виде YAML файлов. Фактически вся база реестра каталогов данных была пересобрана и обогащена множеством дополнительных данных, но основное - это почти 2 тысячи новых каталогов данных большая часть которых - это сервисы ArcGIS в США, большая часть региональных и муниципальных властей.

Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.

Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.

#opendata #datasets #datacatalogs
5
Forwarded from Dateno
🚀 Major Update of the Dateno Data Catalog Registry

The Dateno Registry — an open-source & open-data catalog of (almost) *all* data portals worldwide — just got a huge upgrade.
It powers the Dateno search engine, which now indexes 22M+ datasets.

🔍 Key Additions

1,993 new data catalog records
1,515 ArcGIS Server instances — massive geoportal expansion
293 global-level catalogs
97 French data catalogs

🌍 Geospatial Infrastructure

• 83 GeoServer
• 37 GeoNode
• 33 GeoNetwork
• 8 Lizmap
• 3 MapProxy
• 2 MapBender

📊 Open Data Platforms

• 47 OpenDataSoft
• 42 CKAN
• 5 DKAN

🔬 Scientific Repositories

• 38 Figshare
• 6 DSpace
• 6 NADA
• 9 THREDDS

🛠 Improvements

• 363 records with improved metadata
• Updated API endpoints for IPT catalogs
• Better metadata completeness
• Improved geographic & administrative coverage

🔗 More Info

🌐 Dateno Registry: https://dateno.io/registry
💾 Open-source data: https://github.com/commondataio/dataportals-registry
📦 Full dataset (parquet): https://github.com/commondataio/dataportals-registry/blob/main/data/datasets/full.parquet

#dateno #opendata #datacatalogs #opensource
👍51
В качестве регулярных напоминаний.

Про открытые данные и статистику я писал довольно много в последние годы в блоге:
- Российская статистика: немашиночитаемая институциональная фрагментация
- Статистика как дата продукт
- Почему невозможно хвалить Росстат

И ещё больше тут в телеграм канале по тегу #statistics (я же не просто ставлю теги каждому посту, это такой формат публичной записной книжки).

Надо бы как-то собраться и написать обзорный текст, но всегда много других дел, поэтому чаще пишу в контексте индексации статистики в Dateno и дата каталогов.

#statistics
👍4
К разговорам про падения интернета прекрасная картинка в Reddit'а и для полноты картины нехватает только регуляторов некоторых стран которые вносят свой неописуемый вклад в происходящее.

Я давненько подумываю про сюжет рассказа идеального цифрового шторма, тот случай когда контекст хорошо понятен и надо только красивых сюжетных линий зашить.

#thoughts
👍19🔥4💯3🤣1
К вопросу об ИИ, самая спорная сторона применения ИИ где на основе работы сделанной ИИ агентом оценивается работа человека. Иначе говоря когда ИИ используется не для усиления навыков человека, а для подмены в оценке знаний и умений.

Простой пример - конкурсы и хакатоны, сейчас они все очень либеральны в приеме работ сделанных с помощью ИИ, но можно ли сравнивать работу сделанную разработчиками/дизайнерами/аналитиками самостоятельно с работой сделанной с помощью ИИ? В конкурсах и хакатонах используются задачи которые призваны оценивать работу человека в определенной роли, а тут его роль меняется. Вместо разработки он осуществляет её "менеджерение" и это уже больше чем вайб кодинг.

Внимание вопрос? Должны ли конкурсы ограничивать прием работ сделанных ИИ или выносить их в отдельные номинации? Как вообще теперь проводить конкурсы ?

Очень похожая ситуация со студенческими и научными работами. Тут есть важная развилка, потому что исследования ведутся чтобы преумножать человеческие знания и тогда применение ИИ вполне оправдано если знания преумножаются. Но исследования же сейчас используются для оценки работы исследователя/студента. Применение ИИ делает эту оценку весьма сомнительной.

Вопрос как все будет меняться?

#thoughts
5💯21
Про свежий законопроект про Гостех - https://sozd.duma.gov.ru/bill/1076648-8

Текст не очень большой и читать его недолго, главный вывод из него в том что дохлую лошадь не пристрелили ГосТех продолжается.

А я сделаю акцент на двух моментах:
1. Как и во всех остальных принятых в РФ законы за прошлые годы формулировка об отсутствии изменений в бюджете на 24 странице очень лукавая. Конечно же изменения будут

2. В ст. 7, ч. 1, п. 7 (стр. 14) есть формулировка, позволяющая расширить действие закона на «иных лиц, уполномоченных в соответствии с нормативными правовыми актами». Фактически закон могут в любой момент расширить на всех кто получает бюджетные деньги, к примеру обязать всех подрядчиков по госконтрактам вести разработку на сервисах Гостеха.

#russia #it #government
5👍1
Ещё про официальную статистику, есть важный тренд о котором я писал пока что мало - это отделение данных от их представления. Официальная статистика чаще всего строится как цельные системы в которых сразу есть и возможность получения данных и их визуальное представление.

А за это время появились десятки стартапов и сервисов которые наглядность обеспечивают значительно лучше официальные статистические сервисы, например, я довольно давно слежу за сервисом PlotSet с их интерактивными графиками. Очень наглядные штуки они генерируют в очень короткие сроки. При этом я не призываю использровать именно их, есть и другие варианты, и многие из них создаются с помощью ИИ агентов.

Ключевое тут в отделении данных от представления. Отдельно данные и API и отдельно интерактивный сервис на них основанный. Для популяризации официальной статистики такое разделение может быть эффективнее любых монолитных централизованных платформ.

Интересно, кстати, есть ли альтернативы PlotSet с открытым кодом?

#dataviz #statistics #datatools
👏3🤝32
This media is not supported in your browser
VIEW IN TELEGRAM
И в продолжение про PlotSet, альтернативное отображение с помощью кода сгененированного одним из ИИ агентов по визуализации структуры российского бюджета.

Уточнение, цифры я не перепроверял, хотя они похожи на достоверные. Косяки тоже есть, если делать как есть минимальными усилиями. Похоже на то что умеет делать PlotSet, но с открытым кодом и не такое красивое.

#ai #dataviz
👍4❤‍🔥2
Давно планировал написать про цену открытости, того занимаясь открытым кодом, открытыми данными или другой деятельностью связанной с благом обществу и технологиям кроме плюсов есть и издержки, некоторые из которых бывают очень неочевидными ну или, как минимум, не на поверхности.

Вот несколько примеров:
- Роботизированные спамеры и скамеры. Одна из бед открытых каталогов данных со свободной регистрацией пользователей и публикацией данных в какой-то момент стало бесконечное количество спама. Например, на порталах на базе CKAN открытая регистрация была прописана по умолчанию, в какой-то момент спамеры и скамеры понаписали скриптов которые регистрировали сотни тысяч аккаунтов и от них постили все что только разрешалось: создавали группы, профили организаций и карточки датасетов. Все фэйковые конечно, но в результате многие открытые порталы оказались забиты низкокачественным SEO мусором или, хуже того, откровенным скамом. Живой пример у меня перед глазами портал открытых данных метеослужбы Туниса. Там зарегистрировано более 1.3миллиона аккаунтов пруф потому что они не стали ограничивать регистрацию и поэтому у них у них более 45 тысяч спам текстов в одном из разделов. Из-за этого открытость порталов посвященных открытости приходится ограничивать, мы позакрывали регистрацию во всех своих основанных на CKAN порталах открытых данных именно по этой причине.

- Специализированный спам. Если ты активно публикуешь открытый код, ведешь активность на Github то рано или поздно, но скорее очень рано на тебя посыпется специализированный спам который можно разделить условно на 2 типа:
1-й - "Мы тут увидели что Вы добавили в избранное такой то open source проект, а у нас очень похожий, обязательно зайдите и посмотрите на нас и может быть используйте и добавьте в избранное"
2-й - "Чувак(-иха) у тебя столько активности в твоем аккаунте, зарегистрируйся в нашем сервисе где мы сводим больших работодателей из США и крутых программистов"

- Публичный технический долг. Технический долг штука неприятная для всех кто когда-либо занимался программированием, для дела ли или для души, но когда ты публикуешь открытый код ты, де-факто, принимаешь для себя что твой технический долг будет общедоступен. Да-да, не только код, но и технический долг по нему.

- Похвала редка, критика неизбежна. Это касается не только открытых данных и открытого кода, но здесь важно понимание что за очень редкими случаями решения действительно массовых и болезненных проблем, пользователи будут редко хвалить и нередко критиковать. Это нормально, особенно в коммуникации в некоторых культурах.

Конечно, все это не отменяет плюсов, общедоступное портфолио, способ коммуникации с теми кто разделяет твои интересы и многое другое.

#thoughts #opendata #opensource
👍163
Эх, прошла эпоха Ардуино. Корпоративные юристы способны испортить буквально всё
💯4
Forwarded from Geeks (Shpak Aleksandr)
Чуть больше месяца прошло с момента покупки любимой всеми компании Arduino компанией Qualcomm, как юристы Qualcomm добрались до ToS и начали подкручивать в нём гайки. Например, теперь в нём появилось вот такое «чудесное» запрещающее положение:

... переводить, декомпилировать или производить обратную разработку Платформы, либо участвовать в любой другой деятельности, направленной на выявление алгоритмов и логики работы Платформы, если это явно не разрешено Arduino или применимыми лицензионными соглашениями...


Ну вы поняли - платформа приобрела популярность именно потому, что изначально была открытой и её могли копировать все подряд, продавая свои клоны за копейки. А теперь работа с платформой - это ходьба по достаточно тонкому льду.

При этом Qualcomm пытается выкрутиться, не меняя ToS напрямую. Например, они писали в блог пояснения в формате: дескать, это не мы такие злые — это вы нас недопоняли: якобы всё для пользователя осталось как прежде. Но выглядит это, мягко говоря, не очень убедительно.

И при этом недовольны новыми правилами не только абстрактные пользователи Reddit, но и компании, которые построили бизнес вокруг открытого железа, как Adafruit.

PS от @g33ks: В ToS появились и другие «шикарные» пункты, традиционные для документов этого жанра: например, про передачу прав на контент, сбор данных + разные штуки, связанные с ИИ (если честно, я сейчас не слежу особо пристально за Arduino и даже не знаю, где именно они там ИИ внедряют или собираются внедрять).

UPD: мне тут еще написали, что в ToS появилось, конечно же, про то, что нельзя ардуинки использовать теперь и во всяких нехороших странах и территориях (ну вы поняли).
🌭7😢4🗿41
Полезные ссылки про данные, технологии и не только:
- DS-STAR новый ИИ агент для решения задач в data science, обещают многое включая автоматизация обработки, анализа и визуализации данных. Заодно препринт где в тексте приведены другие похожие продукты.
- Federal Agency Github Activity визуализация активности на Github'е федеральных государственных агентств, спойлер: многие не публикуют ничего, но есть такие что работают над кодом постоянно. При этом в США есть госполитика о том что не менее 20% разрабатываемого госведомствами кода должно быть открытым кодом. Автор проекта рассказывает об этом подробнее
- Shai-Hulud 2.0 - новая версия вредоноса который инфильтруется в виде пакета для npm и ворует ключи, пароли и реквизиты доступа. В этой версии появился "dead man switch", угроза уничтожения данных пользователя если он мешает распространению. Кстати, что происходит с "AI powered malware" ? Появились ли уже вредоносы умеющие в ИИ?
- LocalAI позиционируется как local-first альтернатива OpenAI, лицензия MIT, быстро набирает популярность. Акцент на более человеческих, а не технических интерфейсах

#opensource #malware #ai #datascience
4👍2
Для всех ИИ агентов для кодинга у меня есть довольно простой тест который большая часть из них ещё полгода назад пройти не могли. В Армении есть портал статистики statbank.armstat.am который много лет назад создавался за счет помощи ЕС и с той поры не обновлялся. Он построен на базе движка с открытым кодом PxWeb шведско-норвежской разработки который прошел большую эволюцию за эти годы, но в Армстате используется очень старая его версия с интерфейсом созданным на ASP.NET с большим числом postback запросов что не критично, но неприятно усложняет сбор из него данных. Я такую задачу отношу к скорее утомительным чем сложным, потому что отладка на них может быть долгой и замороченной.

У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер

Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.

Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.

В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.

Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.

Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись

Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает

Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.

#opendata #opensource #ai #coding
👍94
В рубрике как это устроено у них каталог открытого ПО для исследователей Research Software Repository (RSD)

Включает 1066 программных продуктов привязанных к 352 научным проектам, 529 организациям с упоминанием 2134 контрибьюторов и 27994 упоминания в научных работах.

Проект создан в eScienceCenter в Нидерландах и сам тоже с открытым кодом.

Кроме всего прочего они еще и скрейпят коммиты в Git репозитории на Github и других платформах и показывают уровень активности работы над репозиториями.

Сам проект тоже с открытым кодом.

Учитывая что большая часть ПО создано в рамках государственных научных программ, этот проект можно также рассматривать как портал систематизации, раскрытия и поиска государственного ПО в части научных исследований.

#opensource #research #openaccess
3👍3