Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Для тех кто интересуется цифровой архивацией моя презентация с недавно прошедшей международной конференции посвященной библиотечному делу https://www.beautiful.ai/player/-Oe_rMY5u8Z1QKT9mqsu

#opendata #opanapi #digitalpreservation #webarchives
👍133
Большое обновление реестра каталогов данных в Dateno, это то про что я писал в части применения ИИ для обогащения базы в виде YAML файлов. Фактически вся база реестра каталогов данных была пересобрана и обогащена множеством дополнительных данных, но основное - это почти 2 тысячи новых каталогов данных большая часть которых - это сервисы ArcGIS в США, большая часть региональных и муниципальных властей.

Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.

Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.

#opendata #datasets #datacatalogs
5
Forwarded from Dateno
🚀 Major Update of the Dateno Data Catalog Registry

The Dateno Registry — an open-source & open-data catalog of (almost) *all* data portals worldwide — just got a huge upgrade.
It powers the Dateno search engine, which now indexes 22M+ datasets.

🔍 Key Additions

1,993 new data catalog records
1,515 ArcGIS Server instances — massive geoportal expansion
293 global-level catalogs
97 French data catalogs

🌍 Geospatial Infrastructure

• 83 GeoServer
• 37 GeoNode
• 33 GeoNetwork
• 8 Lizmap
• 3 MapProxy
• 2 MapBender

📊 Open Data Platforms

• 47 OpenDataSoft
• 42 CKAN
• 5 DKAN

🔬 Scientific Repositories

• 38 Figshare
• 6 DSpace
• 6 NADA
• 9 THREDDS

🛠 Improvements

• 363 records with improved metadata
• Updated API endpoints for IPT catalogs
• Better metadata completeness
• Improved geographic & administrative coverage

🔗 More Info

🌐 Dateno Registry: https://dateno.io/registry
💾 Open-source data: https://github.com/commondataio/dataportals-registry
📦 Full dataset (parquet): https://github.com/commondataio/dataportals-registry/blob/main/data/datasets/full.parquet

#dateno #opendata #datacatalogs #opensource
👍51
В качестве регулярных напоминаний.

Про открытые данные и статистику я писал довольно много в последние годы в блоге:
- Российская статистика: немашиночитаемая институциональная фрагментация
- Статистика как дата продукт
- Почему невозможно хвалить Росстат

И ещё больше тут в телеграм канале по тегу #statistics (я же не просто ставлю теги каждому посту, это такой формат публичной записной книжки).

Надо бы как-то собраться и написать обзорный текст, но всегда много других дел, поэтому чаще пишу в контексте индексации статистики в Dateno и дата каталогов.

#statistics
👍4
К разговорам про падения интернета прекрасная картинка в Reddit'а и для полноты картины нехватает только регуляторов некоторых стран которые вносят свой неописуемый вклад в происходящее.

Я давненько подумываю про сюжет рассказа идеального цифрового шторма, тот случай когда контекст хорошо понятен и надо только красивых сюжетных линий зашить.

#thoughts
👍19🔥4💯3🤣1
К вопросу об ИИ, самая спорная сторона применения ИИ где на основе работы сделанной ИИ агентом оценивается работа человека. Иначе говоря когда ИИ используется не для усиления навыков человека, а для подмены в оценке знаний и умений.

Простой пример - конкурсы и хакатоны, сейчас они все очень либеральны в приеме работ сделанных с помощью ИИ, но можно ли сравнивать работу сделанную разработчиками/дизайнерами/аналитиками самостоятельно с работой сделанной с помощью ИИ? В конкурсах и хакатонах используются задачи которые призваны оценивать работу человека в определенной роли, а тут его роль меняется. Вместо разработки он осуществляет её "менеджерение" и это уже больше чем вайб кодинг.

Внимание вопрос? Должны ли конкурсы ограничивать прием работ сделанных ИИ или выносить их в отдельные номинации? Как вообще теперь проводить конкурсы ?

Очень похожая ситуация со студенческими и научными работами. Тут есть важная развилка, потому что исследования ведутся чтобы преумножать человеческие знания и тогда применение ИИ вполне оправдано если знания преумножаются. Но исследования же сейчас используются для оценки работы исследователя/студента. Применение ИИ делает эту оценку весьма сомнительной.

Вопрос как все будет меняться?

#thoughts
5💯21
Про свежий законопроект про Гостех - https://sozd.duma.gov.ru/bill/1076648-8

Текст не очень большой и читать его недолго, главный вывод из него в том что дохлую лошадь не пристрелили ГосТех продолжается.

А я сделаю акцент на двух моментах:
1. Как и во всех остальных принятых в РФ законы за прошлые годы формулировка об отсутствии изменений в бюджете на 24 странице очень лукавая. Конечно же изменения будут

2. В ст. 7, ч. 1, п. 7 (стр. 14) есть формулировка, позволяющая расширить действие закона на «иных лиц, уполномоченных в соответствии с нормативными правовыми актами». Фактически закон могут в любой момент расширить на всех кто получает бюджетные деньги, к примеру обязать всех подрядчиков по госконтрактам вести разработку на сервисах Гостеха.

#russia #it #government
5👍1
Ещё про официальную статистику, есть важный тренд о котором я писал пока что мало - это отделение данных от их представления. Официальная статистика чаще всего строится как цельные системы в которых сразу есть и возможность получения данных и их визуальное представление.

А за это время появились десятки стартапов и сервисов которые наглядность обеспечивают значительно лучше официальные статистические сервисы, например, я довольно давно слежу за сервисом PlotSet с их интерактивными графиками. Очень наглядные штуки они генерируют в очень короткие сроки. При этом я не призываю использровать именно их, есть и другие варианты, и многие из них создаются с помощью ИИ агентов.

Ключевое тут в отделении данных от представления. Отдельно данные и API и отдельно интерактивный сервис на них основанный. Для популяризации официальной статистики такое разделение может быть эффективнее любых монолитных централизованных платформ.

Интересно, кстати, есть ли альтернативы PlotSet с открытым кодом?

#dataviz #statistics #datatools
👏3🤝32
This media is not supported in your browser
VIEW IN TELEGRAM
И в продолжение про PlotSet, альтернативное отображение с помощью кода сгененированного одним из ИИ агентов по визуализации структуры российского бюджета.

Уточнение, цифры я не перепроверял, хотя они похожи на достоверные. Косяки тоже есть, если делать как есть минимальными усилиями. Похоже на то что умеет делать PlotSet, но с открытым кодом и не такое красивое.

#ai #dataviz
👍4❤‍🔥1
Давно планировал написать про цену открытости, того занимаясь открытым кодом, открытыми данными или другой деятельностью связанной с благом обществу и технологиям кроме плюсов есть и издержки, некоторые из которых бывают очень неочевидными ну или, как минимум, не на поверхности.

Вот несколько примеров:
- Роботизированные спамеры и скамеры. Одна из бед открытых каталогов данных со свободной регистрацией пользователей и публикацией данных в какой-то момент стало бесконечное количество спама. Например, на порталах на базе CKAN открытая регистрация была прописана по умолчанию, в какой-то момент спамеры и скамеры понаписали скриптов которые регистрировали сотни тысяч аккаунтов и от них постили все что только разрешалось: создавали группы, профили организаций и карточки датасетов. Все фэйковые конечно, но в результате многие открытые порталы оказались забиты низкокачественным SEO мусором или, хуже того, откровенным скамом. Живой пример у меня перед глазами портал открытых данных метеослужбы Туниса. Там зарегистрировано более 1.3миллиона аккаунтов пруф потому что они не стали ограничивать регистрацию и поэтому у них у них более 45 тысяч спам текстов в одном из разделов. Из-за этого открытость порталов посвященных открытости приходится ограничивать, мы позакрывали регистрацию во всех своих основанных на CKAN порталах открытых данных именно по этой причине.

- Специализированный спам. Если ты активно публикуешь открытый код, ведешь активность на Github то рано или поздно, но скорее очень рано на тебя посыпется специализированный спам который можно разделить условно на 2 типа:
1-й - "Мы тут увидели что Вы добавили в избранное такой то open source проект, а у нас очень похожий, обязательно зайдите и посмотрите на нас и может быть используйте и добавьте в избранное"
2-й - "Чувак(-иха) у тебя столько активности в твоем аккаунте, зарегистрируйся в нашем сервисе где мы сводим больших работодателей из США и крутых программистов"

- Публичный технический долг. Технический долг штука неприятная для всех кто когда-либо занимался программированием, для дела ли или для души, но когда ты публикуешь открытый код ты, де-факто, принимаешь для себя что твой технический долг будет общедоступен. Да-да, не только код, но и технический долг по нему.

- Похвала редка, критика неизбежна. Это касается не только открытых данных и открытого кода, но здесь важно понимание что за очень редкими случаями решения действительно массовых и болезненных проблем, пользователи будут редко хвалить и нередко критиковать. Это нормально, особенно в коммуникации в некоторых культурах.

Конечно, все это не отменяет плюсов, общедоступное портфолио, способ коммуникации с теми кто разделяет твои интересы и многое другое.

#thoughts #opendata #opensource
👍163
Эх, прошла эпоха Ардуино. Корпоративные юристы способны испортить буквально всё
💯4
Forwarded from Geeks (Shpak Aleksandr)
Чуть больше месяца прошло с момента покупки любимой всеми компании Arduino компанией Qualcomm, как юристы Qualcomm добрались до ToS и начали подкручивать в нём гайки. Например, теперь в нём появилось вот такое «чудесное» запрещающее положение:

... переводить, декомпилировать или производить обратную разработку Платформы, либо участвовать в любой другой деятельности, направленной на выявление алгоритмов и логики работы Платформы, если это явно не разрешено Arduino или применимыми лицензионными соглашениями...


Ну вы поняли - платформа приобрела популярность именно потому, что изначально была открытой и её могли копировать все подряд, продавая свои клоны за копейки. А теперь работа с платформой - это ходьба по достаточно тонкому льду.

При этом Qualcomm пытается выкрутиться, не меняя ToS напрямую. Например, они писали в блог пояснения в формате: дескать, это не мы такие злые — это вы нас недопоняли: якобы всё для пользователя осталось как прежде. Но выглядит это, мягко говоря, не очень убедительно.

И при этом недовольны новыми правилами не только абстрактные пользователи Reddit, но и компании, которые построили бизнес вокруг открытого железа, как Adafruit.

PS от @g33ks: В ToS появились и другие «шикарные» пункты, традиционные для документов этого жанра: например, про передачу прав на контент, сбор данных + разные штуки, связанные с ИИ (если честно, я сейчас не слежу особо пристально за Arduino и даже не знаю, где именно они там ИИ внедряют или собираются внедрять).

UPD: мне тут еще написали, что в ToS появилось, конечно же, про то, что нельзя ардуинки использовать теперь и во всяких нехороших странах и территориях (ну вы поняли).
🌭7😢4🗿41
Полезные ссылки про данные, технологии и не только:
- DS-STAR новый ИИ агент для решения задач в data science, обещают многое включая автоматизация обработки, анализа и визуализации данных. Заодно препринт где в тексте приведены другие похожие продукты.
- Federal Agency Github Activity визуализация активности на Github'е федеральных государственных агентств, спойлер: многие не публикуют ничего, но есть такие что работают над кодом постоянно. При этом в США есть госполитика о том что не менее 20% разрабатываемого госведомствами кода должно быть открытым кодом. Автор проекта рассказывает об этом подробнее
- Shai-Hulud 2.0 - новая версия вредоноса который инфильтруется в виде пакета для npm и ворует ключи, пароли и реквизиты доступа. В этой версии появился "dead man switch", угроза уничтожения данных пользователя если он мешает распространению. Кстати, что происходит с "AI powered malware" ? Появились ли уже вредоносы умеющие в ИИ?
- LocalAI позиционируется как local-first альтернатива OpenAI, лицензия MIT, быстро набирает популярность. Акцент на более человеческих, а не технических интерфейсах

#opensource #malware #ai #datascience
4👍2
Для всех ИИ агентов для кодинга у меня есть довольно простой тест который большая часть из них ещё полгода назад пройти не могли. В Армении есть портал статистики statbank.armstat.am который много лет назад создавался за счет помощи ЕС и с той поры не обновлялся. Он построен на базе движка с открытым кодом PxWeb шведско-норвежской разработки который прошел большую эволюцию за эти годы, но в Армстате используется очень старая его версия с интерфейсом созданным на ASP.NET с большим числом postback запросов что не критично, но неприятно усложняет сбор из него данных. Я такую задачу отношу к скорее утомительным чем сложным, потому что отладка на них может быть долгой и замороченной.

У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер

Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.

Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.

В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.

Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.

Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись

Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает

Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.

#opendata #opensource #ai #coding
👍94
В рубрике как это устроено у них каталог открытого ПО для исследователей Research Software Repository (RSD)

Включает 1066 программных продуктов привязанных к 352 научным проектам, 529 организациям с упоминанием 2134 контрибьюторов и 27994 упоминания в научных работах.

Проект создан в eScienceCenter в Нидерландах и сам тоже с открытым кодом.

Кроме всего прочего они еще и скрейпят коммиты в Git репозитории на Github и других платформах и показывают уровень активности работы над репозиториями.

Сам проект тоже с открытым кодом.

Учитывая что большая часть ПО создано в рамках государственных научных программ, этот проект можно также рассматривать как портал систематизации, раскрытия и поиска государственного ПО в части научных исследований.

#opensource #research #openaccess
3👍3
Датасет Цифрового архива: расходы рабочих и служащих РСФСР на промышленные товары

По данным статистического ежегодника «Народное хозяйство в СССР» пятидесятые годы XX века были отмечены ростом потребления наиболее дорогих видов тканей, шерстяных и шелковых, верхнего и бельевого трикотажа, чулочно-носочных изделий, кожаной обуви. Так, в 1958 году наибольшие траты на непродовольственные товары среди всех категорий покупателей пришлись именно на готовую одежду. При этом больше всех на такие товары тратили инженерно-технические работники промышленности, а меньше всего — учителя начальных школ.

Публикуем датасет «Денежные расходы рабочих и служащих на приобретение непродовольственных промышленных товаров на одну семью за год», составленный на основе соответствующей таблицы из справочника «Бюджеты рабочих, служащих и колхозников РСФСР. Статистический сборник».

#датасет #статситика #ЦАГГ #история #РСФСР
👍72🤔1🤝1
Для тех кто анализирует данные и тд. я масштабно обновил инструмент metacrafter https://github.com/apicrafter/metacrafter по идентификации семантических типов данных, включая персональные данные по многим странам и языка.

Что изменилось:
- добавлено много новых правил и обновлены имеющиеся
- сильно оптимизирован код для ускорения мэтчинга правил
- добавлена возможность фильтрации правил по стране (страна указывается в файле правил)
- добавлено множество опций для командной строки

Изменений много, они могут давать ложные срабатывания потому что некоторые правила таковы что много что под них может подпасть, поэтому управление правилами и улучшилось с точки зрения фильтрации по стране.

Собственно сами правила тоже обновились https://github.com/apicrafter/metacrafter-rules

Это не финальные изменения, а подготовка кода к интеграцию в Dateno.

#opensource #datatools #dataengineering
👍31🔥1
Да, кстати, началась подготовка ко Дню открытых данных в мире и в РФ в марте 2026 г. Глобальная тема дней открытых данных будет "Trainathons" - подготовка данных для работы Public AI (открытых ИИ моделей) в первую очередь на базе Википедии и других открытых проектов со свободными лицензиями.Мы в Инфокультуре уже много лет проводим ОДД в формате онлайн конфы, но если есть другие предложения, пишите в чате @begtinchat или мне в личку.

#opendata #events
6👍3🔥1