Ivan Begtin – Telegram

Ivan Begtin

9.07K subscribers

2.56K photos

5 videos

114 files

5.34K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.07K subscribers

В рубрике как это устроено у них эстонский портал культурного наследия E-Varamu включает 23.8 миллиона описаний архивных объектов из которых 1.94 миллиона доступны онлайн. Включает изображения, документы, карты, тексты, аудио и видеозаписи, и даже наборы данных.

Для сравнения в российском НЭБ доступно 49.8 миллионов описаний из которых 5.3 миллиона доступны онлайн. С одной стороны вдвое больше, с другой стороны в Эстонии проживает 1.3 миллиона человек, а в России 143 миллиона. В России примерно в 100 раз больше людей и можно ожидать примерно в 100 раз больше объектов культурного наследия.

Можно еще к российским культурным объектам добавить данные Госкаталога РФ, это + ~55 миллионов объектов, но даже так разница с эстонским порталом в 4 раза, а не в 100 раз. Есть к чему стремиться, не говоря уже о том что метаданные госкаталога довольно куцые, а, по удивительным причинам каталоги метаданных НЭБ и Госкаталога не объединены.

Возвращаясь к эстонскому каталогу - более всего поражает детальность метаданных и огромное число доступных фасетов для поиска и фильтрации материалов.

Из минусов - отсутствие публично задокументированного API и наборов данных с метаданными.

#opendata #digitalheritage #culture #culturalheritage #estonia

⚡3✍2🔥2

1.26K viewsIvan Begtin, 15:58

Я ранее писал про применение ИИ агентов для рефакторингка кода и про декларативное программирование, а теперь а теперь расскажу про декларативное создание баз данных.

Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.

И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется

В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.

Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"

и так далее.

Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.

Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).

Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах

А также огромное число исправлений в метаданных всех каталогов.

Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.

Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.

#opendata #datacatalogs #dateno #dataengineering #dataanalysis

dataportals-registry/data/entities/AE/Federal/opendata/databayanatae.yaml at main · commondataio/dataportals-registry

Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry

✍7🔥4👍3❤1

1.21K viewsIvan Begtin, 16:40

Forwarded from Dateno

Regular country open data overview, this time Estonia
—
Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint

Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures. ...

More at LinkedIn https://www.linkedin.com/pulse/open-data-estonia-small-country-remarkably-large-footprint-sdkce/

#opendata #estonia #datacatalogs

Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint

Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures.

❤3✍3🤔2

1.27K viewsIvan Begtin, 17:41

Короткий текст The fate of “small” open source где автор рассказывает о будущей печальной судьбе программных библиотек на примере свой библиотеки blob-util и того что ИИ агенты не предлагают использовать её, а автоматически генерируют код.

Это, кстати, довольно таки важная тема что по мере прогресс ИИ инструменты чаще всего игнорируют не самые популярные библиотеки для ПО и каждый раз плодят бесконечное число кода. Можно, конечно, в запросе к ИИ агенту поставить задачу на использование конкретной библиотеки, но это не то что является поведением по умолчанию.

Итоговые изменения пока малопредсказуемы, но вероятность того что многие библиотеки кода будут быстро устаревать весьма вероятно.

И тут я бы ещё добавил что еще одно важное возможное изменение - это применение LLM для переписывания ПО с блокирующими лицензиями на открытые. Например, есть открытый продукт с кодом на GPL или AGPL который Вам надо интегрировать в свой продукт. Подключаете LLM которое переписывает полностью код так чтобы не доказать что он использовался и у Вас на руках появляется продукт под более разрешающей лицензии и с тем же открытым кодом.

Похоже на реалистичный сценарий?

#opensource #ai #llm

Read the Tea Leaves

The fate of “small” open source

By far the most popular npm package I’ve ever written is blob-util, which is ~10 years old and still gets 5+ million weekly downloads. It’s a small collection of utilities for working w…

🤔7😢3❤2🌚2

1.41K viewsIvan Begtin, 13:03

Forwarded from Координация профанации

Рубрика "Циничное интеллектоведение"
В России открыт новый рынок - рынок российского интеллекта.
Источник - альманах "Искусственный интеллект. Индекс 2022 года" (выпуск 12, 2022 год), выпускаемый Центром компетенций НТИ "Искусственный интеллект" при МФТИ

😁15🤔4😱2

1.26K viewsIvan Begtin, 10:33

Для тех кто интересуется цифровой архивацией моя презентация с недавно прошедшей международной конференции посвященной библиотечному делу https://www.beautiful.ai/player/-Oe_rMY5u8Z1QKT9mqsu

#opendata #opanapi #digitalpreservation #webarchives

👍13❤3

1.35K viewsIvan Begtin, 10:08

Большое обновление реестра каталогов данных в Dateno, это то про что я писал в части применения ИИ для обогащения базы в виде YAML файлов. Фактически вся база реестра каталогов данных была пересобрана и обогащена множеством дополнительных данных, но основное - это почти 2 тысячи новых каталогов данных большая часть которых - это сервисы ArcGIS в США, большая часть региональных и муниципальных властей.

Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.

Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.

#opendata #datasets #datacatalogs

Dateno Registry and Dataset Search Engine

A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.

❤5

1.29K viewsIvan Begtin, edited 18:17

Forwarded from Dateno

🚀 Major Update of the Dateno Data Catalog Registry

The Dateno Registry — an open-source & open-data catalog of (almost) *all* data portals worldwide — just got a huge upgrade.
It powers the Dateno search engine, which now indexes 22M+ datasets.

🔍 Key Additions

• 1,993 new data catalog records
• 1,515 ArcGIS Server instances — massive geoportal expansion
• 293 global-level catalogs
• 97 French data catalogs

🌍 Geospatial Infrastructure

• 83 GeoServer
• 37 GeoNode
• 33 GeoNetwork
• 8 Lizmap
• 3 MapProxy
• 2 MapBender

📊 Open Data Platforms

• 47 OpenDataSoft
• 42 CKAN
• 5 DKAN

🔬 Scientific Repositories

• 38 Figshare
• 6 DSpace
• 6 NADA
• 9 THREDDS

🛠 Improvements

• 363 records with improved metadata
• Updated API endpoints for IPT catalogs
• Better metadata completeness
• Improved geographic & administrative coverage

🔗 More Info

🌐 Dateno Registry: https://dateno.io/registry
💾 Open-source data: https://github.com/commondataio/dataportals-registry
📦 Full dataset (parquet): https://github.com/commondataio/dataportals-registry/blob/main/data/datasets/full.parquet

#dateno #opendata #datacatalogs #opensource

Dateno Registry and Dataset Search Engine

A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.

👍5❤1

1.14K viewsIvan Begtin, 18:17

В качестве регулярных напоминаний.

Про открытые данные и статистику я писал довольно много в последние годы в блоге:
- Российская статистика: немашиночитаемая институциональная фрагментация
- Статистика как дата продукт
- Почему невозможно хвалить Росстат

И ещё больше тут в телеграм канале по тегу #statistics (я же не просто ставлю теги каждому посту, это такой формат публичной записной книжки).

Надо бы как-то собраться и написать обзорный текст, но всегда много других дел, поэтому чаще пишу в контексте индексации статистики в Dateno и дата каталогов.

#statistics

Российская статистика: немашиночитаемая институциональная фрагментация

Если бы не было статистики, мы бы даже не подозревали о том, как хорошо мы работаем. (c) к.ф. "Служебный роман"

👍4

1.2K viewsIvan Begtin, 09:14

К разговорам про падения интернета прекрасная картинка в Reddit'а и для полноты картины нехватает только регуляторов некоторых стран которые вносят свой неописуемый вклад в происходящее.

Я давненько подумываю про сюжет рассказа идеального цифрового шторма, тот случай когда контекст хорошо понятен и надо только красивых сюжетных линий зашить.

#thoughts

👍19🔥4💯3🤣1

1.61K viewsIvan Begtin, edited 09:33

К вопросу об ИИ, самая спорная сторона применения ИИ где на основе работы сделанной ИИ агентом оценивается работа человека. Иначе говоря когда ИИ используется не для усиления навыков человека, а для подмены в оценке знаний и умений.

Простой пример - конкурсы и хакатоны, сейчас они все очень либеральны в приеме работ сделанных с помощью ИИ, но можно ли сравнивать работу сделанную разработчиками/дизайнерами/аналитиками самостоятельно с работой сделанной с помощью ИИ? В конкурсах и хакатонах используются задачи которые призваны оценивать работу человека в определенной роли, а тут его роль меняется. Вместо разработки он осуществляет её "менеджерение" и это уже больше чем вайб кодинг.

Внимание вопрос? Должны ли конкурсы ограничивать прием работ сделанных ИИ или выносить их в отдельные номинации? Как вообще теперь проводить конкурсы ?

Очень похожая ситуация со студенческими и научными работами. Тут есть важная развилка, потому что исследования ведутся чтобы преумножать человеческие знания и тогда применение ИИ вполне оправдано если знания преумножаются. Но исследования же сейчас используются для оценки работы исследователя/студента. Применение ИИ делает эту оценку весьма сомнительной.

Вопрос как все будет меняться?

#thoughts

✍5💯2❤1

1.46K viewsIvan Begtin, 12:48

Про свежий законопроект про Гостех - https://sozd.duma.gov.ru/bill/1076648-8

Текст не очень большой и читать его недолго, главный вывод из него в том что ~~дохлую лошадь не пристрелили~~ ГосТех продолжается.

А я сделаю акцент на двух моментах:
1. Как и во всех остальных принятых в РФ законы за прошлые годы формулировка об отсутствии изменений в бюджете на 24 странице очень лукавая. Конечно же изменения будут

2. В ст. 7, ч. 1, п. 7 (стр. 14) есть формулировка, позволяющая расширить действие закона на «иных лиц, уполномоченных в соответствии с нормативными правовыми актами». Фактически закон могут в любой момент расширить на всех кто получает бюджетные деньги, к примеру обязать всех подрядчиков по госконтрактам вести разработку на сервисах Гостеха.

#russia #it #government

✍5👍1

1.41K viewsIvan Begtin, 10:46

Ещё про официальную статистику, есть важный тренд о котором я писал пока что мало - это отделение данных от их представления. Официальная статистика чаще всего строится как цельные системы в которых сразу есть и возможность получения данных и их визуальное представление.

А за это время появились десятки стартапов и сервисов которые наглядность обеспечивают значительно лучше официальные статистические сервисы, например, я довольно давно слежу за сервисом PlotSet с их интерактивными графиками. Очень наглядные штуки они генерируют в очень короткие сроки. При этом я не призываю использровать именно их, есть и другие варианты, и многие из них создаются с помощью ИИ агентов.

Ключевое тут в отделении данных от представления. Отдельно данные и API и отдельно интерактивный сервис на них основанный. Для популяризации официальной статистики такое разделение может быть эффективнее любых монолитных централизованных платформ.

Интересно, кстати, есть ли альтернативы PlotSet с открытым кодом?

#dataviz #statistics #datatools

👏3🤝3⚡2

1.19K viewsIvan Begtin, edited 15:51

This media is not supported in your browser

VIEW IN TELEGRAM

И в продолжение про PlotSet, альтернативное отображение с помощью кода сгененированного одним из ИИ агентов по визуализации структуры российского бюджета.

Уточнение, цифры я не перепроверял, хотя они похожи на достоверные. Косяки тоже есть, если делать как есть минимальными усилиями. Похоже на то что умеет делать PlotSet, но с открытым кодом и не такое красивое.

#ai #dataviz

👍4❤‍🔥2

1.25K viewsIvan Begtin, edited 16:02

Давно планировал написать про цену открытости, того занимаясь открытым кодом, открытыми данными или другой деятельностью связанной с благом обществу и технологиям кроме плюсов есть и издержки, некоторые из которых бывают очень неочевидными ну или, как минимум, не на поверхности.

Вот несколько примеров:
- Роботизированные спамеры и скамеры. Одна из бед открытых каталогов данных со свободной регистрацией пользователей и публикацией данных в какой-то момент стало бесконечное количество спама. Например, на порталах на базе CKAN открытая регистрация была прописана по умолчанию, в какой-то момент спамеры и скамеры понаписали скриптов которые регистрировали сотни тысяч аккаунтов и от них постили все что только разрешалось: создавали группы, профили организаций и карточки датасетов. Все фэйковые конечно, но в результате многие открытые порталы оказались забиты низкокачественным SEO мусором или, хуже того, откровенным скамом. Живой пример у меня перед глазами портал открытых данных метеослужбы Туниса. Там зарегистрировано более 1.3миллиона аккаунтов пруф потому что они не стали ограничивать регистрацию и поэтому у них у них более 45 тысяч спам текстов в одном из разделов. Из-за этого открытость порталов посвященных открытости приходится ограничивать, мы позакрывали регистрацию во всех своих основанных на CKAN порталах открытых данных именно по этой причине.

- Специализированный спам. Если ты активно публикуешь открытый код, ведешь активность на Github то рано или поздно, но скорее очень рано на тебя посыпется специализированный спам который можно разделить условно на 2 типа:
1-й - "Мы тут увидели что Вы добавили в избранное такой то open source проект, а у нас очень похожий, обязательно зайдите и посмотрите на нас и может быть используйте и добавьте в избранное"
2-й - "Чувак(-иха) у тебя столько активности в твоем аккаунте, зарегистрируйся в нашем сервисе где мы сводим больших работодателей из США и крутых программистов"

- Публичный технический долг. Технический долг штука неприятная для всех кто когда-либо занимался программированием, для дела ли или для души, но когда ты публикуешь открытый код ты, де-факто, принимаешь для себя что твой технический долг будет общедоступен. Да-да, не только код, но и технический долг по нему.

- Похвала редка, критика неизбежна. Это касается не только открытых данных и открытого кода, но здесь важно понимание что за очень редкими случаями решения действительно массовых и болезненных проблем, пользователи будут редко хвалить и нередко критиковать. Это нормально, особенно в коммуникации в некоторых культурах.
—
Конечно, все это не отменяет плюсов, общедоступное портфолио, способ коммуникации с теми кто разделяет твои интересы и многое другое.

#thoughts #opendata #opensource

👍16❤3

1.29K viewsIvan Begtin, 06:27

Эх, прошла эпоха Ардуино. Корпоративные юристы способны испортить буквально всё

💯4

1.15K viewsIvan Begtin, 13:55

Forwarded from Geeks (Shpak Aleksandr)

Чуть больше месяца прошло с момента покупки любимой всеми компании Arduino компанией Qualcomm, как юристы Qualcomm добрались до ToS и начали подкручивать в нём гайки. Например, теперь в нём появилось вот такое «чудесное» запрещающее положение:

... переводить, декомпилировать или производить обратную разработку Платформы, либо участвовать в любой другой деятельности, направленной на выявление алгоритмов и логики работы Платформы, если это явно не разрешено Arduino или применимыми лицензионными соглашениями...

Ну вы поняли - платформа приобрела популярность именно потому, что изначально была открытой и её могли копировать все подряд, продавая свои клоны за копейки. А теперь работа с платформой - это ходьба по достаточно тонкому льду.

При этом Qualcomm пытается выкрутиться, не меняя ToS напрямую. Например, они писали в блог пояснения в формате: дескать, это не мы такие злые — это вы нас недопоняли: якобы всё для пользователя осталось как прежде. Но выглядит это, мягко говоря, не очень убедительно.

И при этом недовольны новыми правилами не только абстрактные пользователи Reddit, но и компании, которые построили бизнес вокруг открытого железа, как Adafruit.

PS от @g33ks: В ToS появились и другие «шикарные» пункты, традиционные для документов этого жанра: например, про передачу прав на контент, сбор данных + разные штуки, связанные с ИИ (если честно, я сейчас не слежу особо пристально за Arduino и даже не знаю, где именно они там ИИ внедряют или собираются внедрять).

UPD: мне тут еще написали, что в ToS появилось, конечно же, про то, что нельзя ардуинки использовать теперь и во всяких нехороших странах и территориях (ну вы поняли).

🌭7😢6🗿4❤1

1.08K viewsIvan Begtin, 13:55

Полезные ссылки про данные, технологии и не только:
- DS-STAR новый ИИ агент для решения задач в data science, обещают многое включая автоматизация обработки, анализа и визуализации данных. Заодно препринт где в тексте приведены другие похожие продукты.
- Federal Agency Github Activity визуализация активности на Github'е федеральных государственных агентств, спойлер: многие не публикуют ничего, но есть такие что работают над кодом постоянно. При этом в США есть госполитика о том что не менее 20% разрабатываемого госведомствами кода должно быть открытым кодом. Автор проекта рассказывает об этом подробнее
- Shai-Hulud 2.0 - новая версия вредоноса который инфильтруется в виде пакета для npm и ворует ключи, пароли и реквизиты доступа. В этой версии появился "dead man switch", угроза уничтожения данных пользователя если он мешает распространению. Кстати, что происходит с "AI powered malware" ? Появились ли уже вредоносы умеющие в ИИ?
- LocalAI позиционируется как local-first альтернатива OpenAI, лицензия MIT, быстро набирает популярность. Акцент на более человеческих, а не технических интерфейсах

#opensource #malware #ai #datascience

Google Research

DS-STAR: A state-of-the-art versatile data science agent

DS-STAR is a state-of-the-art data science agent whose versatility is shown by its ability to automate a range of tasks — from statistical analysis to visualization and data wrangling — across various data types, culminating in a top-ranking performance on…

✍5👍2

1.54K viewsIvan Begtin, 05:12

Для всех ИИ агентов для кодинга у меня есть довольно простой тест который большая часть из них ещё полгода назад пройти не могли. В Армении есть портал статистики statbank.armstat.am который много лет назад создавался за счет помощи ЕС и с той поры не обновлялся. Он построен на базе движка с открытым кодом PxWeb шведско-норвежской разработки который прошел большую эволюцию за эти годы, но в Армстате используется очень старая его версия с интерфейсом созданным на ASP.NET с большим числом postback запросов что не критично, но неприятно усложняет сбор из него данных. Я такую задачу отношу к скорее утомительным чем сложным, потому что отладка на них может быть долгой и замороченной.

У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер

Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.

Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.

В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.

Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.

Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись

Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает

Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.

#opendata #opensource #ai #coding

Statistikmyndigheten SCB

Statistics Sweden (SCB) and Statistics Norway (SSB) has developed a new interface for PxWeb 2.0. The first version was released in October 2025 and is available on Github.

👍10❤4

1.35K viewsIvan Begtin, 06:51

В рубрике как это устроено у них каталог открытого ПО для исследователей Research Software Repository (RSD)

Включает 1066 программных продуктов привязанных к 352 научным проектам, 529 организациям с упоминанием 2134 контрибьюторов и 27994 упоминания в научных работах.

Проект создан в eScienceCenter в Нидерландах и сам тоже с открытым кодом.

Кроме всего прочего они еще и скрейпят коммиты в Git репозитории на Github и других платформах и показывают уровень активности работы над репозиториями.

Сам проект тоже с открытым кодом.

Учитывая что большая часть ПО создано в рамках государственных научных программ, этот проект можно также рассматривать как портал систематизации, раскрытия и поиска государственного ПО в части научных исследований.

#opensource #research #openaccess

👍4✍3

1.28K viewsIvan Begtin, 10:45