Подборка ссылок про данные, технологии и не только:
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.
Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem
#opensource #datadocumentation #datapolicy #plainlanguage
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.
Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem
#opensource #datadocumentation #datapolicy #plainlanguage
Stateofdocs
State of Docs Report 2025
Read the State of Docs Report 2025 and see what documentation professionals say about the state of the industry
Model Context Protocol (MCP) был разработан компанией Anthropic для интеграции существующих сервисов и данных в LLM Claude. Это весьма простой и неплохо стандартизированный протокол с вариантами референсной реализации на Python, Java, Typescript, Swift, Kotlin, C# и с большим числом реализаций на других языках.
Тысячи серверов MCP уже доступны и вот основные ресурсы где можно их искать:
- Model Context Protocol servers - большой каталог на Github
- Awesome MCP Servers - ещё один большой каталог с переводом на несколько языков
- Pipedream MCP - интеграция с 12.5 тысяч API и инструментов через сервис Pipedream
- Zapier MCP - интеграция с 8 тысячами приложений через сервис Zapier
- Smithery - каталог MCP серверов, 6200+ записей по множеству категорий
- MCP.so - каталог в 13100+ MCP серверов
Похоже мода на MCP пришла надолго и пора добавлять его к своим продуктам повсеместно.
#ai #opensource #aitools
Тысячи серверов MCP уже доступны и вот основные ресурсы где можно их искать:
- Model Context Protocol servers - большой каталог на Github
- Awesome MCP Servers - ещё один большой каталог с переводом на несколько языков
- Pipedream MCP - интеграция с 12.5 тысяч API и инструментов через сервис Pipedream
- Zapier MCP - интеграция с 8 тысячами приложений через сервис Zapier
- Smithery - каталог MCP серверов, 6200+ записей по множеству категорий
- MCP.so - каталог в 13100+ MCP серверов
Похоже мода на MCP пришла надолго и пора добавлять его к своим продуктам повсеместно.
#ai #opensource #aitools
Model Context Protocol
Introduction - Model Context Protocol
Get started with the Model Context Protocol (MCP)
О том как устроена архивация сайтов в примере. Я не раз писал о том как устроена веб архивация и цифровое архивирование в принципе и среди многих проблем в этой области, далеко не последняя в том что почти весь инструментарий для этой задачи, скажем так, слегка устарелый. А на то чтобы переписать его нужны серьёзные расходы, но не инвестиционные потому что они врядли окупаются.
Один из таких инструментов - это grab-site [1] от команды ArchiveTeam, волонтеров архивирующих гибнущие веб сайты.
Его ключевые фичи - это возможность динамически настраивать списки блокировки/игнорирования и большие подборки преднастроенных правил игнорирования несодержательного контента.
Это, к слову, одна из серьёзных проблем при веб архивации, чтобы краулер не оказался в ловушке циклических перенаправлений и чтобы он не индексировал дубликаты. А также у grab-site в комплекте сервер мониторинга краулинга.
Внутри grab-site используется аналог утилиты wget под названием wpull. С очень давно не обновлявшимся кодом и чуть большими возможностями по автоматизации обработки получаемого потока данных.
Все эти инструменты из экосистемы WARC, они архивируют весь контент в WARC файлы.
Это экосистема выросшая из Интернет Архива, но переставшая развиваться уже много лет. Гораздо чаще контент с сайтов краулят не для архивации, а для обработки или извлечения данных и инструменты для архивации из WARC экосистемы для этого пригодны плохо.
Вместо них используют совсем другие краулеры, в том числе ныне популярные краулеры для AI или встроенные в инструменты вроде Elastic.
Тем не менее на фоне реформы российского Росстата архивировать его контент необходимо потому что, выражаясь аллегорически, "Почему-то каждый раз когда они снимают фильм про Робин Гуда, они сжигают нашу деревню" (c).
А я напомню про ещё один инструмент, metawarc [2] это разработанная мной несколько лет назад утилита по анализу веб архивов. Она извлекает из WARC файлов метаданные и делает рядом индексный файл с которым можно работать через SQL.
Ссылки:
[1] https://github.com/ArchiveTeam/grab-site
[2] https://github.com/datacoon/metawarc
#webarchives #digitalpreservation #opensource
Один из таких инструментов - это grab-site [1] от команды ArchiveTeam, волонтеров архивирующих гибнущие веб сайты.
Его ключевые фичи - это возможность динамически настраивать списки блокировки/игнорирования и большие подборки преднастроенных правил игнорирования несодержательного контента.
Это, к слову, одна из серьёзных проблем при веб архивации, чтобы краулер не оказался в ловушке циклических перенаправлений и чтобы он не индексировал дубликаты. А также у grab-site в комплекте сервер мониторинга краулинга.
Внутри grab-site используется аналог утилиты wget под названием wpull. С очень давно не обновлявшимся кодом и чуть большими возможностями по автоматизации обработки получаемого потока данных.
Все эти инструменты из экосистемы WARC, они архивируют весь контент в WARC файлы.
Это экосистема выросшая из Интернет Архива, но переставшая развиваться уже много лет. Гораздо чаще контент с сайтов краулят не для архивации, а для обработки или извлечения данных и инструменты для архивации из WARC экосистемы для этого пригодны плохо.
Вместо них используют совсем другие краулеры, в том числе ныне популярные краулеры для AI или встроенные в инструменты вроде Elastic.
Тем не менее на фоне реформы российского Росстата архивировать его контент необходимо потому что, выражаясь аллегорически, "Почему-то каждый раз когда они снимают фильм про Робин Гуда, они сжигают нашу деревню" (c).
А я напомню про ещё один инструмент, metawarc [2] это разработанная мной несколько лет назад утилита по анализу веб архивов. Она извлекает из WARC файлов метаданные и делает рядом индексный файл с которым можно работать через SQL.
Ссылки:
[1] https://github.com/ArchiveTeam/grab-site
[2] https://github.com/datacoon/metawarc
#webarchives #digitalpreservation #opensource
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.
Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.
Лицензия MIT.
Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M
#opensource #ai #books #readings
Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.
Лицензия MIT.
Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M
#opensource #ai #books #readings
GitHub
GitHub - santinic/audiblez: Generate audiobooks from e-books
Generate audiobooks from e-books. Contribute to santinic/audiblez development by creating an account on GitHub.
Подборка ссылок про данные, технологии и не только
AI
- Transforming R&D with agentic AI: Introducing Microsoft Discovery о Microsoft Discovery, инструменте в виде агентского AI для исследователей. Акцент явно на практических исследованиях и сервисе для исследовательских центров и университетов.
- Spatial Speech Translation: Translating Across Space With Binaural Hearables научная статья про прогресс распознавания речи одновременно говорящих в толпе. Если всё сильно продвинется то тут столько возможностей для шпионского применения. Так и просится на страницы книги/рассказа про будущее.
- Claude Code SDK свежее SDK для генерации кода от Claude для тех кто хочет интегрировать Claude в свой продукт.
Открытый код
- Void альтернатива Cursor с открытым кодом. Пишут что поддерживают условно любую LLM, локальную или облачную. Форк VS Code.
- Marginalia Search - малоизвестный небольшой европейский поисковик авторы которого пытаются переосмыслить индексацию некоммерческой части интернета. Делают на небольшой европейский грант, открытый код AGPL. Любопытно, есть пара интересных идей, но нет хорошо продуманной стратегии.
- Scrapling свежая библиотека по "скрытному" парсингу сайтов. Интегрирована со всякими сервисами онлайн прокси, авторы обещают парсинг HTML быстрее чем у многих других инструментов. Выглядит полезно. Лицензия BSD-3
- Doctor инструмент для краулинга и индексации веб сайтов и предоставления собранного контента как MCP сервера. Можно сказать сайт-в-MCP. Внутри crawl4ai, DuckDB и Redis. Используют DuckDB как базу для векторного поиска, что немного необычно. Лицензия MIT
- VERT - конвертер изображений, видео, документов, аудио с открытым кодом и онлайн сервисом. Код под AGPL и веб интерфейс выглядит смазливо так что авторы явно нацелились на стартапо по модели онлайн сервис + открытый код. Плюс - работает без облака, через WebAssembly все преобразования идут на вашем компьютере. Это же и минус, потоковое преобразование сотен тысяч файлов не организовать.
#opensource #data #datatools #ai
AI
- Transforming R&D with agentic AI: Introducing Microsoft Discovery о Microsoft Discovery, инструменте в виде агентского AI для исследователей. Акцент явно на практических исследованиях и сервисе для исследовательских центров и университетов.
- Spatial Speech Translation: Translating Across Space With Binaural Hearables научная статья про прогресс распознавания речи одновременно говорящих в толпе. Если всё сильно продвинется то тут столько возможностей для шпионского применения. Так и просится на страницы книги/рассказа про будущее.
- Claude Code SDK свежее SDK для генерации кода от Claude для тех кто хочет интегрировать Claude в свой продукт.
Открытый код
- Void альтернатива Cursor с открытым кодом. Пишут что поддерживают условно любую LLM, локальную или облачную. Форк VS Code.
- Marginalia Search - малоизвестный небольшой европейский поисковик авторы которого пытаются переосмыслить индексацию некоммерческой части интернета. Делают на небольшой европейский грант, открытый код AGPL. Любопытно, есть пара интересных идей, но нет хорошо продуманной стратегии.
- Scrapling свежая библиотека по "скрытному" парсингу сайтов. Интегрирована со всякими сервисами онлайн прокси, авторы обещают парсинг HTML быстрее чем у многих других инструментов. Выглядит полезно. Лицензия BSD-3
- Doctor инструмент для краулинга и индексации веб сайтов и предоставления собранного контента как MCP сервера. Можно сказать сайт-в-MCP. Внутри crawl4ai, DuckDB и Redis. Используют DuckDB как базу для векторного поиска, что немного необычно. Лицензия MIT
- VERT - конвертер изображений, видео, документов, аудио с открытым кодом и онлайн сервисом. Код под AGPL и веб интерфейс выглядит смазливо так что авторы явно нацелились на стартапо по модели онлайн сервис + открытый код. Плюс - работает без облака, через WebAssembly все преобразования идут на вашем компьютере. Это же и минус, потоковое преобразование сотен тысяч файлов не организовать.
#opensource #data #datatools #ai
Вышла новая версия 1.3.0 DuckDB [1] с кучей изменений и улучшений.
Из важного стоит отметить:
1. Кэширование внешних файлов.
Теперь при обращении к файлу по ссылке он по умолчанию кешируется. Это очень удобно при работе с файлами относительно небольшого объёма.Опять же DuckDB здесь выступает скорее как query engine чем как база данных
2. Прямое обращение к файлу с командной строки
Позволяет сразу передать файл параметром и сделать запрос. Удобно тем что позволяет сократить описание к командной сроке и сэкономить время.
3. Расширение для кодировок
Это, конечно, давно ожидаемая [2] возможность работы с файлами в любой кодировке. Многим это существенно облегчит жизнь.
Также пишут что системно переработали код чтения и записи в Parquet файлы и всё должно быть быстрее, вот это надо будет проверить. Потому что чтение вроде как и раньше было неплохо, а вот запись в Parquet в DuckDB съедала много оперативной памяти.
Там ещё много изменений связанных с работой с геоданными, JOIN'ам, инструмент явно и быстро улучшается.
Ссылки:
[1] https://duckdb.org/2025/05/21/announcing-duckdb-130.html
[2] https://duckdb.org/docs/stable/core_extensions/encodings
#opensource #dataengineering #duckdb
Из важного стоит отметить:
1. Кэширование внешних файлов.
Теперь при обращении к файлу по ссылке он по умолчанию кешируется. Это очень удобно при работе с файлами относительно небольшого объёма.Опять же DuckDB здесь выступает скорее как query engine чем как база данных
2. Прямое обращение к файлу с командной строки
Позволяет сразу передать файл параметром и сделать запрос. Удобно тем что позволяет сократить описание к командной сроке и сэкономить время.
3. Расширение для кодировок
Это, конечно, давно ожидаемая [2] возможность работы с файлами в любой кодировке. Многим это существенно облегчит жизнь.
Также пишут что системно переработали код чтения и записи в Parquet файлы и всё должно быть быстрее, вот это надо будет проверить. Потому что чтение вроде как и раньше было неплохо, а вот запись в Parquet в DuckDB съедала много оперативной памяти.
Там ещё много изменений связанных с работой с геоданными, JOIN'ам, инструмент явно и быстро улучшается.
Ссылки:
[1] https://duckdb.org/2025/05/21/announcing-duckdb-130.html
[2] https://duckdb.org/docs/stable/core_extensions/encodings
#opensource #dataengineering #duckdb
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
Google Cloud Blog
AlloyDB AI’s ScaNN index improves search on all kinds of data | Google Cloud Blog
Recent innovations in AlloyDB AI’s ScaNN index improve performance and quality of search over structured and unstructured data.
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный навоплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools