Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В качестве примера данных создаваемых и улучшаемых с помощью ИИ, публикую открытым кодом и открытыми данными Internacia Datasets (Internacia - это международный на эсператно).

В репозитории находятся наборы данных в форматах JSONl, YAML, Parquet и база DuckDB в которых содержатся данные о 252 странах и 727 группах стран и межгосударственных организациях. Там же подробности про содержание и структуру базы, примеры доступа и другие подробности.

Эти наборы данных собираются из большого числа YAML файлов из папок data/countries и data/intblocks. В свою очередь эти YAML файлы вручную или автоматизированно обновляются. В частности чтобы собрать эту базу я взял свою базу межгосударственных организаций 5-летней давности, поправил вручную самое критичное и привел в порядок с помощью ИИ агентов Antigravity и Cursor, после чего снова поправил и в итоге собрал имеющиеся записи в наборы данных.

В Dateno сейчас частично используются часть этой логики используется для мэппинга датасетов на страны, но после завершения SDK для Python'а оно заменит применяемую сейчас библиотеку pycountry на использование этого справочника. а заодно даст возможность, при желании, обогащать датасеты дополнительными фильтрами и метаданными по привязкам к геоблокам, например, отфильтровывая датасеты только из стран Евросоюза или стран БРИКС или стран Лиги арабских государств.

Сейчас идет активный рефакторинг части кода Dateno, так что этот компонент будет там использоваться.

А, в целом, у него много применений. Самое очевидное про которое я все время говорю - это региональные блоковые рейтинги. Хочется сделать рейтинг стран по открытости внутри политических блоков? Без проблем. Хочется отрейтинговать страны ОЭСР по ВВП? Тоже несложно. И многое и многое другое, это справочник, упакованный в современные форматы.

Источники датасета: собственная база, Wikipedia, Wikidata, сайты межгосударственных организаций, реестры стран ООН и Всемирного банка.

Важная особенность в том что в перечне стран есть не только те что являются членами ООН, но и суверенные территории и непризнанные государства. Поэтому их 252, в основе был справочник Всемирного Банка, а он включает многие суверенные территории не являющиеся членами ООН.

Дальнейшее развитие:
1. SDK для Python
2. REST API возможно вместе с другими похожими справочными данными
3. Расширение на субрегиональный уровень по кодам ISO3166-2 (точно не первый приоритет)
4. Исправление ошибок и дополнения метаданных

#opendata #opensource #dateno #datasets
👍721🔥1
В рубрике полезных инструментов для сбора данных tdl (Telegram Downloader) инструмент командной строки,написан на Go, под лицензией AGPL-3.0, позволяет выгружать списки сообщений, сами сообщения и файлы и проводить другие манипуляции по выгрузке списков чатов, их участников и другой информации.

Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.

Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.

Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.

Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.

#opendata #opensource #digitalpreservation #data #tools
👍12621
В качестве нерегулярного оффтопа, периодически думаю над сценариями рассказов про ИИ приближенных к наиболее вероятным сценариям развития технологий, но в научно-фантастическом контексте.

Вот краткие синопсисы некоторых идей:
1.Анти-ИИ терроризм. Группа пострадавших от ИИ людей планируют атаку на электростанции питающие крупнейшие датацентры. Для планирования они тоже используют ИИ, в виде открытой модели со снятыми с неё ограничениями. После успешной, но фатальной атаки они все погибают, а многие глобальные ИИ сервисы отключаются. В финальных кадрах показан офис некой восточноазиатской компании в которой несколько человек обсуждают можно ли заложить в открытую ИИ модель определенные ответы на вопросы и подталкивание к конкретным шагам, а также о том как и как можно подкинуть инструкцию по снятию ограничений потенциальным террористам не выдавая себя.
2. Автономные роботизированные поселения спасают человечество. Человечество не смогло удачно доставить людей на Марс и переключилось в создание автномных роботизированных поселений на Марсе где с помощью централизованного ИИ должны быть созданы условия для прилета людей в поселение где уже будет еда, вода и жизненная среда. Для проверки идеи на Земле создают сотни таких автоматизированных поселений в местах, как правило, плоходоступных и с суровым климатом. Когда наступает апокалиптичное событие (падение астероида, глобальная пандемия или зомби-апокалипсис) то эти поселения оказываются единственным убежищем позволяющем малым группам человечества выжить.
3. Неубиваемый ИИ вирус. Основанный на ИИ вирус захватывает компьютеры и электронные устройства, использует децентрализованное фрагментированное хранение для распространения и накопления украденных данных/реквизитов/паролей и zero-day уязвимостей которые он также находит автономно. Заканчивается все постепенными блокировками любых коммуникаций между странами и отдельными территориями и методичная работа по вычищению. Расходы коллосальные и мир в глубоком шоке, рассказ от лица человека живущего изолированного в глуши и приютившего один из оставшихся экземпляров вируса в умном холодильнике

#thoughts #ideas
👍85🔥3
Полезные ссылки про данные, технологии и не только:
- Yaak - GUI клиент для REST API, как альтернатива Postman, Insomnia, Apidog и другим. Из плюсов - открытый код под лицензией MIT и сравнительно небольшой размер всего 60МБ (удивительно мало для настольного приложения по нынешним временам). Автор явно нацелен на коммерциализацию, но пока берет плату только за коммерческое использование. По бизнес модели больше похоже на классическое приобретение лицензии на ПО, а не на подписочный облачный сервис
- Will there ever be a worse time to start a startup? - очередной отличный текст от Бена Стенсила о том что сейчас стоимость разработки падает на 10% ежемесячно и что для стартапов это реальный вызов и он задается вопросом: Не худшее ли сейчас время для запуска стартапа? Хороший вопрос, весьма точный. ИИ реально поглощает все что только можно
- Commission and European Investment Bank Group team up to support AI Gigafactories Евросоюз запланировал 20 миллиардов евро на ближайшие годы чтобы сравняться в ИИ гонке с США и Китаем. Как я понимаю из текста инвестиции планируются через Европейский инвестиционный банк (EIB) и расходы будут проводится открытыми тендерами.
- Wikipedia urges AI companies to use its paid API, and stop scraping команда Википедии продолжает призывать ИИ компании использовать их платное API, вместо скрейпинга. По мне так это глас вопиющего в пустыне потому
почти все ИИ агенты по умолчанию точно используют открытые дампы и контент с веб-страниц и чтобы они перестали это делать Википедии придется перестать быть собой и начать закрываться гораздо более агрессивно что не остановит ИИ боты, но приведет к ещё большей потере трафика. Не могу пока разглядеть в происходящем стратегии с потенциально позитивным исходом.
- AI in State Government доклад о применении ИИ в госуправлении в правительствах штатов США. Полезно большим числом примеров того как ИИ агенты и ИИ в принципе применяют. С оговоркой что доклад от аналитиков из подразделения IBM работающего с госухой в США, так что кейсы интересные, но как научную работу рассматривать не стоит. Скорее как анализ рынка консультантами.

#opendata #ai #wikipedia #government
👍5
Open source продукт Minio по организации своего S3-совместимого хранилища больше не open source. 2 декабря разработчики обновили файл README.md где указали что проект теперь только в maintenance mode (режиме обслуживания) и новые возможности и исправление багов более не происходят. Вместо него разработчики теперь продвигают коммерческий продукт MinIO AIStor (хранилище для ИИ продуктов). Это более жесткий сценарий чем то что делали Elasticsearch и MongoDB с лицензией SSPL. Те хотя бы оставляли код для исправления ошибок и проблема была скорее в том что контрибьюторы вкладывались в продукт с ограничениями по лицензированию, а в случае Minio это переход от открытого кода к закрытому продукта.

А большинству ИТ команд теперь придется убирать Minio из своих технологических стеков.

#opensource #minio #techstack
😢163😁3👍2😱1💔1
К вопросу о том как и кто являются пользователями данных и как оценивать насколько тот или иной публичный дата продукт / каталог данных может использоваться.

Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)

2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения

3. Разработчики и дата инженеры

- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных

Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.

Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.

К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.

#opendata #users #thoughts #data
👍1611
Как обмениваться большими файлами не привлекая внимания санитаров без необходимости использовать облачные диски или аренды серверов? AltSendme инструмент по отправке данных через зашифрованное peer-to-peer соединение, представляет собой GUI приложение для Linux, Windows и Mac. Можно выбрать конкретный файл и после нажатия на "Start sharing" приложение создает длинны код/тикет который надо любым способом передать получателю и который после ввода этого кода в это же приложение у себя быстро и напрямую скачивает файл.

Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.

Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.

Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.

#opensource #filetransfer #tools #datatools
🔥1942
State of AI большое свежее эмпирическое исследование от OpenRouter и a16z (Andreessen Horowitz) по тому как использовались 100 триллионов токенов.

Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.

В целом обзор отражает высокую динамику и быстрые изменения.

Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.

#ai #readings
🔥93👍3❤‍🔥2
Написал в канале Dateno о том как устроены и доступны данные в Армении, а к этому добавлю что поскольку Армения участвует в Open Government Partnership, то там есть добровольно взятые обязательства страны и отчетность по ним. Из отчета за 2022-2024 видно что результаты пока скромные, а в части открытых данных так просто небольшие.
3
Forwarded from Dateno
Open Data in Armenia: No National Data Portal - Yet

One of the most notable characteristics of Armenia’s open data landscape is the absence of a government-run national open data portal. This is especially interesting given that Armenia has been a member of the Open Government Partnership since 2011. However, the country’s transparency efforts historically focused more on public dialogue and civic participation rather than open data infrastructure.

Instead of an official portal, Armenia relies on a community-driven initiative - Open Data Armenia (data.opendata.am), which aggregates a wide range of datasets from both official national sources and international organizations.

Within the Dateno Data Catalog Registry, Armenia currently has 11 registered data catalogs (https://dateno.io/registry/country/AM/), which can be grouped as follows:

- 2 open data portals
- 6 geospatial data catalogs
- 3 statistical and microdata catalogs

Armenia’s official statistics are published via statbank.armstat.am, built on the open-source PxWeb platform. Unfortunately, this installation has not been updated for many years and does not provide a public API-unlike most modern PxWeb deployments. For this reason, the portal is not yet indexed by Dateno, unlike similar statistical portals in other countries.

At the same time, a significant amount of Armenian data is available through major international statistical platforms such as the World Bank, BIS, WHO, and others - and already indexed in Dateno.

Armenia is also home to another open data portal with a global scope: CryptoData (https://cryptodata.center/), which provides a large collection of cryptocurrency datasets. This project was also developed by the Open Data Armenia initiative.

Additional Armenian datasets can be found within the statistical systems of regional organizations where Armenia is a member - including CIS (https://new.cisstat.org) and EAEU (https://eec.eaeunion.org/comission/department/dep_stat/union_stat/) - as well as across numerous official government websites.

#opendata #armenia #Dateno
3
Ещё один полезный инструмент для дата инженера и аналитика data-peek SQL клиент для десктопа под Windows, Mac и Linux с поддержкой PostgreSQL, MySQL и Microsoft SQL. Для личного пользования лицензия MIT и открытый код, для коммерческого отдельная лицензия и платное использование.

В целом ничего нового, кроме построителя SQL запросов через ИИ модели, поддерживает многие модели включая локальные через Ollama.

Как же много таких клиентов появилось в последнее время, кто бы сделал аналогичное для NoSQL: Elasticsearch, OpenSearch, MongoDB и тд.

А еще лучше для SPARQL'я потому что программировать SPARQL запросы это боль для психически неподготовленной личности. Именно очеловечивание запросов способно придать SPARQL'ю новую жизнь, по моему разумению.

Но понятно, на самом деле, почему таких инструментов нет, потому что ёмкость рынка инструментов для SQL превышает все остальные. Но тогда уж надо добавлять поддержку не Microsoft SQL, а Clickhouse, SQLite, DuckDB и тд.

#opensource #datatools #dataengineering #tools
👏5👍2🔥1🤝1
Накопилось какое-то количество рефлексии про применении ИИ агентов для программирования и не только, основная мысль конечно в том что есть много задач в которых ИИ не надо, возможно даже, категорически не надо применять как генеративный инструмент, но однозначно необходимо и возможно даже критично как валидационный инструмент.

К примеру, работа с помощью ИИ с законодательными текстами. Писать сейчас нормативные документы с помощью ИИ может оказаться очень рискованной затеей (судебные решения сгенерированные ИИ пока рассматриваем как курьёз и дефицит квалифицированных кадров). Потому что галлюцинации, потому что отсутствие какой-либо ответственности за ошибки и так далее.

А вот применение ИИ для верификации и валидации написанного текста не столько с точки зрения правил языка, сколько по руководству для применения. Автоматически можно найти противоречия с другими нормативными документами, отсутствие необходимых определений, конфликты в определении понятий, нечеткость формулировок и многое другое. Перечень этих правил проверки поддается существенной автоматизации и даже сложные документы состоящии из сотен поправок в разных нормативных актах могут быть проанализированы и представлены понятным языком.

Я вот пока не знаю в каких странах такие инструменты полноценно внедрят, скорее в относительно небольших и технологически развитых вроде Сингапура или Эстонии, но это представляется очень естественным развитием для всей нормативной работы.

Применительно к состоянию дел с российским законодательством включая решения исполнительной власти я вангую что такой валидационный инструмент если и напишут, то скорее технически грамотные люди имеющие критичный взгляд на происходящее в российских законах. Тогда это станет не техническим инструментом, а скорее медийным продуктом с автоматическим подробным анализом законопроектов и принятых НПА. Приведет ли это к качественному улучшению российского законодательства я не знаю, но усилению кризиса восприятия российских ФОИВов и законодателей как серьёзных нормотворцев может.

#thoughts #ai #aiagents #laws #lawmaking
👍942🕊1
В рубрике как это устроено у них каталог API правительства Италии api.gov.it включает 13+ тысяч точек подключения к API с возможностью подключения через централизованную национальную платформу доступа к данным. По каждому API в избытке метаданных и описания.

Более 2 тысяч API относятся к муниципалитетам. Важное отличие от российских СМЭВов в том что это в первую очередь систематизация имеющихся API, а не унификация под стандарты предоставления госуслуг поэтому через такие API доступны многие сервисы доступа к данным, геоданным и тд.

Для каждого API есть указание условий доступа, когда оно полностью открыто, а когда требует подтверждения представительства госоргана или компании работающей по госконтракту или иных требований.

Среди этих API есть открытый интерфейсы исследовательских центров, университетов и многих других учреждений.

Италия не единственная страна с таким каталогом API, они есть ещё во Франции, Великобритании, Сингапуре и многих других развитых странах. Ключевые их цели - в снижении барьера для доступа ИТ компаний к рынку автоматизации государства, возможности разработчиков внутри госорганов и госучреждений для доступа к данным и сервисам и предоставление доступа к данным и сервисам для широких слоёв пользователей.

Я такие каталоги API вношу в реестр Dateno наравне с каталогами данных и вскоре добавлю и этот каталог.

#opendata #API #italy #government #interoperability
👍831
Картинка из обзора изменений торговли Китая из Our World in Data. Она, с одной стороны наглядная, а с другой если бы я делал визуализацию по реальным изменениям в торговле Китая я бы сравнивал цифрами не только по числу стран где Китай стал главным торговым партнером, но и по многим другим параметрам.

Например, рост влияния можно измерить по измерению совокупной доли ВВП стран где Китай стал основным торговым партнером, по изменению влияния по блокам стран не только континентальным, но и экономическим: ЕС, АСЕАН, ЕАЭС, НАФТА, Меркосур и др.

Для того чтобы такое измерять можно применять все тот же код internacia-db который я недавно заопенсорсил для Dateno и где он уже используется.

Вообще один из моих любимых проектов по визуализации международной торговли это OEC (The Observatory of Economic Complexity).

А можно было бы уже создать Обсерваторию экономической зависимости [от Китая], как отражение изменений в мировой экономике в динамике.

#dataviz #china #thoughts #economics #trade
👍71
Forwarded from Open Data Armenia
Для тех кто интересуется статистикой Республики Армения мы опубликовали парсер данных Банка статистики Армстата statbank.armstat.ru, он доступен как открытый код в репозитории statbank-parser на языке Python и позволяет выгрузить более 900 индикаторов включая метаданные и данные по каждому индикатору в формате CSV.

Пока эти данные не загружены в data.opendata.am, но мы их обязательно добавим в будущем.

Хотя сам статбанк построен на продукте PxWeb новые версии которого предоставляют API, в Армстате до сих пор используется очень древняя его версия и с парсером пришлось повозиться чтобы эффективно парсить содержимое с веб-страниц.

Надеемся эти данные пригодятся энтузиастам, исследователям и экономистам.

Если у вас возникнут сложности с выгрузкой данных, напишите, в issues проекта, поправим код и, при необходимости, выложим дамп с данными.

#opendata #statistics #armstat
3