Ivan Begtin
9.36K subscribers
2.24K photos
4 videos
106 files
4.94K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.

Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.

Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam

#opendata #datasets #statistics #census
Про "российский мессенжер" на базе VK идёт много разговоров после выступления Максута Шадаева, я бы тоже поиронизировал, да и почему "мессенжер", а не "вестоноша", к примеру, но давайте серьёзнее что так и что не так.

Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.

Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.

Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.

Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогда кузнец VK? Кузнец VK тут не нужен
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)

#russia #digital
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.

Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом

кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту

Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций

Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API

Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian

Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования

Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜

Список неполный, ещё большая коллекция инструментов для локальных LLM

Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.

#personal #software #recovery
В рубрике полезных ссылок про данные, технологии и не только:
- DTAI Sports Analytics Lab лаборатория в бельгийском университете KU Leuven посвящённая спортивной аналитике и футболу в частности. Несколько инструментов и много публикаций о предсказании результатов футбольных матчей с помощью машинного обучения
- Kicking the Tires on CedarDB's SQL обзор CedarDB, это такая инновационная база данных создаваемая в TUM и совместимая с Postgres. О ней полезно читать для понимания как разработка современных реляционных баз ведётся и сложности в оптимизации запросов
- Gravitino новый геораспределенный каталог метаданных с открытым кодом, заявлено много чего, но надо смотреть подробнее. Это не из тех каталогов которые создаются для документирования и комплаенс с контролем перс данных, а из тех каталогов которые позволяют централизовано управлять озерами и хранилищами, например, на Iceberg.
- quarkdown синтаксис и инструмент на базе Markdown для подготовки книг/статей/больших текстов. По сути под замену Latex и с ним же его и сравнивают. Наиболее близкая альтернатива ему это Typst созданный с теми же целями
- DataHub Secures $35 Million Series B о том что DataHub, создатели одноимённого каталога метаданных, подняли $35m инвестиций на применение ИИ для управления метаданными. Учитывая что DataHub сильно просел по разработке в сравнении с OpenMetadata - это скорее хорошая новость.

#opensource #analytics
Forwarded from ministryofpoems
Сделано_людьми_Последняя_рукопись.pdf
79.9 KB
Отчаяние толкает нас на безумные поступки. Такие как, например, прийти в тюрьму и сказать "Посадите меня!", но это было бы слишком просто, да бесплатно ныне в тюрьму не сядешь. Нужно совершить что-то достаточно преступное чтобы тебя арестовали, но недостаточно чтобы тебе вживили чип и отправили на общественные работы. Времена то поменялись, когда-то общественные работы - это было самое лёгкое наказание, идёшь себе метёшь улицы или работаешь санитаром. Всё то наказание - это убирать гавно и уставать до изнеможения, а тюрьма была настоящим наказанием. Всё теперь наоборот, тюрьма - это чуть ли не единственный способ изолироваться от общества, а "общественные работы" теперь это когда тебе внедряют чип-зомби в голову и ты беснуешься внутри своего тела пока оно тебе не принадлежит и выполняет всю ту же грязную работу.

Но я не убийца и не вор – я писатель, которого обвинили в самом страшном преступлении нашего времени: в использовании искусственного интеллекта для создания своих произведений ...
Где искать геоданные? Поскольку наша команда создает поисковик по данным Dateno, то, конечно же, с Dateno и стоит начать😉

Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.

Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.

GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.

ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.

Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.

Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.

#opendata #datasets #geodata #search
Свежий The AI Policy Playbook [1] документ с обзор политики в области ИИ в ряде стран Глобального Юга и рекомендаций. В списке Гана, Индия, Индонезия, Кения, Руанда, Южная Африка и Уганда. Для тех кто изучает эти страны и ИИ политику в мире в целом будет полезно.

Документ опубликован в рамках программы FAIR Forward, поддержки Пр-вом Германии развивающихся стран, чем, собственно, выбор стран и обусловлен, ибо это страны их присутствия и активности.

Ссылки:
[1] https://www.bmz-digital.global/wp-content/uploads/2025/05/AI-Playbook-2025-WEB-1.pdf

#ai #policies #readings
Как в мире публикуют геоданные? Крупнейший коммерческий игрок - это компания ArcGIS с их облачными и корпоративными продуктами. В России все активно импортозамещаются на NextGIS, есть и другие коммерческие ГИС продукты и онлайн сервисы.

Однако в мире открытого кода наиболее популярные гео каталога данных - это Geonetwork, GeoNode и, с некоторым допущением, GeoServer.

Geonetwork - это OGC совместимый каталог георесурсов, включая файлы, внешние ссылки. Его активно применяют в Латинской Америке и Евросоюзе, например, EEA geospatial data catalogue, также Geonetwork хорошо расширяется метаданными и используется в Европейской инициативе INSPIRE по публикации системно значимых геоданных странами участниками ЕС. Geonetwork правильнее всего рассматривать как поисковик и агрегатор. В реестре каталогов данных Dateno 568 инсталляций Geonetwork

GeoNode - это продукт наиболее приближенный именно к каталогу данных. Его используют для публикации данных вручную и он поддерживает множество стандартов доступа к данным, включая DCAT для порталов открытых данных. Например, его использует Правительство Казахстана как Геопортал НИПД. В реестре каталогов Dateno 295 записей о каталогах данных на базе Geonode.

И, наконец, Geoserver - это один из наиболее популярных open source геопродуктов, используется повсеместно для публикации слоёв карт и других данных как OGC сервисов. В реестре Dateno 1111 таких серверов. Главный недостаток - это отсутствие/неполнота метаданных, которые чаще описываются в надстройке поверх данных внутри Geoserver.

В России всего 22 инсталляции на базе этих продуктов, большая часть из них недоступна с IP адресов не из российских подсетей. Для сравнения, в странах ЕС их более 600, не считая других геопорталов.


#opendat #datacatalogs #opensource #data #geodata #geonetwork #geonode #geoserver
В рубрике интересных стартапов про данные и аналитику Pandas AI [1] открытый, но не свободный (!) продукт по подключению ИИ к анализу датафреймов в Pandas. К конкретному датафрейму можно формулировать вопросы/запросы и получать структурированные и визуальные ответы.

Идея интересная, поддерживает стартап Y-Combinator, но лично я его рекомендовать к использованию не буду и вот почему:
1. Это не local-first продукт, для работы обязательно регистрироваться в их облачном сервисе и получать ключ.
2. Много вопросов с защитой данных. Они проходят двух провайдеров - собственно Pandas AI и выбранной облачной LLM. Причём с облачной LLM как прямых никаких отношений нет, при утечке данных повлиять на это сложно.

В остальном идея, безусловно, неплохая, но в облаке только как часть решения. Условно если у меня всё в Azure, GCS или в AWS то не проблема подключить API для ИИ передавать данные, они и так там. А какой-то левый внешний сервис непроверенный провайдер - это никуда не годится.

Ссылки:
[1] https://github.com/sinaptik-ai/pandas-ai

#opensource #ai #pandas #dataanalytics
Свежий любопытный проект по культурному наследию, на сей раз Шотландии - trove.scot явно названному по аналогии с гигантским австралийским проектом Trove с теми же функциями, но по всему культурному наследию Австралии.

Шотландский проект включает 1.2 миллиона изображений, иных архивных записей, объектов, мест и тд. относящихся к Шотландии прямо или косвенно. Например, фотографии Архангельска куда заходили шотландские рыбаки. Часть данных доступны как файлы наборов данных и слои карт WFS/WMS

#opendata #culturalheritage #uk #scotland
Для тех кто любит гиперлокальные данные, наконец-то доступны в открытом доступе наборы данных с хакатона СберИндекс.

Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet

Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.

Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.

#opendata #dataviz #datasets #localdata
Я тут регулярно пишу про Dateno наш поисковик по открытым и иным общедоступным данным, у нас там сейчас уже более 22 миллионов датасетов, слоёв карт и временных рядов и мы работаем над расширением объёма. Однако есть и другой фронт работы - повышение удобства для пользователей. В моём изначальном видении пользователи хотят API (в самом деле ну какие пользователи не хотят API, лично я всегда использую API когда есть возможность). Сейчас наш основной API - это упрощённый поиск, им можно пользоваться чтобы находить данные и получив карточку записи выкачивать ресурсы.

Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)

Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!

#dateno #opendata #datasearch #api