Ivan Begtin
9.35K subscribers
2.24K photos
4 videos
106 files
4.94K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них и на сей раз не про данные а про государственного вестоношу в Германии Bundes Messenger [1] это специальное приложение для устройств Apple и Android разработанное по заказу европейским подрядчиком T-Systems по заказу BWI GmbH (агентству цифры и инноваций при Минобороны Германии).

В чем его особенности:
1. Он предназначен только для госслужащих и у него сейчас относительно немного пользователей, 5+ тысяч для приложения на Android
2. Приложение полностью с открытым кодом [2] опубликованным в рамках инициативы OpenCoDE
3. Основан на открытом протоколе обмена Matrix [3] с серверами находящими под управлением BWI.
4. Изначально выросло из приложения BwMessenger созданное для германской армии и имеющее более 100 тысяч пользователей.
5. Это просто система сообщений без чего-либо про юридическую значимость, госуслуги или обмен документами.
6. Нигде нет явно выраженных планов распространять его или что-то на его основе как систему обмена сообщений для самих граждан.

Ссылки:
[1] https://messenger.bwi.de/bundesmessenger
[2] https://gitlab.opencode.de/bwi/bundesmessenger/info
[3] https://matrix.org/

#opensource #germany #messenger
Смотря на современные приложения, неважно, с открытым кодом или закрытым, я всё более прихожу к их классификации по типам интеграции с облаками и работе без интернета.

И эта классификация выглядит вот так:
- cloud-only - приложение не работает без облачного (SaaS) сервиса и превращается в кирпич при отсутствии интернета или сетевых ограничениях
- cloud-first - приложение сильно зависит от облачного сервиса, много теряет при его отсутствии, но что-то может делать и без него
- local-first - приложение которое всё может делать локально, но какие-то функции делает лучше при наличии доступа к внешним сервисам, включая облачные
- local-only - приложение не предусматривающее никого использования внешних сервисов. Для применения его с облачными и SaaS сервисами пользователь должен сделать набор осознанных действий явным образом

Относится к этому можно как то что cloud-only продукты - это то что является одной из приоритетных бизнес моделей у современных стартапов, в том числе с открытым кодом и любое продвижение их это как бесплатный маркетинг продуктов с зависимостью (там всегда подписочная модель).

А local-only - это выбор параноиков и фанатиков. Параноики те кто эксплуатируют ПО в средах без Интернета, а фанатики бывают разные, но в основном те кто категорически ненавидят бигтехи и AI-техи.

Всё остальное - это шкала градаций между ними и относится к этому стоит как то что local-only подход всё более дискомфортен для разработчиков ПО. По разным причинам: низкие доходы, сложности сопровождения, ограничения в выборе инструментов разработки и тд. А cloud-only идёт против интересов квалифицированного пользователя работа которого всё более зависит от облачных сервисов которыми он управляет всё менее.

По моему личному опыту все лучшие продукты сейчас - это local-first. Условно когда я могу подключить приложение к локальной ИИ модели через Ollama или к облачной одного из провайдеров. Задача возникающая не абстрактно, а из реального кейса разработчиков одного из инструментов работы с данными и обсуждающих режим работы local-only поставку языковой модели вместе с продуктом.

Всё это очень важно когда речь идёт о каких-либо продуктах с открытым кодом и оценке зависимости от внешних сервисов собственной инфраструктуры.

#data #opensource #clouds
Свежий инструмент от HuggingFace - AI Sheets позволяет работать с табличными данными с помощью ИИ. Поддерживает базовые операции вроде перевода содержания колонок, суммаризация и извлечение ключевых слов, и не базовые через prompt запросы. Потенциально - альтернатива Excel/Airtable/OpenRefine для задач чистки и обогащения данных.

Минус - всё в облаке, для тех у кого чувствительные данные
Плюс - всё в облаке, для тех у кого и так данные в Hugging Face

#datanalytics #dataengineering #ai
404Airlines.pdf
1003.1 KB
В рубрике как это устроено у них 404Media пишет о том Airlines Reporting Corporation (ARC), брокер данных для американских авиакомпаний таких как Delta, American Airlines и United продали данных о пассажирах CBP, Customs and Border Protection (Службе таможни и защиты границы) которая является частью Департамента внутренней безопасности США (DHS).

Данные включают имена пассажиров, все данные перелёта и финансовые детали их полётов. Причём контракт был заключён в июне 2024 года и продлится до 2029 года. А раскопали это журналисты анализируя базу госконтрактов США, в статье больше подробностей.

Сама статья требует регистрации так что прилагаю её в PDF для тех кто регистрироваться не хочет.

В чём разница практик работы с правоохранителей с данными? В США органы безопасности покупают данные у частных владельцев и все участники этого процесса стараются это не афишировать, но иногда это всплывает. Анализировать базы полетов целиком, конечно, им гораздо удобнее, чем запрашивать данные по конкретным лицам.

В России регуляторы поступают гораздо проще, просто требуя сдавать данные куда надо и сопротивляться этому у бизнеса возможностей немного, особенно если сам бизнес государственный или с госучастием.

А теперь, перейдем к неожиданной теме, экономике данных. В США настоящая экономика данных потому что есть брокер данных и у него есть покупатель/покупатели приобретающий этот и иные дата продукты. Государство является крупнейшим покупателем, причём вполне возможно что чуть ли не основным маркетмэйкером. Иначе говоря экономика данных предполагает наличие оборота данных в рамках экономических отношений.

А в России сейчас то что называется экономикой данных - это административная экономика. Поскольку федеральное правительство идёт по пути изъятия данных у бизнеса в собственных интересах и ограничивая оборот данных между частными компаниями. Собственно когда говорят про регулирование правильно читать это как ограничения.

А с точки зрения гражданина все эти практики одинаково порочны.

#dataeconomy #data #privacy #USA #airlines
Заработала пилотная инфраструктура Европейского консорциума Open Web Search по созданию открытого европейского поисковика [1] всё под эгидой цифрового суверенитета Евросоюза, дословно - Europe’s Independence in Web Search.

Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].

У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке

Исходный код доступен в открытых репозиториях [3]

Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.

Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/

#opendata #datasets #websearch #europe
В рубрике как это устроено у них официальные сайты метеорологических служб 20 африканских стран работают на одном стандартизированном продукте с открытым кодом Climweb [1], например, это метеослужбы Бенина [2] и Нигера [3] и многих других, а также планируется что ещё в 6 странах метеослужбы перейдут на это ПО.

В чём его особенность:
- открытый код на базе Python + Wagtail
- совместная разработка офиса WMO и NORCAP, это норвежский центр по гуманитарному развитию при Правительстве Норвегии
- унифицированное, правда, недокументированное API
- под лицензией MIT

Все эти порталы работают в связке с общей инфраструктурой WMO и провайдерами данных, в ряде стран установлены, также, сервисы Wis2Box собирающие данные со станций наблюдения и отдающие их по стандартным протоколам OGC для геоданных. Про Wis2Box я ранее писал и, похоже, их распространение сильно продвинулось на последние 1.5 года. Как каталоги данных они очень невелики, а как открытые климатические данные любопытны.

Ссылки:
[1] https://github.com/wmo-raf/climweb
[2] https://www.meteobenin.bj/
[3] https://www.niger-meteo.ne/

#opendata #api #climate #opensource
В рубрике доступных открытых геоданных в России:
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы

#opendata #geodata #datasets #maps
В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.

Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.

Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров

Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их

Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr

#opendata #datasets #data #oceans #france
Глядя на продолжающийся поток стартапов применяющий ИИ к разным областям работы с данными, наблюдаю явный перекос в сторону ликвидации профессии корпоративных дата аналитиков как класса и замена их "умными дашбордами" и "ИИ агентами".

Ссылки приводить не буду, дабы не рекламировать кого-то без необходимости, но тенденция явная и заметная, а также хорошо понимания потенциальными клиентами, руководством компаний и иными лицами принимающими решения.

Из того что я вижу так то что ИИ реально может исключить аналитиков из цепочки создания аналитических продуктов и оперативной аналитики, но, чем больше это будет происходить тем острее была и остаётся проблема качества данных.

Качество данных и вся "чёрная работа" связанная с их подготовкой, очисткой, валидацией и тд. очень плохо автоматизируется и вот тут-то стартапов возникает куда меньше. Во первых потому что это внутренняя кухня работы с данными и не на поверхности, а во вторых поскольку у технических руководителей почти всегда значительно меньшие бюджеты.

И, конечно же, в третьих, потенциальные решения и продукты не так очевидны. Я лично вообще пока не вижу каких-то быстрореализуемых "идей на поверхности" как автоматизировать создание хороших наборов и баз данных.

Поэтому мои предсказания что работа аналитиков со временем будет распадаться на:
1. Аналитиков по качеству и подготовке данных
2. Программистов и проектировщиков аналитических AI агентов и дашбордов
3. Предметных специалистов которые ещё и могут немного в аналитику.

А вот у дата инженеров всё проще, пока мало что меняется, только объёмы данных растут.

#thoughts #data #dataengineering
Как ещё более лучшая иллюстрация предыдущего текста про качество данных 😉
В рубрике как это устроено у них, согласно реестру Dateno в Великобритании не менее 174 каталогов данных создано университетами и другими исследовательскими центрами для публикации исследовательских данных. Большинство из них используют для этого сервис Figshare и такие продукты как Elsvier Pure и ePrints. В большинстве случаев публикация данных сочетается с раскрытием других результатов научной деятельности: статьями, изображениями, приложениями к статьям, книгами и так далее.

Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.

Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.

Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.

Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.

Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.

По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.

#thoughts #dateno #datasets
В качестве регулярных напоминаний:
- я пишу про данные и технологии в этом телеграм канале @begtin на русском языке
- также на русском языке я пишу лонгриды в Substack
- на английском я снова регулярно пишу LinkedIn и реже в Medium
- по теме цифровой архивации есть телеграм @ruarxive где я и не только я пишу про цифровую архивацию и исчезновение цифровых ресурсов

#writings
Подробная статья о состоянии поиска Google с точки зрения долгосрочных инвестиций [1]. Всё, казалось бы, очевидно что ИИ имеет очень сильный потенциал трансформировать Google Search и то проблема в изначальной рекламной модели Google как основе монетизации. Про это говорят много и всё активнее, на фоне разговоров что потенциально некоторые вендоры мобильных устройств могут перейти на другие поисковые системы вроде того же Perplexity. Но тут автор излагает всё довольно подробно и не даёт прогноза что у Google поисковый бизнес поломается, но говорит что сильно поменяется.

В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.

Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.

Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.

Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.

Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?

#thoughts #search #google #ai