Ivan Begtin
9.21K subscribers
2.05K photos
3 videos
102 files
4.79K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
К вопросу о том как устроена публикация данных в России и что с ней не так. Про портал data.gov.ru я и так часто писал, а вот пример в виде системы показателей ЕМИСС [1]. По всем признакам - это неплохая система публикации показателей. Там и экспорт в Excel есть, и формат SDMX есть, и раздел открытые данные есть на сайте и выглядит всё не так плохо. Казалось бы какая хорошая штука! Больше того у неё даже есть API, недокументированное правда.

Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.

Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.

Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.

Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22

#opendata #russia #statistics #rosstat
К вопросу о достоверности данных и поисковиках на базе ИИ, типа ChatGPT, Perplexity и всех остальных есть один важный момент который часто упускается. Классические поисковики много ресурсов вложили и вкладывают чтобы чистить всяческий SEO мусор. Когда какие-нибудь не самые думающие люди вместо сервисов для людей делают сайты для поисковиков и превращают какие-нибудь данные в бесконечное число страниц. С целью размещения на них рекламы, конечно, а не услуг для пользователей.

Крупные поисковики их чистят, или сильно пессимизируют в выдаче. А вот всякие AI краулеры этого не знают и не понимают и сжирают публикуемое там и делают на основе этого выводы. А у этого может быть то крайне неприятное последствия в том что можно подсовывать AI поисковикам очень фэйковые данные, тем самым "отравляя результаты" ответов ИИ поисковика.

Я это наблюдал на Perplexity который делал аналитические выводы не по первоисточникам, а по таким мусорным SEO'шным сайтам. В то же время Google и Yandex выдавали по тем же запросам ссылки на первоисточники.

#ai #thoughts
Новые тарифы введённые Трампом в США сейчас наделали много шума. У США большой торговый дефицит, особенно с ЕС и Китаем, но... есть нюанс. Этот дефицит почти весь в физических товарах, а в цифровых продуктах и сервисах у США невероятный профицит. Для тех кто не читал ещё, статья в Nature от июня 2024 года Estimating digital product trade through corporate revenue data [1] где авторы декомпозировали импорт/экспорт стран на основе отчётов цифрового крупняка. Там есть что почитать. А один из авторов той работы, Цезарь Идальго, опубликовал вот такие картинки по структуре импорта и экспорта цифровых продуктов [2].

Почему это важно? Потому что один из вероятных сценариев ответа на тарифы Трампа может быть "тарифный удар" по цифровым продуктам и сервисам из США, тоже для соблюдения паритета торгового баланса.

А это затронет практически весь ИТ сектор по всему миру.

P.S. На эту же тему сегодня выступал Макрон о том что при оценке торгового баланса США не учитывали торговлю цифровыми товарами. Так что все понимают на какую область придётся ответ ЕС и других стран.

Ссылки:
[1] https://www.nature.com/articles/s41467-024-49141-z
[2] https://x.com/cesifoti/status/1907529502340624711

#thoughts #tariffs #it #usa #trump
Билл Гейтс опубликовал оригинальный код Microsoft 50 летней давности, для Altair BASIC [1].

Подумать только, я вот BASIC во всех формах застал очень мало. Только QBasic в ранних версиях MS DOS и совсем немного Visual Basic в Windows. А так мой самый ранний код - это Паскаль и Ассемблер. И, признаться, в 15-16 лет я писал его чище и аккуратнее, но с куда меньшим пониманием ответов на вопрос "зачем".

Но код на BASIC это, в любом случае, ностальгия.

Ссылки:
[1] https://www.gatesnotes.com/home/home-page-topic/reader/microsoft-original-source-code

#opensource #microsoft #billgates #digitalpreservation
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]

1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.


#opendata #thoughts
Яндекс запустил AI помощника Нейроэксперт [1] который умеет анализировать документы и отвечать на простые вопросы по ним.

Не первый, не последний такой инструмент. Мне вот тоже такой нужен, но желательно в виде API и которому можно скармливать базы данных, а не только файлы.

Инструмент любопытный для всех кто анализирует документы на русском языке.

Но один тест он не проходит. Несмотря на все попытки этот AI помощник не хочет становится котом. Мда. Всё таки Яндекс слишком сильно цензурирует ИИ 😂 Для сравнения диалог с ChatGPT

Ссылки:
[1] https://expert.ya.ru

#ai #aitools #cats
Я вот всё расхваливаю DuckDB как очень быстрый движок для обработки данных, а он не один такой. Например, ещё есть FireDucks который делает команда из японского NEC и который они активно оптимизируют конкурируя с DuckDB и Polars и в который добавляют поддержку ускорения через GPU.

Плюс разработчики много полезного пишут в своём блоге о том как они работают над оптимизацией обработки запросов [1]

Но есть и существенный минус, его исходный код, похоже, не открыт. Мне не удалось его найти в их репозиториях, там есть только собранные пакеты для Python.


P.S. Картинка отсюда [2].

Ссылки:
[1] https://fireducks-dev.github.io/posts/
[2] https://www.linkedin.com/posts/avi-chawla_pandas-is-getting-outdated-and-an-alternative-activity-7312407582340485120-fH_K?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAA_-HABh4I2pH__YZElkrySwr_MWhdKIVs

#data #datatools #opensource
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.

Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.

Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

#openknowledge #opendata #ai #aibots