Ivan Begtin
9.01K subscribers
2.64K photos
5 videos
114 files
5.46K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В Евросоюзе множество крупных и средних компаний написали открытое письмо о необходимости "суверинизации ИТ" [1] с предложением создать «Суверенный инфраструктурный фонд» и странам ЕС сфокусироваться на локальных решениях для всей ИТ инфраструктуры. Триггером послужили речь вице-президента США Вэнса, санкции против Международного уголовного суда и всё более острое осознание зависимости бизнеса и органов власти в Европе от бигтехов, а бигтехи давно уже стали синонимом США.

Ничего не напоминает? Например, то как в РФ развивалось импортозамещение и "суверенизация ИТ".

Очевидная проблема в том что ЕС гораздо сильнее интегрирована с США экономически и технологически. Бигтехи доминируют в ЕС поскольку европейское регулирование не могло допустить аналогичного масштаба компаний внутри самого союза и поскольку всегда предлагали лучшие услуги за меньшие деньги чем местные компании.

Пусть экономисты считают во сколько может обойтись такой развод ЕС с США, мой прогноз - дорого. В любом случае если по этому пути всё пойдет то мир станет разнообразнее, что само по себе уже неплохо.

Ссылки:
[1] https://techcrunch.com/2025/03/16/european-tech-industry-coalition-calls-for-radical-action-on-digital-sovereignty-starting-with-buying-local/

#eu #usa #policy #it
🤔711😁1💊1
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.

Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025

#digitalpreservation #archives #usa #kennedy
👍5🔥32💯1
В 404media статья [1] за пэйволом и подскаст [2] о том что иммиграционная служба США наняла подрядчика ShadowDragon который занимается OSINT по паре сотен сайтов социальных сетей, шоппинга и тд. для идентификации активности мигрантов. В фонде Mozilla уже объявили кампанию [3] сбора подписей против такой слежки и приводят список из этих 200+ сайтов [4].

Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.

В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.

Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/

#privacy #osint #usa #immigration #masssurveillance
❤‍🔥32👍21
В США была расформирована команда 18F [1] [2] - это была уникальная по функциям ИТ команда, работавшая в Госдепартаменте в режиме инсорсинга, а то есть они не были сотрудниками господрядчиков и имели прямые многолетние контракты. Особенность 18F была в функциях пожарной команды. Когда у них были и постоянные задачи помощи отдельным агентствам и срочные задачи когда они спасали конкретные федеральные департаменты от ИТ провалов. Например, история с 3-х дневным проектом которая спасла $500 миллионный проект Департамента обороны [2].

Вообще только очень крупные компании или гос-ва могут себе позволить такие "пожарные команды", то что Элон Маск и DOGE инициировали их роспуск было поскольку их считали слишком либеральными из-за больших усилий по комфортности работы для меньшинств и инклюзивности в работе.

В любом случае теперь этой команды нет, остался их открытый код [3], который, возможно, стоило бы заархивировать.

Ссылки:
[1] https://donmoynihan.substack.com/p/skilled-technologists-are-being-forced
[2] https://substack.com/home/post/p-158259375
[3] https://github.com/18F

#opensource #usa #18F
👍5😱2😢211
Новые тарифы введённые Трампом в США сейчас наделали много шума. У США большой торговый дефицит, особенно с ЕС и Китаем, но... есть нюанс. Этот дефицит почти весь в физических товарах, а в цифровых продуктах и сервисах у США невероятный профицит. Для тех кто не читал ещё, статья в Nature от июня 2024 года Estimating digital product trade through corporate revenue data [1] где авторы декомпозировали импорт/экспорт стран на основе отчётов цифрового крупняка. Там есть что почитать. А один из авторов той работы, Цезарь Идальго, опубликовал вот такие картинки по структуре импорта и экспорта цифровых продуктов [2].

Почему это важно? Потому что один из вероятных сценариев ответа на тарифы Трампа может быть "тарифный удар" по цифровым продуктам и сервисам из США, тоже для соблюдения паритета торгового баланса.

А это затронет практически весь ИТ сектор по всему миру.

P.S. На эту же тему сегодня выступал Макрон о том что при оценке торгового баланса США не учитывали торговлю цифровыми товарами. Так что все понимают на какую область придётся ответ ЕС и других стран.

Ссылки:
[1] https://www.nature.com/articles/s41467-024-49141-z
[2] https://x.com/cesifoti/status/1907529502340624711

#thoughts #tariffs #it #usa #trump
11🤔18👍54😱4
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending
🤔11👍4
В рубрике как это устроено у них про порталы открытых данных и просто порталы с данными в США, я как-то писал что их очень много и то что собрано на data.gov - это капля в море. Я сейчас занимаюсь масштабным обновлением реестра Dateno используя ИИ агенты и как раз удалось улучшить идентификацию геопривязки к странам и территориям. Так что вот некоторые цифры на основе обновлённого реестра.

Всего в США каталогов данных: 2418 (это чуть менее 24% от всего зарегистрированных каталогов)
Среди них:
- 1720 каталогов геоданных
- 417 порталов открытых данных
- 227 научных репозиториев
и по мелочи остальных

Такое число каталогов геоданных поскольку к ним относятся все порталы данных в США на базе ArcGIS Hub, их 1196 и сервера с REST API ArcGIS, их 413

По типу владельца каталога данных:
- 1057 - это города и муниципалитеты (counties)
- 420 - исследовательские центры и университеты
- 368 - федеральные власти
- 332 - региональные власти

Оставшиеся относятся к коммерческим, общественным и международным.

Сейчас в реестре покрытие всех штатов в Dateno составляет 50 + 2 (50 штатов + округ Колумбия + Пуэрто Рико)

Более всего региональных и муниципальных порталов в Калифорнии, их 213. Следующим идёт Техас - 77 каталогов и далее Северная Каролина 65 каталогов.

Менее всего региональных каталогов данных в Южной Дакоте, там всего 1 сервер с ArcGIS.

Следующие по масштабам страны:
- Франция - 513 каталогов данных
- Великобритания - 448 каталогов данных
- Канада - 407 каталогов данных
- Германия - 397 каталогов данных

При этом надо оговориться что в Европе и в США каталогов данных может быть значительно больше, просто их поиск по муниципалитетам очень трудоёмок.

Для сравнения в России 167 каталогов данных из которых около 60 являются "номинальными", не обновлялись от 5 до 9 лет и содержат только мелкие административные данные.

Всё это, конечно, только про каталоги данных, а не про сами датасеты. По датасетам тоже лидируют США и Европа, это можно посмотреть в поиске на Dateno.io

Пишите если захотите какую-то интересную статистику которую можно подсчитать по индексу Dateno и, конечно, всегда можно воспользоваться утилитой datenocmd и API Dateno чтобы подсчитать интересную статистику по индексу.

#opendata #datasets #datasearch #usa #data
72
Хотите в ИТ? А тем временем в США по данным мониторинга вакансий программистов на Indeed наблюдается резкое их сокращение. Та же фигня в Германии.

Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.

Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE

#statistics #it #usa #germany #programming
🤔5💯3👍1💔1
404Airlines.pdf
1003.1 KB
В рубрике как это устроено у них 404Media пишет о том Airlines Reporting Corporation (ARC), брокер данных для американских авиакомпаний таких как Delta, American Airlines и United продали данных о пассажирах CBP, Customs and Border Protection (Службе таможни и защиты границы) которая является частью Департамента внутренней безопасности США (DHS).

Данные включают имена пассажиров, все данные перелёта и финансовые детали их полётов. Причём контракт был заключён в июне 2024 года и продлится до 2029 года. А раскопали это журналисты анализируя базу госконтрактов США, в статье больше подробностей.

Сама статья требует регистрации так что прилагаю её в PDF для тех кто регистрироваться не хочет.

В чём разница практик работы с правоохранителей с данными? В США органы безопасности покупают данные у частных владельцев и все участники этого процесса стараются это не афишировать, но иногда это всплывает. Анализировать базы полетов целиком, конечно, им гораздо удобнее, чем запрашивать данные по конкретным лицам.

В России регуляторы поступают гораздо проще, просто требуя сдавать данные куда надо и сопротивляться этому у бизнеса возможностей немного, особенно если сам бизнес государственный или с госучастием.

А теперь, перейдем к неожиданной теме, экономике данных. В США настоящая экономика данных потому что есть брокер данных и у него есть покупатель/покупатели приобретающий этот и иные дата продукты. Государство является крупнейшим покупателем, причём вполне возможно что чуть ли не основным маркетмэйкером. Иначе говоря экономика данных предполагает наличие оборота данных в рамках экономических отношений.

А в России сейчас то что называется экономикой данных - это административная экономика. Поскольку федеральное правительство идёт по пути изъятия данных у бизнеса в собственных интересах и ограничивая оборот данных между частными компаниями. Собственно когда говорят про регулирование правильно читать это как ограничения.

А с точки зрения гражданина все эти практики одинаково порочны.

#dataeconomy #data #privacy #USA #airlines
8👍42🔥21
Научная статья Data manipulation within the US Federal Government в журнале Lancet о том что федеральное правительство в США изменяло ранее опубликованные данные никого об этом не уведомляя. Делали это агентства и учреждения ответственные за общественное здравоохранение с ранее опубликованными данными опросов и исследований.

Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.

При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.

С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.

А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.

#opendata #datasets #readings #usa #healthcare
👍81😱1