Ivan Begtin
9K subscribers
2.59K photos
5 videos
114 files
5.39K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.

Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025

#digitalpreservation #archives #usa #kennedy
👍5🔥32💯1
В 404media статья [1] за пэйволом и подскаст [2] о том что иммиграционная служба США наняла подрядчика ShadowDragon который занимается OSINT по паре сотен сайтов социальных сетей, шоппинга и тд. для идентификации активности мигрантов. В фонде Mozilla уже объявили кампанию [3] сбора подписей против такой слежки и приводят список из этих 200+ сайтов [4].

Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.

В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.

Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/

#privacy #osint #usa #immigration #masssurveillance
❤‍🔥32👍21
В США была расформирована команда 18F [1] [2] - это была уникальная по функциям ИТ команда, работавшая в Госдепартаменте в режиме инсорсинга, а то есть они не были сотрудниками господрядчиков и имели прямые многолетние контракты. Особенность 18F была в функциях пожарной команды. Когда у них были и постоянные задачи помощи отдельным агентствам и срочные задачи когда они спасали конкретные федеральные департаменты от ИТ провалов. Например, история с 3-х дневным проектом которая спасла $500 миллионный проект Департамента обороны [2].

Вообще только очень крупные компании или гос-ва могут себе позволить такие "пожарные команды", то что Элон Маск и DOGE инициировали их роспуск было поскольку их считали слишком либеральными из-за больших усилий по комфортности работы для меньшинств и инклюзивности в работе.

В любом случае теперь этой команды нет, остался их открытый код [3], который, возможно, стоило бы заархивировать.

Ссылки:
[1] https://donmoynihan.substack.com/p/skilled-technologists-are-being-forced
[2] https://substack.com/home/post/p-158259375
[3] https://github.com/18F

#opensource #usa #18F
👍5😱2😢211
Новые тарифы введённые Трампом в США сейчас наделали много шума. У США большой торговый дефицит, особенно с ЕС и Китаем, но... есть нюанс. Этот дефицит почти весь в физических товарах, а в цифровых продуктах и сервисах у США невероятный профицит. Для тех кто не читал ещё, статья в Nature от июня 2024 года Estimating digital product trade through corporate revenue data [1] где авторы декомпозировали импорт/экспорт стран на основе отчётов цифрового крупняка. Там есть что почитать. А один из авторов той работы, Цезарь Идальго, опубликовал вот такие картинки по структуре импорта и экспорта цифровых продуктов [2].

Почему это важно? Потому что один из вероятных сценариев ответа на тарифы Трампа может быть "тарифный удар" по цифровым продуктам и сервисам из США, тоже для соблюдения паритета торгового баланса.

А это затронет практически весь ИТ сектор по всему миру.

P.S. На эту же тему сегодня выступал Макрон о том что при оценке торгового баланса США не учитывали торговлю цифровыми товарами. Так что все понимают на какую область придётся ответ ЕС и других стран.

Ссылки:
[1] https://www.nature.com/articles/s41467-024-49141-z
[2] https://x.com/cesifoti/status/1907529502340624711

#thoughts #tariffs #it #usa #trump
11🤔18👍54😱4
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending
🤔11👍4
В рубрике как это устроено у них про порталы открытых данных и просто порталы с данными в США, я как-то писал что их очень много и то что собрано на data.gov - это капля в море. Я сейчас занимаюсь масштабным обновлением реестра Dateno используя ИИ агенты и как раз удалось улучшить идентификацию геопривязки к странам и территориям. Так что вот некоторые цифры на основе обновлённого реестра.

Всего в США каталогов данных: 2418 (это чуть менее 24% от всего зарегистрированных каталогов)
Среди них:
- 1720 каталогов геоданных
- 417 порталов открытых данных
- 227 научных репозиториев
и по мелочи остальных

Такое число каталогов геоданных поскольку к ним относятся все порталы данных в США на базе ArcGIS Hub, их 1196 и сервера с REST API ArcGIS, их 413

По типу владельца каталога данных:
- 1057 - это города и муниципалитеты (counties)
- 420 - исследовательские центры и университеты
- 368 - федеральные власти
- 332 - региональные власти

Оставшиеся относятся к коммерческим, общественным и международным.

Сейчас в реестре покрытие всех штатов в Dateno составляет 50 + 2 (50 штатов + округ Колумбия + Пуэрто Рико)

Более всего региональных и муниципальных порталов в Калифорнии, их 213. Следующим идёт Техас - 77 каталогов и далее Северная Каролина 65 каталогов.

Менее всего региональных каталогов данных в Южной Дакоте, там всего 1 сервер с ArcGIS.

Следующие по масштабам страны:
- Франция - 513 каталогов данных
- Великобритания - 448 каталогов данных
- Канада - 407 каталогов данных
- Германия - 397 каталогов данных

При этом надо оговориться что в Европе и в США каталогов данных может быть значительно больше, просто их поиск по муниципалитетам очень трудоёмок.

Для сравнения в России 167 каталогов данных из которых около 60 являются "номинальными", не обновлялись от 5 до 9 лет и содержат только мелкие административные данные.

Всё это, конечно, только про каталоги данных, а не про сами датасеты. По датасетам тоже лидируют США и Европа, это можно посмотреть в поиске на Dateno.io

Пишите если захотите какую-то интересную статистику которую можно подсчитать по индексу Dateno и, конечно, всегда можно воспользоваться утилитой datenocmd и API Dateno чтобы подсчитать интересную статистику по индексу.

#opendata #datasets #datasearch #usa #data
72
Хотите в ИТ? А тем временем в США по данным мониторинга вакансий программистов на Indeed наблюдается резкое их сокращение. Та же фигня в Германии.

Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.

Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE

#statistics #it #usa #germany #programming
🤔5💯3👍1💔1
404Airlines.pdf
1003.1 KB
В рубрике как это устроено у них 404Media пишет о том Airlines Reporting Corporation (ARC), брокер данных для американских авиакомпаний таких как Delta, American Airlines и United продали данных о пассажирах CBP, Customs and Border Protection (Службе таможни и защиты границы) которая является частью Департамента внутренней безопасности США (DHS).

Данные включают имена пассажиров, все данные перелёта и финансовые детали их полётов. Причём контракт был заключён в июне 2024 года и продлится до 2029 года. А раскопали это журналисты анализируя базу госконтрактов США, в статье больше подробностей.

Сама статья требует регистрации так что прилагаю её в PDF для тех кто регистрироваться не хочет.

В чём разница практик работы с правоохранителей с данными? В США органы безопасности покупают данные у частных владельцев и все участники этого процесса стараются это не афишировать, но иногда это всплывает. Анализировать базы полетов целиком, конечно, им гораздо удобнее, чем запрашивать данные по конкретным лицам.

В России регуляторы поступают гораздо проще, просто требуя сдавать данные куда надо и сопротивляться этому у бизнеса возможностей немного, особенно если сам бизнес государственный или с госучастием.

А теперь, перейдем к неожиданной теме, экономике данных. В США настоящая экономика данных потому что есть брокер данных и у него есть покупатель/покупатели приобретающий этот и иные дата продукты. Государство является крупнейшим покупателем, причём вполне возможно что чуть ли не основным маркетмэйкером. Иначе говоря экономика данных предполагает наличие оборота данных в рамках экономических отношений.

А в России сейчас то что называется экономикой данных - это административная экономика. Поскольку федеральное правительство идёт по пути изъятия данных у бизнеса в собственных интересах и ограничивая оборот данных между частными компаниями. Собственно когда говорят про регулирование правильно читать это как ограничения.

А с точки зрения гражданина все эти практики одинаково порочны.

#dataeconomy #data #privacy #USA #airlines
8👍42🔥21
Научная статья Data manipulation within the US Federal Government в журнале Lancet о том что федеральное правительство в США изменяло ранее опубликованные данные никого об этом не уведомляя. Делали это агентства и учреждения ответственные за общественное здравоохранение с ранее опубликованными данными опросов и исследований.

Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.

При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.

С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.

А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.

#opendata #datasets #readings #usa #healthcare
👍81😱1
Что-то я совсем забыл написать, а тема важная. 1-го августа в США Трамп отправил в отставку Erika McEntarfer главу BLS (Bureau of Labor Statistics) за публикацию уточнённых цифр о безработице которые ему не понравились. Решение тревожное по причине того что в США официальная статистика активно используется на фондовом рынке, бизнесом и аналитиками и её закрыть как в России практически невозможно, а вот обвинения в манипуляции, как в данном случае Трамп обвинил главу BLS возможны. Впрочем и утверждения Трампа что цифры должны быть иными - это тоже, сомнительный вопрос.

Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.

#opendata #closeddata #usa #trump
431🤔1
Аналитическая записка стат сообщества США о текущем состоянии статслужб страны. Там про многое:
- сокращение финансирования
- отмена многих опросов и наблюдений
- запланированные задержки в публикациях

В целом полный комплект проблем... успешных людей стран.

Во многих странах адекватной статистики просто нет и идет куда более быстрая деградация стат служб. Не будем показывать пальцем в каких.

А в США сложилась сложная децентрализованная система федеральной статистики, доступная в хорошем машиночитаемом виде, почти во всех разрезах. Неидеальная, конечно, но все же.

#data #USA #statistics
1👍52😢2
TRAIGA. Texas Responsible Artificial Intelligence Governance Act. Свежий закон штата Техас накладывающий обязательства на компании ИИ предоставляющие услуги гражданам, в первую очередь чат-боты, госорганы использующие ИИ.

TRAIGA запрещает создание или использование ИИ-систем с намерением:
- Побуждать к самоубийству, вреду себе или другим, или к преступной деятельности
- Нарушать или ограничивать чьи-то федеральные конституционные права
- Наносить незаконную дискриминацию против защищённых классов (например, по расе, полу, возрасту и т. д.).
- Создавать или распространять детскую порнографию или неправомерные дипфейки, включая текстовые системы, обманывающие пользователей, выдавая себя за ребёнка

А также госорганам запрещается использовать ИИ для социального скоринга и госорганы обязываются уведомлять пользователя простым и понятным языком о том что те взаимодействуют с ИИ.

Это не все изменения, о них стоит почитать в обзорах законов. Он вступает в силу с 1 января 2026 года.

#regulation #usa #ai
4👍4🔥1
В рубрике интересных открытых наборов данных переписка Джеффри Эпштейна выложенная на сайте комитета по надзору Конгресса США. Что характерно, выложена она в Google Drive (прямая ссылка) и с копией в Dropbox (прямая ссылка). Всего это более 20 тысяч страниц документов которые так и ждут наглядной визуализации, анализа, подключения ИИ ботов для изучения и всего такого.

#opendata #datasets #usa #epstein
👍5🔥4😁2🌚1🌭1
Любопытные граждане нашли в выложенных документах по делу Эпштейна что текст там замарывали в виде слоя к PDF файлу и содержание под слоем читается даже без спецсредств, просто выделением текста

Думаю что в ближайшее время Минюст США эти документы начнет снимать и заменять на реально вымаранные, но как же они умудряются в одну и ту же лужу вступать неоднократно. Я помню как много лет назад в США сотрудники Пентагона выкладывали вымаранные документы, тоже через PDF слой, а считывали его через комбинацию: Ctrl+A, Ctrl+C, Ctrl+V.

Все это приводит к нескольким тезисам:
1. Некомпетентность свойственна не только сотрудникам госорганов небогатых стран, но и богатых.
2. Если что-то рассекречено, надо сразу делать копию, потому что уже завтра могут начать править, удалять и исправлять.

#privacy #usa #documents
😁26👏7😱52❤‍🔥2🤣2
Я про политику и макрополитику в особенности не пишу давно и особо писать об этом не планирую ибо слишком много срани неприличного там происходит повсеместно, но есть и то что затрагивает вопросы открытости. Например, свежая новость что США выходят из 66 международных организаций и международных групп включая 31 группу и структуру ООН включая UN Oceans, UN Population Fund, UN Water, UN Energy, Department of Economic and Social Affairs (DESA) и многих других.

Последствия могут быть весьма разнообразны, учитывая что выход США практически наверняка означает потерю существенного финансирования ООН, но не менее важно и то что многие структуры ООН создают и распространяют данные используемые по всему. миру. Например, DESA ведёт data.un.org портал официальной статистики.

Что будет со многими международными инициативами про данные на базе ООН в 2026 году? Я вот не знаю, похоже что надо отслеживать эту ситуацию.

Другой аспект в структурах из которых США пока формально не вышли, но перестали финансировать. Формально США всё еще участвуют в Open Government Partnership, а де факто с января 2025 года они перестали финансировать эту организацию и НКО внутри США ещё в марте 2025 года писали письмо в OGP о том чтобы провести ревизию обязательств Правительства США по открытости.

По поводу OGP я уже вижу что там гораздо большую роль сейчас играют страны ЕС и врядли сама инициатива закроется, скорее превратится в инструмент распространения европейских ценностей.

В любом случае вот эта вот разборка мирового порядка затрагивает многое и не только отношения между странами, но и доступность данных. К примеру, если торговый конфликт между ЕС и США и другие конфликты начнут развиваться то многие страны начнут закрывать информацию о себе. Такое уже происходит во многих идущих военных и не-военных конфликтах и будет продолжаться.

Хочется тут сделать какой-то хороший вывод или мораль, но ничего на ум не приходит. Мир меняется, может и не к лучшему, но к чему-то другому.

#opendata #opengov #thoughts #international #usa
😢15👍3🤔1💔1
ЦРУ (CIA) закрыли свой проект World Factbook с информацией по странам собираемой ими из своих источников.

Архивы его остались в Интернет-архиве, а также Саймон Уилсон успел заархивировать его последнюю версию и выложить в открытый доступ.

Factbook не так уж велик, около 384МБ ZIP архив за 2020 год, но был полезным источником информации для многих и немало тех кто называет удаление сайта актом культурного вандализма. Тем более что в США, в отличие от многих стран, есть практика передачи материалов включая сайты в Библиотеку Конгресса и Национальный архив, они умеют сохранять переданное и обеспечивать долгосрочную доступность. Вообще администрация Трампа активно нарушает многие устоявшиеся хорошие практики в США.

P.S. Надеюсь ссылаться на сайт ЦРУ и читать его в России ещё не запретили😎

#cia #digitalpreservation #usa
Please open Telegram to view this post
VIEW IN TELEGRAM
1😱11💔722🌚2🔥1🤣1
В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.

Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.

Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.

#opendata #usa #energy #datacatalogs #datasets
6👍31🔥1
В рубрике как это устроено у них Water Data for the Nation портал данных о воде в США созданный государственной геологической службой страны.

Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.

Довольно комплексная штука на самые разные аудитории.

#opendata #water #usa
4🔥2
Хронология удаления администрацией Дональда Трампа данных из открытого доступа опубликовано в журнале Passport Общества историков Американских внешних отношений (SHAFR)

Подозреваю что список будет больше, здесь лишь часть систематизации. Единственные исключения там это приказы о раскрытии данных об убийстве Кеннеди и раскрытие данных о Джеффри Эпштейне.

И, кстати, как я и предполагал США официально вышли из Open Government Partnership (OGP). Это не означает закрытие проектов по открытости внутри США, они всегда были отвязаны от международных обязательств, кроме малого числа случаев. Это означает, в первую очередь, прекращение финансирования OGP со стороны США и потенциальный кризис организации если страны ЕС и др. не компенсируют выпадающие средства.

#opendata #closedata #trump #usa
3👍3😢21😱1🕊1
Для тех кто интересуется регулированию ИИ в других странах, обзор последних правил закупок ИИ госорганами в США, скорее критичный чем хвалящий. Основная мысль в том что правила госзакупок исходят из того что государства получают лучшие (самые дешевые часто) сервисы на тех же условиях что они предоставляются на рынке и выигрывают за счет того что за счет рыночных внедрений у продуктов есть устоявшиеся цены, условия и тд. А в данном случае госорганы устанавливают большое число ограничений включая политические, ограничения на "Woke AI" и запрет на сбор телеметрии необходимой основным ИИ провайдерам. Все очень похоже на то что ИИ в госорганы в США будут поставлять, или ИИ-бигтех договариваясь об особых условиях, или "классические господрядчики" используя открытые модели и инфраструктуру внутри госинфраструктуры.

Сравнивать это регулирование с российским, к примеру, сложно. Российское регулирование, в форме ранее упомянутого законопроекта, предполагает жесткие ограничения не только для ИИ для гос-ва, но и для любых разработчиков ИИ в принципе и выведено оно в регулирование подзаконными актами Пр-ва, которые могут быть как весьма облегченными, так и убивающими рынок для всех кроме пары компаний (конечно никакой коррупции тут не может быть, даже думать об этом ни-ни).

Но возвращаясь к регулированию в США, оно далеко от идеала и говорит про тренд на усиление госконтроля к ИИ продуктам используемым госорганами, что для практики закупки ПО в США если не странно, то не общепринято.

#usa #ai #regulation
32