Ivan Begtin
9.15K subscribers
2.66K photos
5 videos
114 files
5.48K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Интересный доклад Corporate Transparency от US GAO посвященной прозрачности сведений о конечных владельцах компаний в США. На странице краткое изложение и там же ссылка на подробный текст, полезный всем кто изучает то как устроена прозрачность бизнеса в мире. Если вкратце то GAO рекомендуют обязать компании раскрывать сведения о владельцах что сейчас предусмотрено далеко не всегда.

Все кто сталкивался с открытием бизнеса в США знают что концентрация сложностей там возникает не в момент регистрации компании, а при открытии счета в банке где необходимо проходить due diligence. Похожая ситуация с странах ЕС и еще много в каких развитых странах.

А GAO в своем отчете пишут что в этой ситуации компании которые регистрируются, но не открывают счетов выпадают из под мониторинга и сведения о их владельцах недоступны и они могут использоваться для финансовых преступлений.

Я, правда, не настолько хорошо знаю устройство схем работы с такими компаниями у которых нет счетов в банках и которые не должны проходить due diligence, интересно тогда как они ведут деятельность? Но специалисты, уверен, знают лучше.

В любом случае доклад интересный для понимания как устроена прозрачность бизнеса в США, из известных цифр - там зарегистрировано порядка 50 миллионов того что в РФ называют юр лицами. К ним есть разные требования по прозрачности и они неплохо описаны.

#readings #transparency #usa
52🤔2
Европейский пакет по технологическому суверенитету European Technological Sovereignty Package.

Включает 4 инициативы:
- The Chips Act 2.0 - усиление экосистемы полупроводников
- The Cloud and AI Development Act (CADA) - снижение зависимости от иностранных облачных и ИИ провайдеров
- The EU Open Source Strategy - общее снижение зависимостей в технологическом секторе
- A Strategic Roadmap for Digitalisation and AI in Energy - стратегическая дорожная карта для цифровизации и ИИ в энергетике

Почитать будет полезно все эти документы, мне лично были особенно интересны стратегия по открытому коду и CADA. У Евросоюза есть хорошие шансы сделать много что интересного несмотря на огромную бюрократию и множество ограничений. А открытый код еще и повторно использовать можно.

#opensource #eu #regulation #readings
3👍2🤔21
В Великобритании национальный портал открытых данных data.gov.uk переименовали в National Data Library (Национальная библиотека данных) и рассказали о том почему и как они это делают.

Признаюсь я смотрю на это с большим скепсисом, у меня есть ощущение что интенции может быть и хорошие, а реализация так себе.

Ключевой двигатель изменений нац порталов открытых данных в том что в какой-то момент многие из них превратились в помойки. Идея open by default без методической поддержки привела к большому числу бессмысленных маленьких наборов данных не востребованных и не нужных 99% пользователей. Преодолевают эту проблему очень по разному:
- в Евросоюзе - фокусируются на данных особой ценности выводимых в отдельную категорию
- в США - откровенно забивают на портал data.gov, он давно наполняется, но качественно не меняется. Поэтому параллельно создают много разной открытой инфраструктуры для геоданных, научных данных и тд.
- в Индонезии - кратно увеличивают число опубликованных открытых данных публикуя на них чуть ли не каждый файл созданный госорганами. Сейчас там больше 580 тысяч файлов на data.go.id

И вот в Великобритании это решили делать через curated datasets, не особо понимая своих реальных и потенциальных пользователей и не обеспечивая технологической основы.

С одной стороны удивительно, а с другой не очень. Как хороший пример, data.gov.uk я пока приводить не могу.

#opendata #uk #thoughts
👍52🤔2
В качестве небольшого оффтопа на фоне только что прошедших выборов в Армении, расскажу о том почему не нужно читать советские газеты по утрам российскую прессу на эту тему и в особенности про проблемы армянской экономики из-за российских ограничений.

Особенность экономики Армении о которой не все знают в том что цифры статистики Армстата отражают её с большими искажениями. Важная особенность Армении в том что её физический экспорт продукции, завязан на экспорт из России и импорт в Россию, но далеко не критически. Можно посмотреть исторические данные за 2024 год чтобы в этом убедиться.

Важнее то что в Армении существенная часть работодателей и формирование ВВП завязано на международный ИТ сектор, компании которые почти не заметны на ИТ рынке внутри, но имеющие глобальное присутствие. У них почти у всех кроме юр лиц в самой Армении, есть фронтирующие юр лица в США или Гонконге или Сингапуре от которых они ведут деятельность, но почти всех их сотрудники находятся в Армении, в Армении их R&D подразделения и так далее. Большое число людей тратящих доходы внутри страны.

Кроме того если хорошенько посмотреть на реальную картину импорта/экспорта Армении по его структуре, то можно обнаружить насколько он изменился с 2021 года. В частности, несколько лет Армения была де-факто транзитным хабом для торговли российским золотом, платиной, алмазами и серебром и даже как-то удивительно что российские власти ограничивали импорт армянской минеральной воды, а экспорт золота из России что-то не
ограничивали;) (на самом деле - не удивительно).

Поэтому повторюсь, не читайте СМИ. Все, на самом деле, не так как в реальности (c).

#thoughts #armenia
652🤝2
В рубрике интересных каталогов открытых данных коллекция датасетов в проекте Mozilla Data Collective. Включает множество датасетов по самым разным темам, но основная тема - это языковое разнообразие и каталог включает множество наборов данных именно по языкам, включая редкие или не самые популярные. Например, датасеты по армянскому языку

Из плюсов:
- датасетов много и они полезны
- большая часть под свободными лицензиями или почти свободными вроде CC-ND/CC-NC
- Mozilla устоявшаяся структура, есть ощущение что каталог не сиюминутен

Из минусов:
- доступ требует регистрации и это не открытые данные, для выгрузки или доступа через API даже при свободных лицензиях надо согласится вручную со всеми условиями (не только лицензиями)
- сам каталог является самостоятельной поделкой, не стандартизированный поэтому многие функции вроде фильтрации сделаны так себе, непродуманно
- то что там называется API - это API на выкачку файлов, а не на доступ к данным через API.

В целом не вижу чем он удобнее чем тот же Hugging Face, в работе с датасетами для ИИ, но помнить о нем немаловажно

#opendata #datasets #datacatalogs
1👍6❤‍🔥2
Data.gov: Implementation and Perspectives on Its Functions на сайте Конгресса США обзор истории портала Data.gov и перспектив его развития. Документ в форме отчета Конгресса, написан очень бюрократизированным языком, читать его непросто, хотя и интересно.

А заодно полезно для понимания проблем с которыми сталкиваются при разработке порталов открытых данных. Data.gov в довольно запущенном состоянии уже давно, как и ряд других национальных порталов открытых данных.

#opendata #usa #data #datacatalogs
3👍3
692 номера, 69 лет и один перерыв на войну. В Цифровом архиве госфинансов и госуправления собраны все выпуски журнала «Плановое хозяйство» — главного печатного органа Госплана СССР

Издание ведёт отсчёт от «Бюллетеней Госплана» (1922–1923), сохранив сквозную нумерацию и в 1924 году обретя постоянное название. На его страницах печатались не только планы и балансы, но и ключевые экономические дискуссии:

• в 1927 году здесь вышли «Критические заметки о плане развития народного хозяйства» Н.Д. Кондратьева, где были обозначены системные изъяны планирования;

• в 1928–1929 годах разворачивались споры о том, сохранятся ли цены при «законченном социализме»;

• в 1930-м вышел специальный номер о «вредительстве», открывавшийся статьёй Г.М. Кржижановского с примечательной фразой о теплотехнике К.В. Кирше: тот «заблаговременно умер до своей вероятной измены».

В послевоенный период журнал оставался главной профессиональной трибуной: в 1973 году он стал первым отраслевым изданием, удостоенным Ордена Трудового Красного Знамени (тираж достигал 52 тыс. экз.), а в 1973-м и 1988–1989 годах на его страницах обсуждались методы оптимального планирования и противозатратное хозяйствование.

В подборку вошли 692 номера в формате PDF — от «Бюллетеней Госплана» до последнего выпуска 1991 года, когда издание было переименовано в «Экономист». Ознакомиться и скачать можно на сайте Цифрового архива.

#ЦАГГ #история #госуправление #экономика #подборка
🔥1594
Полезные ссылки про данные, технологии и не только:
- The Tableau Exodus Has Begun короткий текст с анализом того почему Tableau уже не самый интересный инструмент для аналитики и то какие есть альтернативы. Текст в жанре BI is dead, long live AI-analytics. Тема слегка спекулятивна, но актуальна
- Cate попытка переосмыслить пользовательский интерфейс разработчика в виде IDE и множества окон ИИ агентов. Не чувствую уверенности что идеальное решение, но любопытное уж точно
- Android developer verification timeline просто для напоминания для тех кто забыл. С сентября 2026 года Google вводит обязательную верификацию всех приложений на платформе Android на всех устройствах сертифицированных Google. Это не значит что приложения из непроверенных источников совсем нельзя будет поставить, но процесс сильно усложнится. Как бы некоторые приложения в некоторых странах не превратились бы в тыкву

#opensource #ai #android #bi
😱4🤔1
Разные мысли вслух про ИИ и не только:
- мысль которую я уже формулировал, но можно и повторить. Разработка с помощью ИИ агентов для зрелого разработчика большой плюс, для юниора большой минус. И готовность применять кратно различается. В общем если Вы начинающей разработчик/инженер/аналитик то вайб-кодинг в резюме совсем не плюс, а может быть и минус
- судя по ограничениям которые Anthropic наложили на модель Fable, публичный вариант Mythos, мир движется к тому что будут модели без ограничений за очень большие деньги и для особых клиентов, и модели с ограничениями для широкой аудитории. Интересно только как скоро появится открытая модель сравнимая с Mythos/Fable?
- продолжая мысль про открытые модели, это же во многом про демократизацию доступа технологиям двойного назначения. Условно возможно ли кибервойны будущего между несколькими крупными корпоративными или национальными автономными ИИ продуктами? Не то чтобы я хотел это видеть своими глазами, как писатель фантаст интересуюсь;)
- большое число ИИ продуктов локально приводит к большому числу ключей доступа к ИИ моделям и сервисам прописанных в переменных окружения. Чем дальше, тем это всё менее безопасно поскольку доступ к ним имеют вообще все приложения запущенные от текущего пользователя. С одной стороны ключи SSH тоже доступны также любому приложению, а с другой, неужели меня одного это волнует?

#thoughts #aiagents
👍115🤔5😱1
Полезные ссылки про данные, технологии и не только:
- dagster price increase 10x insane , don't ever use them тред на Reddit о том как Dagster подняли в 10 раз цены на их облачный сервис. Для тех кто не знает - Dagster это такой ETL/ELT продукт с открытым кодом по модели SaaS когда бесплатно открытый код и платно когда используешь в облаке. И вот они подняли цены в 10 раз. Продукт удобный, но с таким отношением я бы и от open source версии отказался. У них код под лицензией Apache 2.0 и хочется надеяться что кто-то его форкнет и начнет развивать альтернативу если они еще и open source код начнут портить.
- We had to build new evals for Fable обзор модели Fable 5 для задач дата аналитики от ребят из команды Hex (облачный сервис аналитических тетрадок). Если коротко то это хорошо, но недешево. Полезный обзор

#readings #ai #datatools
👍4
OpenSharing свежий стандарт/протокол/спецификация по обмену данными и другими цифровыми артефактами для работы ИИ агентов включая таблицы, коллекции файлов, схемы, глоссарии и так далее. Был передан компанией Databricks в Linux Foundation и основан на уже активно используемом протоколе Delta Sharing к которому уже есть действующая экосистема и множество продуктов его поддерживают.

Передача его в Linux Foundation - это хорошо, это позволяет расширить экосистему. Хочется надеяться что появятся еще и open source реализации серверной части delta sharing, чтобы не зависеть от облака Databricks.

#opensource #standards #ai #tools #datatools
7👍6🔥6👏1
Anthropic внезапно и по требованию властей США отключили Fable 5 для всех клиентов. Причем требование было про угрозу национальной безопасности без уточнения причин, но можно предполагать что причины в том что кто-то из пользователей таки смог преодолеть защиту от применения в целях кибербезопасности и других потенциально опасных тем/задач.

Всё это поднимает сразу два ключевых вопроса:
1. Неизбежность обязательного сильного государственного вмешательства в разработку и доступность наиболее передовых LLM и ИИ сервисов
2. Невозможность страновых ограничений для доступа. Власти США запретили предоставлять доступ всем негражданам США и Anthropic вынуждены были отключить вообще для всех, потому что гарантировать недоступность для всех несоответствующих этому критерию сложно.

Событие это важное, если не переломное. А что будет когда модель сравнимую с Fable/Mythos выпустят китайцы, ее власти США тоже запретят? И как, простите, они это сделают?

#ai #thoughts
12👍8🤨4
Мне много что есть сказать по поводу отзыва компанией GlobalSign сертификатов у российских доменов и недавнего изменения политики Let's Encrypt в части соблюдения санкций США (теперь соблюдают, если вкратце и не будут больше выдавать их санкционным компаниям).

Последствия этого будут для российских пользователей неприятными и пойдут эти действия скорее в копилку доводов тех кто говорит про суверенный интернет в РФ и как бы все не обернулось попытками усиления внедрения отечественных браузеров, сертификатов НУЦ и так далее. В чем, разумеется, ничего хорошего нет и быть не может, российский цифровой рынок не настолько большой чтобы усиливать собственную изоляцию, и множество продуктов поломается из-за невозможности проверки сертификатов так же как и риски взломов усилятся.

Но тема эта не про данные, а не про данные мне говорить скучно😉 так что я, всё таки, предложу посмотреть на эту проблему через данные.

Сертификаты для сайтов и других целей в мире выдаются не кем попало, а так называемыми Certificate Authority и крупнейшие вендоры браузеров, операционных систем и устройств проводят их верификацию/аттестацию и включают в списки признаваемых ими. Вот тут можно посмотреть примеры таких списков. Наиболее значимые - это списки Apple, Microsoft, Google для их операционных систем, но, в принципе, все они важны.

Наиболее крупный список Common CA Database ведет Linux Foundation в партнерстве с Microsoft, Mozilla, Cisco и Google. Он включает 10122 сертификата, выпущенных 186 корневыми CA из примерно 60 стран. Эти страны включают, практически все страны ЕС, многие азиатские и даже некоторые африканские страны.

А каких стран там нет? Из значимых там нет России, Беларуси и всех стран Центральной Азии и многих других.

Почему же так, спросите Вы? Может быть потому что они не могли бы пройти по требованиям для их аттестации? Может быть потому что не было и нет целенаправленной госполитики по их созданию? Или в том что зарубежные вендоры изначально не доверяют компаниям в области безопасности из ряда стран? Есть ли тут политические решения или только экономические?

У меня есть предположения и подозрения на этот счет, а пока для тех кто хочет изучить как устроен рынок CA в мире вот тут можно скачать напрямую этот файл для анализа в CSV формате. Он вполне поддается анализу и визуализации.

#opendata #certificates #russia #datasets #data
209🔥9
Датасет Цифрового архива: роспись расходов Государственного бюджета РСФСР на 1935 год

Один из самых крупных датасетов в нашей коллекции — «Роспись расходов Государственного бюджета РСФСР на 1935 год в тысячах рублей». В нем конечные цели расходов объединены в более крупные сущности — направления, типы, сферы расходов, а также показаны ведомства, в компетенции которых находятся те или иные затраты.

Например, учреждения Наркомата финансов (Наркомфин) получают средства в рамках разделов «Просвещение» и «Общее управление», а именно 11 млн 44 тыс.
и 2 млн 87 тыс. рублей соответственно.

При этом деньги, выделенные на просвещение, разделены по типам учебных заведений, далее — по уровню получаемой квалификации и наконец по конечным целям: заработная плата, административно-хозяйственные расходы, стипендии и так далее.

Что касается раздела «Общее управление», то соответствующие средства для учреждений Наркомфина имеют меньше уровней деления и сразу распределяются по конечным целям.

Разнообразные способы группировки помогают рассмотреть структуру финансирования разных отраслей и направлений народного хозяйства с разных точек зрения и глубже понять устройство бюджета РСФСР в 30-е годы.

Полностью ознакомиться с расходами РСФСР в 1935 году можно в соответствующем датасете на сайте Цифрового архива.

#бюджет #датасет #ЦАГГ #РСФСР #история #финансы #Наркомфин
👍136🔥4
Open Knowledge Format свежая спецификация для описания знания для LLM в продолжение идеи LLM-wiki сформулированной Andrej Karpathy. Спецификация уже декларируется как используемая внутри Google Cloud Knowledge Catalog.

Не они первые и не они последние кто реализует эту идею, она прямо таки уже стала одержимостью для многих в ИИ сообществе и неспроста, поскольку переосмысливает некоторые устоявшиеся подходы. Например, то что каталог данных/метаданных теперь может быть каталогом знаний. Вроде как очевидно, но не совсем.

Что мне нравится - открытая и простая спецификация, достаточно крупный/тяжелый бренд ее реализующий.

Что мне не нравится - хочется что-то отчуждаемое от конкретного проприетарного продукта, в данном случае облака Google.

Если будет реализация только в открытом коде и без привязки к облакам - это идеальный вариант. Впрочем, не забываем что реализаций/спецификаций много, так что будет ли эта популярна еще не очевидна.

P.S. Название, конечно, придумано весьма сомнительное учитывая существование Open Knowledge Foundation (OKF). Просто таки смешение терминов

#opensource #standards #ai #google #knowledge
👍112❤‍🔥2
Для тех кто интересуется разного рода международной таксономией, новая версия internacia-db управляемого справочника по странам и международным блокам в виде открытого репозитория приведенного к формату дата-продукта.

В новом релизе 1.5.0 по совокупности изменений:
- число стран/территорий расширено до 256 и теперь включает записи по непризнанным территориям вроде Приднестровья, Абхазии и тд.
- добавлены новые международные блоки которых теперь 1070, типы международных блоков по прежнему: экономические блоки, международные соглашения, межгосударственные организации и фонды, экономические группы стран (по классификация Всемирного банка и другим) и так далее. Всего более 86 типов международных группировок стран
- добавлена лицензия для данных которая CC-BY и provenance (происхождение) по отдельным полям данных в карточках записей.
- многие карточки включают обновленные метаданные: описания, официальные названия, сведения о странах участниках, статус участия и так далее.

Все данные опубликованы в форматах Parquet, YAML, JSON lines и в виде базы DuckDB.

Для чего нужна эта база?
1. Для обогащения данных при работе с любыми данными имеющими геопривязку к стране или международному блоку
2. Для задач визуализации данных, например, статистики в привязке к странам и международным блокам
3. Для сравнения стран и международных блоков

И тому подобных задач. Этот дата-продукт можно сравнить с pycountry пакетом для Python со справочником стран, но он больше, шире, детальнее и включает данные по международным блокам.


#opendata #dataproducts #data
👍10🔥82
Подборка ссылок про данные, технологии и не только:
- Running local models is good now - автор пишет что, внезапно, но разработка ПО с помощью локальных моделей стала реалистичной. Она приводит в пример новую LLM Gemma-4-12b-qat достаточно компактную чтобы работать на ноутбуке с 64GB памяти и достаточно эффективную чтобы решать задачи работы с кодом.
- SpaceX to acquire Cursor for $60B in stock если кратко то компания AnySphere создателей среды разработки Cursor теперь куплена SpaceX. Я бы сказал что если Grok не начнут навязывать через Cursor, то это хорошая новость. Думаю что не будут и думаю что это не последнее приобретение SpaceX
- GenSpark - стартап/сервис-ИИ агента сравнимый с Manus. В моих тестах неожиданно хорошо показал себя на Deep Research задачах. Сервисов таких до сих пор не так уж много и можно разориться уже если тестировать их все.
- Bigset агент с открытым кодом по созданию датасетов из веб-поиска. Вбиваешь что-то вроде "AI infrastructure startups hiring backend engineers" и получаешь CSV файл на выходе. Концептуально напоминает сервис Webhound, там открытого кода нет, только SaaS. Правда и Bigset хоть и с открытым кодом, но зависит от коммерческого сервиса Tinyfish через который он делает веб поиск.

#opensource #ai #tools
👍7🔥3❤‍🔥1
По поводу того что в Индии временно заблокировали Телеграм для борьбы со списыванием во вступительных экзаменах в ВУЗы, я бы думал об этом шире. Проблема не в Telegram, конечно же, она более системная и связана с доступностью цифровых устройств в целом и доступностью возможности обмена сообщениями и доступностью ИИ ассистентов в частности в экзаменах.

Это не индийская проблема, а глобальная. Студенты используют ИИ ассистенты для домашних заданий, любых текстовых работ. Никаких простых решений тут нет, кроме достаточно радикального - в создании центров предварительной экзаменационной подготовки в заведениях мало отличимых от тюрем.

В специальных зданиях, в районах далеких от основной инфраструктуры, с недоступностью в них сотовых сетей (глушилки), Wifi и спутниковой связи (тоже глушилки). С досмотром и невозможностью проноса любых цифровых устройств. С обширнейшими тематическими библиотеками на бумаге и отключенными от сети стационарными компьютерами. С тотальным видеонаблюдением. Отправлять туда студентов за несколько дней до экзамена, они там живут в режиме закрытого общежития, сдают экзамен, отправляются домой и через некоторое время (не сразу) узнают его результат.

Ну как, звучит как хороший сеттинг для фантастического рассказа или это уже не фантастика?🤣

#thoughts #ideas
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2312🤩6👍4❤‍🔥1🔥1
Свежая модель GLM 5.2 от Z.ai, её уже можно потестить в агентском режиме на chat.z.ai и выглядит в работе она неплохо

У меня есть набор тестовых кейсов для deep research задач которые я опробую на всех новых моделях. Они к основной работе не относятся, зато я сам очень хорошо понимаю контекстную среду и могу оценить результат. Например, промпт как на приведенном скриншоте. В результате получается отчет на 30-40 страниц, не идеальный, не так чтобы вау-вау, но так чтобы очень хорошо. Если бы я реально этим репозиторием и кодом занимался, я бы рекомендации из результатов анализа применил.

Необычное наблюдение что вместо режима выдачи результатов Markdown-по-умолчанию привычный по другим сервисам тут всегда выдается PDF или DOCX или оба файла, но не Markdown. Это скорее неудобно чем удобно, но точно не критично.

По разного рода бенчмаркам для разработки у GLM-5.2 тоже очень высокие оценки, пробовать в работе точно стоит.

#ai #tools
👍8531