Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Кстати про инструменты которые относятся к data exploratory (изучение данных) включая визуализацию, контроль качества, поиск инсайтов и тд. Вот тот самый DataKit что я приводил ранее - это один из примеров таких инструментов и пример целого семейства/типа таких инструментов - работающих только в браузере.

В их основе DuckDB-WASM с возможностью вести всю обработку данных в браузере пользователя и таких инструментов всё больше. Это QuackDB, Duck-UI, SQL Workbench, PondPilot, Quacklytics, DB Pilot, Galaxy и другие. В некоторых уже есть встроенные ИИ ассистенты, в других в планах, но инструментов много.

Архитектура работы через DuckDB-WASM так привлекательна по нескольким причинам:
1. Вся нагрузка остаётся на пользовательском устройстве и на подключенной ИИ модели. Нагрузка на сам сервис минимальна.
2. Данные не выходят за контур устройства пользователя, кроме случаев когда пользователь осознанно хочет проаналитизировать данные с помощью LLM.

DuckDB-WASM не единственный пример движка обработки данных внутри WASM, есть и другие.

Важно что настольные приложения для обработки и анализа данных включая data exploration уже становятся моветоном.

#ai #datatools
52👍1
TRAIGA. Texas Responsible Artificial Intelligence Governance Act. Свежий закон штата Техас накладывающий обязательства на компании ИИ предоставляющие услуги гражданам, в первую очередь чат-боты, госорганы использующие ИИ.

TRAIGA запрещает создание или использование ИИ-систем с намерением:
- Побуждать к самоубийству, вреду себе или другим, или к преступной деятельности
- Нарушать или ограничивать чьи-то федеральные конституционные права
- Наносить незаконную дискриминацию против защищённых классов (например, по расе, полу, возрасту и т. д.).
- Создавать или распространять детскую порнографию или неправомерные дипфейки, включая текстовые системы, обманывающие пользователей, выдавая себя за ребёнка

А также госорганам запрещается использовать ИИ для социального скоринга и госорганы обязываются уведомлять пользователя простым и понятным языком о том что те взаимодействуют с ИИ.

Это не все изменения, о них стоит почитать в обзорах законов. Он вступает в силу с 1 января 2026 года.

#regulation #usa #ai
4👍4🔥1
The State of Python 2025 результаты исследования на основе опросов Python разработчиков от команды PyCharm.

Ключевые выводы:
1. 51%+ разработчиков используют Python для работы с данными
2. Существенный рост использования FastAPI
3. Каждый третий разработчик контрибьютит в открытый код
4. Существенный рост числа модулей на Python написанных на Rust
5. Среди баз данных доминирует PostgreSQL
6. Почти половина разработчиков уже используют или планируют использовать AI агентов

#opensource #python #trends
👍81
В Великобритании Правительство объявило о финансировании конкурса на создание продуктов на основе ИИ по мониторингу и предупреждению преступлений. Сейчас уже выделили £4 миллиона на создание прототипов, а до 2030 года планируют запустить полноценно работающую систему способную предсказывать преступления в конкретных локациях. Это не как в фильме Особое мнение, а, по сути, некоторая вероятностная модель, но ИМХО, неизбежно когда такие системы смогут работать в реальном времени и отслеживать вероятность преступлений не просто по критериям места, а по критериям наличия в конкретных местах лиц определённой категории.

Я помню что в Великобритании - это не первый проект в этом направлении у них как минимум было множество больших экспериментов по интеграции баз данных и профилактики преступлений. Эксперименты были не то чтобы очень результативные, но, как видно, тенденция сохраняется.

И не стоит думать что подобное не проектируют и не делают в странах где об этом публично не заявляют.

#policy #ai #crime #uk
2👍2🔥2🙏2🤨2
Ещё один слегка нестандартный каталог и сервис работы с данными Cecil. Это сервис доступа к геоданным через API причём устроен он так что там есть только сайт визитка, а всё остальное, включая регистрацию пользователя делается через API запросы. Все примеры описывают работу с данными через Geopandas, а список датасетов приведен в документации.

В итоге основная фича в получении доступа к гармонизированным геоданным с возможностью их получения и обработки в определённой территории.

Вообще же каталоги геоданных явно развиваются в сторону API first, в большей степени чем многие другие данные.

#opendata #geodata
👍4🙏1🌭1
Читаю хороший текст Metadata as a Data Model о восприятии метаданных как основы архитектуры данных и дата модели. Автор не из мира технологий, а консультант по онтологиям, что чувствуется в примерах из библиотечного мира и других предметных областей где проектирование моделей данных первично их технической реализации.

Что важно понимать про метаданные и стандарты, то что их существование это результат совместных размышлений, а то есть кто-то совместно хорошо подумал чтобы они появились и даже если эти стандарты неидеальны, они покрывают если не полностью то существенно сценарии применения данных в отношении которых они написаны. Через призму опыта их написавших, несомненно. Поэтому если Вы придумали какую-то спецификацию или стандарт в одиночку, то, скорее всего, это плохая спецификация. За очень редким исключением непревзойдённого опыта, но люди с таким опытом обычно понимают как спецификации разрабатываются и в одиночку их тоже не пишут.

Стандарты метаданных - это одновременно, фундамент и ограничитель. Шаблон мышления и практического воплощения и базовые знания для входа во многие профессии. Например, стандарт Dublin Core в какой-то момент вырос из AACR и MARC, стал основой для описания большей части онлайн контента даже если формально он в их описании не упомянут. Большая часть разработчиков, де-факто, описывают существующие или новые типы объектов аналогично, используя базовые шаблоны, в первую очередь естественности восприятия наличия определённых характеристик и параметров у этих объектов.

Это ведь кажется очевидным что у каждого объекта есть название, описание, дата когда он создан, дата когда он изменён и тд. Готовые стандарты и спецификации упрощают работу с любыми стандартизированными данными.
...

#metadata #dataannotations #dataarchitecture
82
Во Франции власти с 1 сентября для госслужащих стал обязательным мессенжер Tchap для всех рабочих коммуникаций.

Что важно про него знать:
1. Это мессенжер только для госслужащих, он не имеет статус "национального", граждане там не планируются
2. Он основан на открытом протоколе Matrix и сам он на базе открытого кода https://github.com/tchapgouv
3. Разработан французским министерством DINUM (вернее компанией Element по их заказу)
4. Это именно мессенжер, без всяких там функций медиа вроде каналов и тд. Он ориентирован на организацию приватного общения и только
5. Аналогичный госмессенжер есть в Германии, называется BundesMessenger, он ещё не обязательный для госслужащих, но потенциально может таким быть. Тоже с открытым кодом, тоже на базе протокола Matrix, тоже имеющий официальный статус.
6. В обоих мессенжерах французском и германском отсутствует слежка за пользователями, там нет встроенных коммерческих трекеров и это легко проверяется благодаря открытости кода.

Больше информации о Tchap в их презентации от сентября 2024 г. с конференции Matrix, можно узнать что и до обязательности он уже активно использовался.

#opensource #france #germany
👏22👍11🔥3
Полезные ссылки про данные, технологии и не только:
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.

#opensource #tools #ai #notetaking #aiagents #rdbms
53❤‍🔥1🔥1
Я чуть было это не пропустил, а оказывается в конце августа Microsoft передали в Linux Foundation выложенную в открытый код DocumentDB, NoSQL базу данных совместимую с MongoDB. Под свободной лицензией MIT, что выгодно отличает от самой MongoDB под превдо-открытой лицензией SSPL.

Документации там ещё скудновато, уровень совместимости с API MongoDB до конца не понятен, но он вроде как неплохой, поскольку основные операции в MongoDB там должны поддерживаться.

DocumentDB внутри работает на PostgresSQL и самая простая установка его через Docker (не самая правильная быть может), но есть и альтернативы. Непонятно что пока там с API из коробки, MongoDB в редакции сообщества не развивалось в сторону предоставления GraphQL по умолчанию, например, и API там было упрощённое, хочется надеяться что в будет дорожная карта где такое прояснится.

А вообще это всё напоминает историю с Elasticsearch vs OpenSearch.

#opensource #rdbms #data #tools
4👍3🤔1
Накопилось какое-то количество мыслей об открытом коде, попробую сформулировать их вслух.

1. Все сравнения open source проектов грешат акцентом на простые метрики которые, вроде числа коммитов всего и за последний месяц, числа issues и тд. Но нет сервиса дающего человекочитаемые инсайты. Включая ossinsight.io который даёт некоторые ответы, но не сводку. При этом облачные LLM'ки умеют давать качественные сводки по состоянию и развитию проектов, неидеальные, но весьма осмысленные. По моей практике Perplexity делает это лучше чем ChatGPT поскольку использует API Github'а, а Manus делает это ещё лучше анализом веб интерфейса, но странно что такого отдельного сервиса нет, он напрашивается, как минимум для двух задач. 1-я - это оценка "живости" проекта что актуально для многого, 2-я это оценка активности разработчика резюме которого ты рассматриваешь. Однако проанализировать сотни и тысячи репозиториев - это тяжёлая и дорогая задача с применением агентских LLM, их можно сильно улучшить. Тот же OSS Insights, но на стероидах.

2. Второй напрашивающийся продукт это измеритель риска оценивающий полную цепочку зависимостей проекта. Причём разных рисков, начиная с тех с зависимостей от заброшенных проектов, продолжая зависимостями от проектов где разработчики/компании расположены в недружественных странах (каких именно можно решить самим) что почти наверняка потребует связывания профилей в Github с LinkedIn что уже сложнее. Есть ощущение что существующие практики и инструменты оценивают, в основном, юридические риски связанные с лицензиями и незакрытые CVE.

3. Напрашивается маркетплейс задач в стиле "перепиши это с MIT лицензией". Когда у твоего проекта может быть зависимость от кода под GPL, SSPL и другими способами явного ограничения лицензий. Это не решает проблемы с тем что переписанный код может оказаться заброшенным, но тем не менее.

#thoughts #opensource
👍72🤔21
📚 РАН открывает бесплатный доступ к архивам научных журналов

С 1 сентября предоставляется бесплатный доступ к материалам выпусков 141 научного журнала РАН, размещенных на Национальной платформе периодических научных изданий РЦНИ, по прошествии одного года с момента публикации.

Вице-президент РАН, академик РАН Владислав Панченко отметил: «Предоставление доступа к архивам научных журналов РАН реализует важнейшие принципы доступности результатов работы российских ученых и делает уникальные научные знания, накопленные в журналах РАН, достоянием самой широкой аудитории. Теперь студенты, аспиранты, исследователи из любых регионов России и всего мира смогут без ограничений знакомиться с публикациями по истечении года со дня публикации».

Источник: РЦНИ.
13👍132
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Новая версия сайта «Госзатрат» и 8000 исторических финансовых документов

Поздравляю подписчиков и коллег с Днем финансиста! Хочется пожелать финансовых потоков, профицита, финансовой грамотности, финансовых данных и понижение ключевой ставки.

К Дню финансиста мы подготовили релиз новой версии сайта проекта «Госзатраты» (clearspending.ru) - анонс всех изменений будет позже, пока только проспойлерю новые модули «Регионы» и «Отрасли», новую базу данных, обновленный дизайн, а также новый API (его использование потребует регистрации, но для перехода на него будет достаточно времени). Старую версию сайта можно найти по ссылке old.clearspending.ru, она заморожена и обновляться не будет.

Кроме «Госзатрат» мы обновили и наборы данных проекта «Цифровой архив госфинансов и госуправления» (ЦАГГ) - на сайте их уже 230, а общее количество загруженных документов превысило 8 тысяч (finlibrary.ru).

В телеграм-канале Цифрового архива мы рассказали о том, почему День финансиста празднуют 8 сентября (https://t.me/finlibraryru/78), и регулярно пишем об интересных находках в базе документов проекта, о финансистах и датасетах.

#ЦАГГ #Госзатраты #открытыеданные
1👍10221🐳1
Для тех кто ищет данные по РФ, на хабе открытых данных опубликован слепок всех данных с data.gov.ru слепок включает все метаданных датасетов и копию всех данных в CSV формате, в едином архиве.

Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.

Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)

Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов

Это очень немного пользы, но хоть такая.

#opendata #datagovru #datasets #russia
🔥52🤔2
Для тех кто работает с данными на регулярной основе и любит командную строку:
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам

Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.

Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.

#data #tools #datatools
8💯32
Некоторые мысли про анализ данных с помощью LLM и не только:
1. Почти все инструменты рассуждения LLM вокруг документов ограничены работой в PDF файлами MS Office XML (.docx, .xlsx, .pptx). Из этого перечня почти всегда выпадает старый формат MS Word (.doc) поскольку его преобразование почти всегда не из коробки и требует дополнительных усилий. Для их потокового преобразования нужны дополнительные конвееры, сервисы и тд.
2. Нет универсального API/программной библиотеки для доступа к LLM в том же Python. Каждый разработчик инструмента заморачивается отдельно поддержкой множества LLM провайдеров и настройкой доступа через множество переменных окружения которые выглядят как OPENAI_KEY, LLM_KEY, CLAUDE_KEY и далее до безобразия. Есть ощущение что этот слой коммуникации инструмента и выбора локальной/облачной LLM должен быть унифицирован. Я бы предположил что разработчики OS могут сделать это частью настроек OS и системного управления ключами, но пока всё меняется слишком быстро и у них могут быть свои интересы в привязке пользователей к собственным сервисам.

#thoughts #ai #data
👍102🌚1
Глядя на то что происходит с российским data.gov.ru и другими национальными порталами открытых данных я, пожалуй, готов сформулировать какие наборы данных могли бы публиковаться и которые можно было бы назвать датасетами особой ценности и которые, частично, упомянуты в нормативных документах ЕС, но далеко не все.

1. Базовые геоданные. Всё что формирует основные слои геоданных, максимально большого объёма, максимально актуальное и доступное через API и в режиме полной выгрузки (bulk download). Это есть в перечне ЕС. Потребители - бизнес, коммерческие сервисы, все геоаналитики.
2. Официальная статистика. Не в виде статдокладов и документов, в виде структурированных данных, как в виде отдельных индикаторов, так и статистические базы целиком с возможностью получать их регулярно и полностью. Потребители - бизнес, аналитики, журналисты, исследователи
3. Законы/законопроекты/НПА/судебные решения. В полнотекстовом виде и, также, доступные через API и полными слепками с максимально возможной актуализацией и всеми доступными метаданными. Потребители - ИИ специалисты, бизнес, исследователи
4. Данные о предприятиях. Всё что является общедоступным в отношении юридических лиц, кроме данных ограниченных в публикации. Потребители - бизнес (сервисы проверки контрагентов), исследователи
5. Данные об объектах культуры. Включает книги, изображения, метаданные, включая тексты, максимально детализированные цифровые представления объектов. Потребители - ИИ специалисты, исследователи, преподаватели, студенты
6. Данные научных работ и исследований. В максимально полном объёме включая метаданные, тексты, сопроводительные материалы. Пригодные для машинной обработки и массовой выгрузки. Потребители - ИИ специалисты, исследователи,
7. Метеорологические данные. Доступные в через API в реальном времени, в виде исторических баз данных наблюдений. Потребители - коммерческие пользователи
8. Базы данных созданные в рамках научных исследований. Финансируемых государством и созданные как общественное благо. Потребители - исследователи, бизнес пользователи (в ряде случаев)
9. Языковые корпусы. Национальные языковые корпусы, корпусы диалектов и иных языков на территории страны. Потребители - ИИ специалисты, исследователи
10. Данные необходимые для принятия решений. Статистика и иные сведения за пределами официальной статистики используемые для задач принятия решения властями, бизнесом и гражданами. Включает ведомственную статистику, сведения о качестве здравоохранения, качестве образования, качестве жизни, экологии, загрязнении воды и воздуха, с максимально возможной детализацией. Потребители - граждане, бизнес, исследователи, региональные и муниципальные власти
11. Данные спутникового мониторинга. В объёме создаваемом и финансируемом государством. Потребители - ИИ специалисты, бизнес

Я не включил в этот список данные относящиеся к политической прозрачности, у них потребители - общественники и журналисты, они тоже необходимы и понятным образом сложнее в раскрытии.

Однако это перечень того у чего есть гарантированный спрос и потребление и то что зачастую уже публикуется, но не систематизировано. Главное изменение последних лет - это безусловный рост востребованности больших наборов данных с текстами которые используют для обучения ИИ.

#opendata #datasets
👍1782
И про данные о качестве жизни. Год назад в Амстердаме для 80% городских дорог ограничили скорость передвижения 30км/час. А сейчас мэрия города опубликовала доклад о результатах этого эксперимента и он весьма позитивен.

Снизился шум от автомобилей, снизилось число аварий, снизилось число аварий с участием автобусов и трамваев и тд.

Но интересно не только это. Все эти данные можно отнести к данным качества жизни и в Нидерландах они доступны на нескольких официальных ресурсах. Например, на Environmental Health Atlas с детализацией до конкретной улицы и конкретного дома и тд.

И, конечно же, они доступны в виде геоданных через несколько открытых API и каталогов геоданных таких как RIVMData

Возвращаясь к эксперименту с ограничением скорости внутри городской черты, вот он и выглядит как альтернатива запретам самокатов. Не ограничения самокатов, а ограничения на автомобили.

Представьте себе такое ограничение в городе где Вы живёте, хотелось бы такое?

#opendata #netherlands #eu #datasets #lifequality #cities
13👍12🔥6🤔6🤨1
Попался на глаза созвучный моим мыслям текст The Last Programmers от разработчика и бывшего члена команды ИИ ассистента Amazon Q о том что уходит последнее поколение программистов и о том что ИИ помощники способны создавать бесконечное количество кода, но для того чтобы исправлять в нём принципиальные ошибки и обеспечивать его производительность нужны люди с глубоким погружением в технологии.

Но это поменяет, конечно же, не только программирование, но и многие другие профессии: врачи, преподаватели, инженеры и тд. Уже через 5-10 лет те кто интенсивно использует ИИ в студенческое время могут столкнуться с проблемами работы, обсуждений и иного связанного с их профессией без помощи ИИ.

И тут у меня есть небольшое предсказание, что большая часть университетов не справятся с ограничениями на использование ИИ, особенно для дистанционно учащихся студентов и потребуются меры и подходы для повышения качества отбора новых сотрудников работодателями. Появится что-то вроде Human Certified, сервисы по проверке и аттестации профессиональных знаний с прокторингом и гарантией того что проверяемый не использовал никаких ИИ ассистентов. По аналогии с разного рода тестами на знание иностранных языков которые проводят в сертифицированных центрах или сдаче профессиональных экзаменов в ИТ.

#thoughs #ai
💯854