Ivan Begtin
9.08K subscribers
2.53K photos
4 videos
114 files
5.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Кстати, как человек любящий не только цифровые архивы, но и исторические книжки тоже не могу не упомянуть про очень интересный проект от Банка России с виртуальной выставкой по истории Банка. Мало какие центральные банки в мире делают такие проекты, так что это хорошо что такое появляется (если знаете аналогичные проекты в других странах, то напишите плз). Я знаю только Federal Reserve History в США.

Но интересность материалов и их доступность омрачает то что материалы есть, а можно ли их использовать? В основном нет.

Вот самые очевидные проблемы:
1. Нет нигде явным образом указанных условий использования материалов. Можно ли использовать их на своём сайте? Можно ли на их основе писать учебные материалы? Можно ли цитировать и тд. Понятно что у разных материалов может быть разный статус, но не надо забывать насколько это важно можно ли использовать такие материалы.
2. Просмотр материалов только на сайте - это никуда не годится. Возможность скачать исторические книжки нужна для бесконечного числа задач: внутренних библиотек университетов, таких проектов как Цифровой архив госфинансов и госуправления, возможность почитать книги оффлайн, возможность обучить на них ИИ, возможность создать наборы данных и многое другое.

Если делать хорошо, то делать до конца, не надо останавливаться на полпути.

#digitalpreservation #books #finances #digitalhumanities #openaccess
🔥94👍4💯1
Ещё немного рефлексии по использованию ИИ в разработке. Конечно глядя на 2-ю версию Cursor'а есть ощущение очень большого прогресса в том что с помощью ИИ агентов можно проделать на прикладном уровне. ИИ агент(-ы) точно заменяет джуниоров, сильно помогает миддлам и полезен для более опытных разработчиков.

Например, типовые задачи которые я задаю всем ИИ моделям, при их проверке относительно кода, звучат как "Проанализируй код в этом репозитории и напиши рекомендации по повышению его производительности". Ещё полгода назад чатботы с ИИ выдавали невероятные галлюцинации, сейчас 90% выданных рекомендаций заслуживают внимания. Причем это агентское ревью кода, как правило, лучше чем делает разработчик средней квалификации. По крайней мере потенциальные утечки памяти, заведомо неэффективные конструкции в коде отслеживаются весьма легко.

Но ИИ агенты пока не достигли следующей планки, а то есть замены архитекторов ПО. А то есть ИИ может выдать что цикл и обработка в цикле в коде написаны неэффективно, но, например, не может пока проанализировать архитектуру приложения в целом и дать рекомендации в стиле "вот этот код надо переписать на Rust'е и подключить его как библиотеку" или "а вот тут есть такой редкий инструмент/библиотека если его применить то всё будет работать куда лучше" или "а вот у тебя код весь под Ubuntu написан, вот тут его надо перепроектировать и переделать и станет кроссплатформенным" и так далее.

Причём перейти к этой стадии углублённого анализа кода и архитектурных рекомендаций, похоже, не невозможно. Более того подозреваю что это вполне реалистично в течение 1-2 лет, подозреваю что с правильно наводящими вопросами можно и сейчас решать задачи автоматизации перепроектирования приложения и глубокой оптимизации, но тут надо изучать подробнее.

#ai #coding #software
👍63🤩1
Свежий документ Framework on Responsible AI for Official Statistics про применение ИИ в официальной статистике от ЕЭК ООН (Европейская экономическая комиссия ООН). Практической пользы с него мало потому что он написан таким языком что если всё там написанное взять и заменить с "официальной статистики" на, например, "энергетику" или "транспорт" то мало что поменяется. Содержание документа сильно оторвано от предметной области и почти все отсылки там на базовые этические принципы внедрения AI и ML. С этой точки зрения документ не так бесполезен.

В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".

Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation

Они выглядят как более полезные с практической точки зрения.

#statistics #ai #readings
43
Свежий документ Organizing Public Support for Open Digital Infrastructure про германское Sovereign Tech Agency (STA) и финансирование открытого кода идентифицированного как наиболее критичного для глобальной инфраструктуры. Полезный текст про "бигтехозамещение здорового человека" и теперь это важный европейский мэйнстрим по снижению цифровой зависимости от США и Китая и создание открытой цифровой инфраструктуры (open digital infrastructure).

Я, наверное, с
пару десятилетий уже наблюдаю как Евросоюз занимался поддержкой открытого кода и чаще всего это выражалось в европейских научных проектах в рамках Horizon в рамках которых участники наплодили множество открытого кода из которого полезного было около 1-10%. Картинка долгое время была удручающей. А дело было в том что когда ты объявляешь конкурсы в стиле "вот есть темы по которым мы даем деньги на открытый код если вы соблюдете вот эту и эту бюрократию" то приходят грантоеды всегда и кто-то адекватный только иногда.

В этом отличие STA, в STA вначале находят те открытые проекты которые не то что бы хорошо зарабатывает и от которых реально зависит если не весь мир, то существенная его часть. А потом пытаются им всучить деньги чтобы они могли продолжать существовать не падая в неприятные зависимости, в европейском понимании - это бигтехи. И поддерживают они через программы fellowship для майнтайнеров, фонд для выдачи грантов и программы bug bounty.

Собственно в документе это хорошо рассказано в контексте создания открытой инфраструктуры. Для понимания перспективного того как эти инициативы вырастают в общеевропейские это весьма полезно.

С одной стороны это всё полезные инициативы, а с другой мэйнтенеры кода могут быть и жить и не в странах ЕС, бигтехи хотя и большие, но гораздо адаптивнее, а европейская бюрократия и юрисдикция скорее хужеет. В любом случае за инициативой полезно наблюдать, может что-то полезное там и возникнет.

#opensource #europe #readings
👍43🔥3
Подборка ссылок про данные, технологии и не только:
- transferia инструмент для переноса данных между разными базами данных причем поддерживает не только SQL, но и выгрузку и загрузку данных в MongoDB, OpenSearch, Elasticsearch. Судя по именам разработчиков и поддержке YTSaurus создатели продукта русскоязычные. Сам продукт пока не очень популярен, но лично у меня под такое задачки есть, надо тестировать
- Affine набирающая популярность замена Notion с открытым кодом. Делает его сингапурский стартап которые создают на его базе облачный сервис с подпиской и они же распространяют версию с открытым кодом. Выглядит симпатично и лозунг у них Write, Draw, Plan. Пиши, рисуй, планируй. ПРП в общем
#opensource #data #tools
5🤝42
В рубрике как это устроено у них не вполне обычный каталог открытых данных и не только Digital Public Goods Registry реестр цифрового общего блага от множества структур ООН, пр-в разных стран и международных организаций. Включает большое число продуктов с открытым кодом, открытых систем ИИ, свободного контента и открытых данных. Например, туда входят Wikipedia и Wikidata, дистрибутив Linux - SUSE, множество порталов открытых данных и наборов данных.

Продукты с открытым кодом варьируются от совершенно бесполезных сделанных когда на гранты и необновляемых с тех пор и до очень активных и обновляемых - CKAN, Typo3, TrueNAS.

Для тех проектов у которых код на Github показывают график обновлений (странно что по Gitlab ещё не научились).

Все материалы публикуются в привязке к целям устойчивого развития ООН и согласно стандарту.

Я регулярно вижу как на разных площадках многие владельцы открытых продуктов анонсируют что их добавили в этот реестр и склонен полагать что причина в том что наличие продукта там может быть дополнительным обоснованием для получения грантового финансирования их проекта/продукта.

Возвращаясь к данным - там перечислено их относительно немного, 25 дата порталов и наборов данных, что впрочем не означает что их список не расширится в будущем.

Проектов из России там нет, есть проекты из Казахстана и Армении (их код не обновлялся очень давно).

#opendata #datacatalogs #opensource
6🤔21
TOON - свежий инструмент/спецификация/нотация для отправки структурированных данных LLM.

Переупаковывает JSON данные в упрощённый CSV подобный формат для отправки в запросе к LLM.

Сразу возникает запрос - зачем это нужно? И ответ в уменьшении числа токенов и экономии на использовании облачным LLM и LLM-как-сервиса.

#opensource #ai #llm #specifications
👍743💊1
Полезные ссылки про данные, технологии и не только:
- A Deep Dive into DuckDB for Data Scientists о том как дата сайентистам использовать DuckDB. Если коротко, то всё довольно просто и понятно.
- ClickHouse welcomes LibreChat: Introducing the open-source Agentic Data Stack Clickhouse поглотил LibreChat, инструмент с открытым кодом для создания ИИ чатботов. Инструмент был хороший, надеюсь таким и останется.
- Hannes Mühleisen - Data Architecture Turned Upside Down отличное выступление Hannes Mühleisen про ключевые изменения в архитектуре данных последних лет. Полезно и по смыслу и по визуальному представлению хорошо
- agor: Next-gen agent orchestration for AI coding ИИ агент для управления ИИ кодированием, автор его создатель Superset и позиционирует этот проект как думай об асситентах для кодирования как о Figma. С открытым. кодом. Любопытно, но ИМХО автор плохо объясняет преимущества, как подхода, так и интерфейса.

#opensource #data #datatools #dataengineering #ai
2
Аудит безопасности Лувра выявил что пароль системы видеонаблюдения был Louvre.

Какие нынче свежие анекдоты про французов?

Вот вам один такой:

Во французской компании проводится тест на фишинг.
Письмо: «Получите бесплатное вино»
Кликают — все, включая директора по безопасности.


#security #it
😁332💯2
В рубрике как это устроено у них data.harvard.edu портал данных и API Гарварда включает их портал исследовательских даных на базе Dataverse, несколько десятков документированных API, как ко внутренним информационным системам, так и для внешних пользователей.

К каждому API приложена спецификация OpenAPI, документация и примеры. Включены, в том числе, ресурсы доступные студентам и сотрудникам университета на облачных платформах AWS, Google Cloud и других.

Сам портал с API работает на базе решения APIGee которое является частью облачного решения от Google.

#openapi #API #opendata
👍111
Полезные ссылки про данные, технологии и не только:
- quackstore расширение для DuckDB для кеширования облачных дата файлов, позволяет сильно ускорить выполнение запросов к облачным файлам благодаря их частичному сохранению. Полезная штука, её можно бы и сразу внутрь DuckDB ибо логично
- Catalog of Patterns of Distributed Systems для тех разработчиков кто хотят не только кодировать, но и двигаться в сторону архитектуры ПО.
- The Data Engineering Agent is now in preview Гугл запустили ИИ агента для дата инженеров внутри BigQuery, конечно же на базе Gemini. Дайте мне такой же только с открытым кодом и без инфраструктуры Google и с поддержкой всех основных инструментов и СУБД!
- Diseño del V Plan de Gobierno Abierto 2025-2029 5-й план по открытости гос-ва опубликовали власти Испании. Сейчас проходят публичные консультации и далее он будет утвержден. Открытые данные там, конечно же, присутствуют

#opendata #opensource #rdbms #datatools #dataengineering #ai
🔥42
В рубрике как это устроено у них относительно новый каталог данных The Counter Trafficking Data Collaborative от международной организации по миграции (IOM) с 507 наборами данных охватывающим 197 стран

Особенность - большие синтетические наборы данных с микроданными по жертвам.

#opendata #datacatalogs
11👍1
Это очень важная тема про инфобез связанный с ИИ агентами, многие из них уже встроены в разного рода продуктами и когда между тобой и ИИ агентом есть ещё одна прослойка то ситуация становится ещё сложнее потому что и отказаться от сбора информации сложнее.

Вообще же описанное - это сильный довод в сторону использования открытых AI моделей и от провайдеров которые сами обучением ИИ агентов не занимаются.

Это же к вопросу о доступе к данным/коду и тд. К примеру, выбирая между Copilot'ом и Cursor'ом для приватного кода. Дефакто Github и так имеет доступ ко всему моему приватному коду, использование Copilot'а не создает тех же рисков которые присутствуют в ИИ продуктах и сервисах за пределами Github'а.

Или же, к примеру, если у вас и так все данные и документы и почта на Яндексе, то ограничивай/не ограничивай, они прямо или косвенно могут использоваться для обучения ИИ.

Начиная с определенного уровня качества ИИ агентов выбор между ними идет уже по критериям цена/безопасность, а не качество/цена/безопасность.

#thoughts #ai
🔥51
Forwarded from Неискусственный интеллект (Илья Склюев)
Отечественные чат-боты превзошли американцев и китайцев... в сборе информации

Вечером среды мы внезапно поняли, что в приложениях «Алисы» и GigaChat почему-то нет простой кнопки, позволяющей отключить сбор и анализ ваших диалогов. Хотя у ChatGPT и DeepSeek настройка находится в пару кликов.

Оказывается, всё это не просто так. Отечественные компании ведут активный сбор данных, но используют их по-разному:

1️⃣ «Алиса» анализирует ваши «отдельные голосовые и текстовые сообщения» по умолчанию

Нам казалось, что отключить настройку можно через «Яндекс ID». Но в компании пояснили, что кнопка «Помогать Алисе стать лучше» действует только для умных устройств.

В сервисном соглашении «Алисы AI» в разделе про данные пользователя говорят, что «Правообладателю передается следующая информация: идентификатор Пользователя, Запросы, ответы на Запросы Пользователя, иная информация, предоставляемая и собираемая посредством пользовательского интерфейса Сервиса».

Используют их, конечно же, «в целях совершенствования в целях проведения анализа, развития и совершенствования Сервиса и его отдельных функций». А ещё для рекламы:

«Персональная информация Пользователя обрабатывается в целях предоставления функциональности Сервиса, в том числе для отображения контента, потенциально наиболее интересного Пользователю».

Не очень понимаем, как с такими условиями пользоваться агентскими фичами «Алисы». Если любая информация, попавшая в поле зрения бота, будет уходить для отображения интересного контента.


2️⃣ «Сбер» получает всё, но делать с этим ничего не будет (пока)

Пользуясь GigaChat, пользователь «предоставляет SDevices и Правообладателю право использования Контента Клиента <...> любыми способами, не противоречащими действующему законодательству, в том числе, указанными в п. 2 ст. 1270 Гражданского кодекса Российской Федерации, но не ограничиваясь ими».

В
корпоративном соглашении и в версии для физлиц подчёркивают, что «SDevices и Правообладатель не используют предоставленный или загружаемый Контент в собственных целях, не связанных с предоставлением Сервиса». Формулировка размытая, но нам официально заявили, что в «Сбере» не используют запросы пользователей для обучения нейросетей.

При этом, как только вы что-то сгенерировали в GigaChat, то вы передаёте компании лицензию на использование контента следующими способами:

▪️ «воспроизведение, хранение и запись в память ЭВМ Правообладателя и его аффилированных лиц и на серверах, назначенных Правообладателем, если такое использование необходимо для целей предоставления Сервиса»

▪️ «использование с предварительного согласия Клиента в маркетинговых и информационных материалах Правообладателя, направленных на привлечение внимание к Сервису или информирование о возможностях Сервиса неопределенного круга лиц».

Так что всё содержимое вашего диалога прекрасно видно компании. А условия использования в дальнейшем ещё могут поменяться.

@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣14👍5💊2
Свежие результаты Stack Overflow Developer Survey 2025, более 49 тысяч участников из 166 стран. Там много самых разных тем и отдельным блоком идёт все что касается ИИ и любопытного там немало.

Вот некоторые факты:
- Около 80 %+ разработчиков используют или планируют использовать ИИ-инструменты в своей работе.
- Однако лишь ~33 % доверяют корректности выводов этих инструментов, а ~46 % их активно не доверяют.
- Основная жалоба: «почти правильно, но не совсем» — 66 % разработчиков указали, что именно это фрустрирует.
- Например, использование Docker выросло на ~17 процентов с 2024 по 2025 — крупнейший скачок среди технологий опроса.
- Язык Python показал рост популярности: +7 процентов.
- 69 % респондентов потратили время за последний год на изучение нового языка программирования или новой техники.
- Из них 68 % используют документацию как основной ресурс обучения.
- Самые популярные ИИ ассистенты: ChatGPT (81,7 %), GitHub Copilot (67,9 %).

И ещё полезное из этого опроса в том что наличие интеграции с ИИ вообще не помогает в продаже инструментов именно разработчикам, зато очень помогает адекватная цена, хорошая документация, удобное SDK и минимум опасений в приватности и безопасности
решения.

Ещё наблюдение что разработчики чаще теперь общаются про технологии на Reddit или LinkedIn, но не в X/Twitter или Facebook. От себя замечу что и Facebook, и X превратились в такие помойки из смеси рекламы и политизированного контента что читать их просто неприятно. LinkedIn при все его кондовости даёт больше связи с сообществами.

#surveys #readings #stackoverflow
👍5
Ещё одна совсем-совсем свежая спецификация PLOON для отправки данных в ИИ агенты с максимальной экономией токенов. Экономит до 60% в сравнении с JSON и до 14.1% в сравнении с TOON. Автор написал бенчмарк показывающий что PLOON сильно экономнее других форматов. Уже прям любопытно что дальше, когда наступит момент что ИИ агенты смогут нормально употреблять бинарные данные и тогда все эти оптимизации будет очень легко заменить.

#ai #data #dataengineering #specifications
👍41
В рубрике как это устроено у них французский проект La Fabrique Numérique du Passé (Цифровая история прошлого) включает 199 научных наборов данных, 32 лаборатории и 14 проектов посвященных истории, в первую очередь Франции и немного по другим странам. Включает атласы и планы застройки ряда европейских городов, иные исторические данные и инструменты визуализации данных на картах и в виде графиков.

Создан в рамках проекта PARCEDES Французской академии наук (ANR) который направлен на изучение организации и эволюции аграрных земельных или полевых границ от протоистории до наших дней.

#opendata #france #history #humanities
👍4