Ivan Begtin – Telegram

Ivan Begtin

9.07K subscribers

2.56K photos

5 videos

114 files

5.34K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.07K subscribers

Про разговоры про мошенников которые звонят пользователям, в американских интернетах подсмотрел как делает сервис Robinhood. Они просто... никогда не звонят пользователям. Вообще никогда.

Покажите мне банк или интернет провайдера который явно задекларирует и будет соблюдать что он не будет мне звонить и я буду пользоваться именно им. Напишите это явно в своей рекламе "Мы никогда не звоним", не присылаем рекламу по умолчанию и всё что я смогу сказать "заткнись и просто бери мои деньги". Потому что то во что сейчас предлагают ~~грёбанные олигополии~~ цифровые чемпионы - это то что на тебя вываливают кучу рекламы если ты пользуешься чем-то бесплатно и ещё больше если ты хоть за что-то платишь. А если ты ещё и за что-то платишь и у них есть твой телефон, так ещё и будут звонить.

А ведь просто. Не надо. Звонить. Никогда

P.S. А если какой-то сервис ещё и звонит роботом, то сразу в черный список.

#privacy #thoughts

1❤21💯10🤝4🔥2

1.31K viewsIvan Begtin, edited 14:14

В качестве регулярных напоминаний, всяческий полезный [и бесполезный] код утилит для командной строки которые я когда-то делал и иногда продолжаю развивать когда это необходимо для работы,
например, для Dateno. Лично я испытываю глубокую привязанность к работе в командной строке отсюда и все эти инструменты:

- undatum - многофункциональная утилита для обработки данных изначально в формате JSON lines, делалась как xsv для JSON/JSON lines, я её лично активно и везде применяю.
- docx2csv - утилита по извлечению таблиц из файлов MS Word (.docx), настолько простая что надо её с чем-то объединить
- mongo2md - инструмент автоматизации документирования коллекций в MongoDB было полезно когда MongoDB была в основе технологического стека разных проектов, сейчас скорее буду переводить в статус легаси, но полезно как пример автодокументирования.
- metawarc утилита по извлечению метаданных из файлов WARC, умеет собирать данные из pdf, doc, docx, pdf, png, jpg, xls, xlsx и других файлов документов и изображений. Полезна для разного рода OSINT задач и для автоматизированного анализа WARC файлов
- apibackuper утилита для сбора данных из API через декларативно заданные правила. Использую её повсеместно и всё время хочу переписать чтобы вместо cfg файлов использовать yaml/toml, заменить zip контейнеры на базу duckdb и в целом сделать удобнее. Но и так работает
- wparc архиватор API и данных из Wordpress и файлов заодно. Одна из утилит для архивации сайтов для RuArxive
- lazyscraper скрейпер сайтов для лентяев, когда хочется извлечь данные минимальными усилиями и без программирования. Я её чуть-чуть не доделал чтобы даже xpath не использовать, но в остальном вполне рабочий инструмент
- metacrafter мой любимый инструмент идентификации структуры таблиц в файлах и таблицах с данными. Надо объединить с undatum её конечно же
- apicrafter утилита по быстрому созданию API поверх коллекций в MongoDB. Когда-то использовалась в проектах где основной стек был на MongoDB, сейчас всё по другому я бы делал

#opensource #data #datatools

❤5

1.38K viewsIvan Begtin, edited 15:55

Свежий доклад от Microsoft - AI Diffusion Report: Where AI is most used, developed and built

Там текст на 24 страницы, читается быстро, вот ключевые факты и выводы.

- Глобальное среднее значение по AI User Share составляет примерно 15% трудоспособного населения.
- Лидеры по доле пользователей ИИ:
* ОАЭ ~59.4%
* Сингапур ~58.6%
* Другие страны-лидеры: Норвегия, Ирландия, Франция и др.
- Региональные различия:
* Северная Америка: ~27%
* Европа и Центральная Азия: ~22%
* Южная Азия и Субсахарская Африка: менее ~13%
- Сильная корреляция между уровнем внедрения ИИ и ВВП на душу населения: коэффициент Спирмена ~0.83, p-значение < 0.000001.
- При анализе населения, имеющего доступ к интернету («connected population»), выяснилось: даже в странах с низким общим проникновением интернета пользователи, подключенные к сети, часто уже активно пользуются ИИ. Например:
* В Замбии: общая доля ~12%, но среди подключенных ~34%.
* В Пакистане: с ~10% до ~33%.
- Запуск продукта DeepSeek (январь 2025) привёл к резкому росту доли пользователей ИИ в Китае: с ~8% до ~20%.
- Основные барьеры для широкого распространения ИИ:
* Доступ к электроэнергии
* Подключение к интернету
* Цифровые навыки
* Языковые ресурсы и локализация
- более 1 миллиарда человек уже использовали ИИ-инструменты за менее чем три года» — что делает ИИ самой быстро внедряемой технологией в истории.

А также немного дополнительных фактов не столь явно упомянутых в тексте:

- Россия в докладе никак не упоминается, только присутствует на некоторых графиках
- Из постсоветских стран наименее низкое проникновение ИИ в Таджикистане, Туркменистане, Узбекистане и, как ни странно, в Армении.
- Почти всё строительство AI инфраструктуры сосредоточено в США и Китае
- Лидеры по разработки AI моделей: США, Китай, Южная Корея, Франция, Великобритания, Канада и Израиль

#ai #readings #microsoft

1👍6❤2😐1

3.83K viewsIvan Begtin, 07:33

Полезные ссылки про данные, технологии и не только:
- New updates and more access to Google Earth AI команда Google Earth AI рассказывает о Geospatial Reasoning подходе при котором не просто определяют место удара шторма, но и предсказывают каким сообществам достанется более других
- Building Capacityfor Data Access,Analysis + Accountability доклад Columbia World Projects о развитии открытого доступа. Полезный для понимания того какие инвестиции сейчас направляются в сторону открытости инфраструктуры доступа к данным для исследователей
- Deta Surf цифровая записная книжка с AI внутри для помощи студентам в учёбе, с открытым кодом и ориентированной на самостоятельное изучение материалов с помощью AI
- oxdraw инструмент с открытым кодом для создания диаграмм, из полезных фич в том что он построен на отображении диаграммы по декларативному описанию, но позволяет автоматически создавать это декларативное описание через интерактивный инструмент. Мне очень нравится подход даже если сам инструмент ещё только-только появился
- How We Saved $500,000 Per Year by Rolling Our Own “S3” инженеры из Nanit пишут о том как сделали упрощенный аналог AWS S3 и сэкономили уйму денег. Как я их понимаю, вокруг S3 уже целая индустрия выстроилась помогателей экономить на их инфраструктуре, но заменить их на что-то свое может быть более оптимальным решением

#ai #tools #opensource #readings

❤5

1.36K viewsIvan Begtin, edited 11:59

Я на днях также решил проверить на практике ~~вайб-кодирование~~ применение ИИ в разработке и с помощью Cursor обновил и выпустил новую версию iterabledata библиотеки для Python с помощью которой можно можно одинаковым образом читать файлы csv, json, bson, parquet, xls, xlsx и xml так что ты перебираешь объекты возвращается как Python dict. Для тех кто пользовался csv.DictReader или библиотекой jsonlines это должно быть очень понятно.

Я эту библиотеку когда-то делал как ядро для утилит metacrafter и undatum с помощью которой с их помощью можно было анализировать условно любые файлы с данными сжатыми чем-угодно.

В этом собственно отчасти и есть задумка. Наборы данных часто распространяются сжатыми Gzip, Bzip2, LZMA, Brotli или Zstandard, а инструменты для датафреймов или движки вроде duckdb имеют ограничения на поддержку форматов. Также часто данные имеют не utf8 кодировку и вообще удобнее работать в унифицированном интерфейсе.

Так что я написал унифицированные интерфейсы для кодеков сжатия и для типов данных. Заодно написал пример того как преобразовать дампы Википедии из сжатого XML в JSON lines.

Оговорюсь что это пример практического интрумента, то есть реально делаешь то чем пользуешься повсеместно. Для не самых высокопроизводительных задач где нужна многопоточность он весьма полезен.

А теперь с помощью Cursor'а:
- обновил документацию, переформатировал, добавил примеров
- добавил примерно +30% тестов
- исправил несколько ошибок
- проанализировал каких тестовых данных нехватает, запланировал их добавить чтобы покрыть тестами почти все кейсы

Первое что я могу сказать это то что Cursor даёт очень хорошие результаты во всех задачах написания тестов, документирования и анализа кода. Неидеально, но очень неплохо.

Второе что писать сам код я бы не доверил поскольку бывает разная сложность и архитектурная логика и ИИ агенты понимают её лишь отчасти. Я пока не понимаю когда произойдет качественный переход ИИ агентов к пониманию архитектуры программных приложений и основных принципов их построения, но это не кажется нереалистичным.

Третье, следующая эволюция ИИ агентов для разработки явно должна быть на уровне снижения сложности тех задач которые реально требуют заморочится и часто это не задачи разработки. ИИ агент может проводить "оценку разумности" создаваемого и глубже понимать стратегические цели, а не только тактические решения. Например, ИИ агент может посмотреть на код и понять что это библиотека для Python, подтянуть рекомендации для этих библиотек, проанализировать зависимости, предложить автоматизировать тестирование под разные платформы и так далее.

#ai #coding #python #datatools #opensource

GitHub - datenoio/iterabledata: Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet,…

Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata

👍13❤‍🔥1

1.21K viewsIvan Begtin, edited 11:34

Кстати, как человек любящий не только цифровые архивы, но и исторические книжки тоже не могу не упомянуть про очень интересный проект от Банка России с виртуальной выставкой по истории Банка. Мало какие центральные банки в мире делают такие проекты, так что это хорошо что такое появляется (если знаете аналогичные проекты в других странах, то напишите плз). Я знаю только Federal Reserve History в США.

Но интересность материалов и их доступность омрачает то что материалы есть, а можно ли их использовать? В основном нет.

Вот самые очевидные проблемы:
1. Нет нигде явным образом указанных условий использования материалов. Можно ли использовать их на своём сайте? Можно ли на их основе писать учебные материалы? Можно ли цитировать и тд. Понятно что у разных материалов может быть разный статус, но не надо забывать насколько это важно можно ли использовать такие материалы.
2. Просмотр материалов только на сайте - это никуда не годится. Возможность скачать исторические книжки нужна для бесконечного числа задач: внутренних библиотек университетов, таких проектов как Цифровой архив госфинансов и госуправления, возможность почитать книги оффлайн, возможность обучить на них ИИ, возможность создать наборы данных и многое другое.

Если делать хорошо, то делать до конца, не надо останавливаться на полпути.

#digitalpreservation #books #finances #digitalhumanities #openaccess

🔥9❤4👍4💯1

2.87K viewsIvan Begtin, 12:59

Ещё немного рефлексии по использованию ИИ в разработке. Конечно глядя на 2-ю версию Cursor'а есть ощущение очень большого прогресса в том что с помощью ИИ агентов можно проделать на прикладном уровне. ИИ агент(-ы) точно заменяет джуниоров, сильно помогает миддлам и полезен для более опытных разработчиков.

Например, типовые задачи которые я задаю всем ИИ моделям, при их проверке относительно кода, звучат как "Проанализируй код в этом репозитории и напиши рекомендации по повышению его производительности". Ещё полгода назад чатботы с ИИ выдавали невероятные галлюцинации, сейчас 90% выданных рекомендаций заслуживают внимания. Причем это агентское ревью кода, как правило, лучше чем делает разработчик средней квалификации. По крайней мере потенциальные утечки памяти, заведомо неэффективные конструкции в коде отслеживаются весьма легко.

Но ИИ агенты пока не достигли следующей планки, а то есть замены архитекторов ПО. А то есть ИИ может выдать что цикл и обработка в цикле в коде написаны неэффективно, но, например, не может пока проанализировать архитектуру приложения в целом и дать рекомендации в стиле "вот этот код надо переписать на Rust'е и подключить его как библиотеку" или "а вот тут есть такой редкий инструмент/библиотека если его применить то всё будет работать куда лучше" или "а вот у тебя код весь под Ubuntu написан, вот тут его надо перепроектировать и переделать и станет кроссплатформенным" и так далее.

Причём перейти к этой стадии углублённого анализа кода и архитектурных рекомендаций, похоже, не невозможно. Более того подозреваю что это вполне реалистично в течение 1-2 лет, подозреваю что с правильно наводящими вопросами можно и сейчас решать задачи автоматизации перепроектирования приложения и глубокой оптимизации, но тут надо изучать подробнее.

#ai #coding #software

👍6❤3🤩1

1.3K viewsIvan Begtin, 11:50

Свежий документ Framework on Responsible AI for Official Statistics про применение ИИ в официальной статистике от ЕЭК ООН (Европейская экономическая комиссия ООН). Практической пользы с него мало потому что он написан таким языком что если всё там написанное взять и заменить с "официальной статистики" на, например, "энергетику" или "транспорт" то мало что поменяется. Содержание документа сильно оторвано от предметной области и почти все отсылки там на базовые этические принципы внедрения AI и ML. С этой точки зрения документ не так бесполезен.

В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".

Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation

Они выглядят как более полезные с практической точки зрения.

#statistics #ai #readings

✍4❤3

1.36K viewsIvan Begtin, 09:37

Свежий документ Organizing Public Support for Open Digital Infrastructure про германское Sovereign Tech Agency (STA) и финансирование открытого кода идентифицированного как наиболее критичного для глобальной инфраструктуры. Полезный текст про "бигтехозамещение здорового человека" и теперь это важный европейский мэйнстрим по снижению цифровой зависимости от США и Китая и создание открытой цифровой инфраструктуры (open digital infrastructure).

Я, наверное, с пару десятилетий уже наблюдаю как Евросоюз занимался поддержкой открытого кода и чаще всего это выражалось в европейских научных проектах в рамках Horizon в рамках которых участники наплодили множество открытого кода из которого полезного было около 1-10%. Картинка долгое время была удручающей. А дело было в том что когда ты объявляешь конкурсы в стиле "вот есть темы по которым мы даем деньги на открытый код если вы соблюдете вот эту и эту бюрократию" то приходят грантоеды всегда и кто-то адекватный только иногда.

В этом отличие STA, в STA вначале находят те открытые проекты которые не то что бы хорошо зарабатывает и от которых реально зависит если не весь мир, то существенная его часть. А потом пытаются им всучить деньги чтобы они могли продолжать существовать не падая в неприятные зависимости, в европейском понимании - это бигтехи. И поддерживают они через программы fellowship для майнтайнеров, фонд для выдачи грантов и программы bug bounty.

Собственно в документе это хорошо рассказано в контексте создания открытой инфраструктуры. Для понимания перспективного того как эти инициативы вырастают в общеевропейские это весьма полезно.

С одной стороны это всё полезные инициативы, а с другой мэйнтенеры кода могут быть и жить и не в странах ЕС, бигтехи хотя и большие, но гораздо адаптивнее, а европейская бюрократия и юрисдикция скорее хужеет. В любом случае за инициативой полезно наблюдать, может что-то полезное там и возникнет.

#opensource #europe #readings

👍4❤3🔥3

1.09K viewsIvan Begtin, edited 14:24

Подборка ссылок про данные, технологии и не только:
- transferia инструмент для переноса данных между разными базами данных причем поддерживает не только SQL, но и выгрузку и загрузку данных в MongoDB, OpenSearch, Elasticsearch. Судя по именам разработчиков и поддержке YTSaurus создатели продукта русскоязычные. Сам продукт пока не очень популярен, но лично у меня под такое задачки есть, надо тестировать
- Affine набирающая популярность замена Notion с открытым кодом. Делает его сингапурский стартап которые создают на его базе облачный сервис с подпиской и они же распространяют версию с открытым кодом. Выглядит симпатично и лозунг у них Write, Draw, Plan. Пиши, рисуй, планируй. ПРП в общем
#opensource #data #tools

GitHub - transferia/transferia: Open Source Cloud Native Ingestion engine

Open Source Cloud Native Ingestion engine. Contribute to transferia/transferia development by creating an account on GitHub.

✍5🤝4❤2

1.14K viewsIvan Begtin, 16:56

В рубрике как это устроено у них не вполне обычный каталог открытых данных и не только Digital Public Goods Registry реестр цифрового общего блага от множества структур ООН, пр-в разных стран и международных организаций. Включает большое число продуктов с открытым кодом, открытых систем ИИ, свободного контента и открытых данных. Например, туда входят Wikipedia и Wikidata, дистрибутив Linux - SUSE, множество порталов открытых данных и наборов данных.

Продукты с открытым кодом варьируются от совершенно бесполезных сделанных когда на гранты и необновляемых с тех пор и до очень активных и обновляемых - CKAN, Typo3, TrueNAS.

Для тех проектов у которых код на Github показывают график обновлений (странно что по Gitlab ещё не научились).

Все материалы публикуются в привязке к целям устойчивого развития ООН и согласно стандарту.

Я регулярно вижу как на разных площадках многие владельцы открытых продуктов анонсируют что их добавили в этот реестр и склонен полагать что причина в том что наличие продукта там может быть дополнительным обоснованием для получения грантового финансирования их проекта/продукта.

Возвращаясь к данным - там перечислено их относительно немного, 25 дата порталов и наборов данных, что впрочем не означает что их список не расширится в будущем.

Проектов из России там нет, есть проекты из Казахстана и Армении (их код не обновлялся очень давно).

#opendata #datacatalogs #opensource

✍6🤔2❤1

1.25K viewsIvan Begtin, edited 18:08

TOON - свежий инструмент/спецификация/нотация для отправки структурированных данных LLM.

Переупаковывает JSON данные в упрощённый CSV подобный формат для отправки в запросе к LLM.

Сразу возникает запрос - зачем это нужно? И ответ в уменьшении числа токенов и экономии на использовании облачным LLM и LLM-как-сервиса.

#opensource #ai #llm #specifications

👍7⚡4❤3💊1

1.42K viewsIvan Begtin, 15:13

Полезные ссылки про данные, технологии и не только:
- A Deep Dive into DuckDB for Data Scientists о том как дата сайентистам использовать DuckDB. Если коротко, то всё довольно просто и понятно.
- ClickHouse welcomes LibreChat: Introducing the open-source Agentic Data Stack Clickhouse поглотил LibreChat, инструмент с открытым кодом для создания ИИ чатботов. Инструмент был хороший, надеюсь таким и останется.
- Hannes Mühleisen - Data Architecture Turned Upside Down отличное выступление Hannes Mühleisen про ключевые изменения в архитектуре данных последних лет. Полезно и по смыслу и по визуальному представлению хорошо
- agor: Next-gen agent orchestration for AI coding ИИ агент для управления ИИ кодированием, автор его создатель Superset и позиционирует этот проект как думай об асситентах для кодирования как о Figma. С открытым. кодом. Любопытно, но ИМХО автор плохо объясняет преимущества, как подхода, так и интерфейса.

#opensource #data #datatools #dataengineering #ai

A Deep Dive into DuckDB for Data Scientists

Discover how DuckDB simplifies data querying with zero configuration and outperforms pandas for large datasets.

✍2

1.43K viewsIvan Begtin, 10:42

Аудит безопасности Лувра выявил что пароль системы видеонаблюдения был Louvre.

Какие нынче свежие анекдоты про французов?

Вот вам один такой:

Во французской компании проводится тест на фишинг.
Письмо: «Получите бесплатное вино»
Кликают — все, включая директора по безопасности.

#security #it

😁33❤2💯2

4.64K viewsIvan Begtin, 11:17

В рубрике как это устроено у них data.harvard.edu портал данных и API Гарварда включает их портал исследовательских даных на базе Dataverse, несколько десятков документированных API, как ко внутренним информационным системам, так и для внешних пользователей.

К каждому API приложена спецификация OpenAPI, документация и примеры. Включены, в том числе, ресурсы доступные студентам и сотрудникам университета на облачных платформах AWS, Google Cloud и других.

Сам портал с API работает на базе решения APIGee которое является частью облачного решения от Google.

#openapi #API #opendata

👍11❤1

1.49K viewsIvan Begtin, 19:29

Полезные ссылки про данные, технологии и не только:
- quackstore расширение для DuckDB для кеширования облачных дата файлов, позволяет сильно ускорить выполнение запросов к облачным файлам благодаря их частичному сохранению. Полезная штука, её можно бы и сразу внутрь DuckDB ибо логично
- Catalog of Patterns of Distributed Systems для тех разработчиков кто хотят не только кодировать, но и двигаться в сторону архитектуры ПО.
- The Data Engineering Agent is now in preview Гугл запустили ИИ агента для дата инженеров внутри BigQuery, конечно же на базе Gemini. Дайте мне такой же только с открытым кодом и без инфраструктуры Google и с поддержкой всех основных инструментов и СУБД!
- Diseño del V Plan de Gobierno Abierto 2025-2029 5-й план по открытости гос-ва опубликовали власти Испании. Сейчас проходят публичные консультации и далее он будет утвержден. Открытые данные там, конечно же, присутствуют

#opendata #opensource #rdbms #datatools #dataengineering #ai

GitHub - coginiti-dev/QuackStore

Contribute to coginiti-dev/QuackStore development by creating an account on GitHub.

🔥4✍2

1.32K viewsIvan Begtin, 13:10

В рубрике как это устроено у них относительно новый каталог данных The Counter Trafficking Data Collaborative от международной организации по миграции (IOM) с 507 наборами данных охватывающим 197 стран

Особенность - большие синтетические наборы данных с микроданными по жертвам.

#opendata #datacatalogs

✍1⚡1👍1

1.27K viewsIvan Begtin, 13:36