Ivan Begtin
9.07K subscribers
2.55K photos
5 videos
114 files
5.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В качестве регулярных напоминаний, большое количество открытого кода который я лично создавал и поддерживаю:
- iterabledata библиотека для Python по работе с любыми файлами с записями с помощью прямого их перебора и возвращением каждой записи как словаря (dict). Фактически реализация интерфейсов csv.DictReader и csv.DictWriter для десятков форматов файлов таких как JSON, JSON lines, XML, Parquet, ORC и множества более специфических и отраслевых таких как PCAP, WARC и др.
- internacia-db референсная база данных с базовыми данными по странам и по страновым блокам. Распространяется в форматах JSONL, Parquet, DuckDB, YAML. Полезно для задач обогащения данных, поиска и фильтрации результатов в территориальной привязке, сравнении стран и территориальных блоков.
- undatum это инструмент командной строки для работы с файлами со сложной иерархией так как работают с CSV файлами. Он умеет считать статистику, преобразовывать файлы, анализировать их, разрезать на части и тд. Внутри используется библиотека iterabledata и большое число форматов файлов поддерживаются
- metacrafter библиотека для Python и инструмент командной строки для работы с семантическими типами данных, используется для выявления персональных идентификаторов и иных объектов (кодов организаций, кадастровых и почтовых кодов и так далее)

А также много другого открытого кода о котором я регулярно тут пишу.

#opensource #data #dataengineering #datatools
👍15
MiroThinker Хорошая открытая альтернатива многим функциям Manus'а и этапам планирования для ИИ ассистентом для программирования.

По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.

Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью

И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.

Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.

Ну и открытый код - это всегда плюс

#coding #ai #aiagents #opensource
👏422👍2
Мы забаним вас и высмеем публично, если вы потратите наше время на всякую ерунду. (c)

Если вы ещё не видели, политика работы с заявками отчетами по безопасности от команды инструмента выгрузки файлов curl

Чувствуется что многих уже достал поток малоценных сообщений от LLM-ботов в адрес проектов с открытым кодом.

Можно футболку такую завести: "Спроси меня о ерунде чтобы я тебя высмеял и забанил". Или это совсем по снобски?😂

#opensource
👍10💯6🔥5😁31🤔1
В DuckDB добавили поддержку формата Vortex, это такой специальный формат хранения данных который разработали в компании SpiralDB и передали в Linux Foundation в августе 2025 г.Это такой специально оптимизированный формат хранения данных который может быть компактнее и быстрее Parquet.

Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).

Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.

#opensource #data #datatools #dataengineering
🔥10👍5😱1
TLDR
- Microsoft попались на передачи ключей шифрования Bitlocker пользователей хранимых в облаке
- это и так было очевидно что Bitlocker'ом пользоваться было нельзя
- вот посмотрите какие есть альтернативы

А теперь подробнее

Оказывается (неожиданно) Microsoft передавали неоднократно ключи шифрования дисков пользователей ФБР, можно прочитать в свежей статье в Forbes где рассказывается про дело Гуама в котором ФБР запросило у Microsoft ключи шифровая Bitlocker, сервиса в Windows отвечающего за шифрование, и компания предоставила эти ключи.

Почему она это сделала? Потому что ключи хранились в облаке, потому что Microsoft соблюдают требования спецслужб как минимум в США.

Что тут скажешь? Эта новость только в том что этот факт получил подтверждение, а в остальном совсем не новость, использование проприетарного шифрования - это плохая практика во всех отношениях.

Настоящие параноики:
1. Не используют Windows (и продукты Apple тоже)
2. Не используют Bitlocker
3. При обострениях используют аналоговые инструменты

Я уже давно ненастоящий параноик от острой паранойи слегка отошёл и использую сложную комбинацию устройств с Ubuntu, MacOS и Windows и руководствуюсь простыми правилами:
1. Все чувствительные файлы необходимо держать на зашифрованных носителях/контейнерах. Это правило того же типа как чистить зубы, умываться по утрам и так далее.
2. Управление рисками в отношении чувствительной информации необходимо оценивать собственные риски. Кроме интереса спецслужб который однозначно есть не ко всем, есть ещё и хакеры, корпоративный шпионаж, воровство устройств, их потеря и тд. Лично у меня потенциальный взлом и потеря стоят на первом месте
3. Выбирая способы защиты данных всегда вначале идут решения с открытым кодом и только далее все остальное. В решениях с открытым кодом управление рисками начинается со зрелости инструмента, размере команды, юрисдикции и тд.
4. Не менее 3-х копий в разных местах, физически или в облаках.
5. Не использовать архиваторы как контейнеры без необходимости. Например, лучше не использовать ZIP или RAR архивы. Хотя шифрование в WinZip дает относительно неплохую защиту (зависит от пароля), но базовый алгоритм шифрования ZipCrypto который использовался изначально имеет довольно слабую защиту. RAR проприетарен как и большая часть других популярных архиваторов

Что использовать вместо того же Bitlocker'а?
- Veracrypt как продукт наследник TrueCrypt. Открытый код, зрелый продукт под все популярные ОС. Главный недостаток - сейчас у него только один майнтейнер
- LUKS система шифрования для Linux, есть инструменты для монтирования дисков на MacOS и Windows под WSL2
- gocryptfs также шифрование дисков с открытым кодом и под Linux, скорее всего можно монтировать к MacOS и в Windows WSL2

#cryptography #microsoft #opensource #security
11🤔53🔥3👍1🌚1💯1🤣1
Полезные ссылки про данные, технологии и не только:
- Agent Psychosis: Are We Going Insane? автор рассуждает о том наступил ли уже агентский психоз у разработчиков или ещё нет и на что это влияет. Короткий ответ - да, наступил. Что дальше то? Агенты психиатры? Не помогут;)
- I Made Zig Compute 33 Million Satellite Positions in 3 Seconds. No GPU Required. автор решил достаточно ресурсоемкую задачу астрометрии с помощью связки Python + Zig, сравнил с реализацией на Rust и пишет про лучшую производительность у Zig. С одной стороны ожидаемый результат, с другой критерий производительности далеко не единственный и доступность разработчиков на рынке имеет значение.
- RzWeb онлайн инструмент для реверс инжениринга (анализа работы и содержания файлов программ) написанный на WebAssembly. В последние годы я так редко сталкиваюсь с задачами копания в исполняемых файлах (потому что от рынка инфобеза уже давно далек), но такие инструменты люблю
- OpenWork аналог Claude Work на базе открытого кода OpenCode. Сам продукт тоже с открытым кодом. Для не-разработчиков может быть удобным инструментом, правда для задач deep research я, всё же, применял бы MiroThinker (доступен не во всех юрисдикциях).

#opensource #tools #ai #aiagents
👍5
Я, кстати, пропустил эту новость, а оказывается в конце ноября 2025 г. проект языка Zig полностью мигрировал с Github на Codeberg и теперь именно там его исходный код, задачи, команда разработки и тд. Для тех кто не слышал о нем Codeberg - это некоммерческая открытая платформа для хостинга открытого кода созданная на базе Forgejo открытой.и бесплатной альтернативе Github, Gitlab, Gitea для самостоятельнрого создания системы контроля кода поверх Git.

Особенность Codeberg в четких правилах, явно обозначенным акцентом на FOSS и при этом достаточная зрелость для практического использования.

Почему новость про Zig важна? У одного только репозитория Zig'а на Github'е было 42.7 тысяч подписчиков, а после миграции на Codeberg их почти сразу стало 3.1 тысяча подписчиков на их платформе.
Что с одной стороны в 14 раз меньше, а с другой стороны на Codefberg'е Zig теперь на втором месте.

Если почитать почему автор Zig'а Andrew Kelley мигрировал с Github'а то он пишет про нежелание оказаться в ситуации vendor lock-in и того что Github стал портиться, в частности, в отношении Github Actions и конфликта между политикой Zig Strict No LLM/AI Policy и толерантностью команды Github'а к потокам автосгенерированных PR и Issues.

С одной стороны миграция Zig'а на Codeberg - это не массовая миграция, а с другой если Евросоюз реально войдет в торговый клинч с США, то я бы предполагал миграцию с Github'а (и Gitlab'а) всего государственного кода и кода получающего грантовое финанасирование ЕС как минимум.

Это не Бог весть какое хтоническое изменение, на фоне остальных международных событий, но все же важное для ИТ если оно произойдет.

#opensource #europe #github #codeberg #zig
6🤔52
SiriusDB специальный движок расширяющий инструменты работы с базами данных и ускоряющий выборки из баз данных используя GPU. Реализован в виде расширения для DuckDB и занимает первую позицию в оценке по Hot run в рейтинге ClickBench.

Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.

Требует для работы процессор NVIDIA и установленный CUDA.

Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.

#opensource #datatools
5👍4🤔1