В качестве регулярных напоминаний, большое количество открытого кода который я лично создавал и поддерживаю:
- iterabledata библиотека для Python по работе с любыми файлами с записями с помощью прямого их перебора и возвращением каждой записи как словаря (dict). Фактически реализация интерфейсов csv.DictReader и csv.DictWriter для десятков форматов файлов таких как JSON, JSON lines, XML, Parquet, ORC и множества более специфических и отраслевых таких как PCAP, WARC и др.
- internacia-db референсная база данных с базовыми данными по странам и по страновым блокам. Распространяется в форматах JSONL, Parquet, DuckDB, YAML. Полезно для задач обогащения данных, поиска и фильтрации результатов в территориальной привязке, сравнении стран и территориальных блоков.
- undatum это инструмент командной строки для работы с файлами со сложной иерархией так как работают с CSV файлами. Он умеет считать статистику, преобразовывать файлы, анализировать их, разрезать на части и тд. Внутри используется библиотека iterabledata и большое число форматов файлов поддерживаются
- metacrafter библиотека для Python и инструмент командной строки для работы с семантическими типами данных, используется для выявления персональных идентификаторов и иных объектов (кодов организаций, кадастровых и почтовых кодов и так далее)
А также много другого открытого кода о котором я регулярно тут пишу.
#opensource #data #dataengineering #datatools
- iterabledata библиотека для Python по работе с любыми файлами с записями с помощью прямого их перебора и возвращением каждой записи как словаря (dict). Фактически реализация интерфейсов csv.DictReader и csv.DictWriter для десятков форматов файлов таких как JSON, JSON lines, XML, Parquet, ORC и множества более специфических и отраслевых таких как PCAP, WARC и др.
- internacia-db референсная база данных с базовыми данными по странам и по страновым блокам. Распространяется в форматах JSONL, Parquet, DuckDB, YAML. Полезно для задач обогащения данных, поиска и фильтрации результатов в территориальной привязке, сравнении стран и территориальных блоков.
- undatum это инструмент командной строки для работы с файлами со сложной иерархией так как работают с CSV файлами. Он умеет считать статистику, преобразовывать файлы, анализировать их, разрезать на части и тд. Внутри используется библиотека iterabledata и большое число форматов файлов поддерживаются
- metacrafter библиотека для Python и инструмент командной строки для работы с семантическими типами данных, используется для выявления персональных идентификаторов и иных объектов (кодов организаций, кадастровых и почтовых кодов и так далее)
А также много другого открытого кода о котором я регулярно тут пишу.
#opensource #data #dataengineering #datatools
GitHub
GitHub - datenoio/iterabledata: Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet,…
Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata
👍15
MiroThinker Хорошая открытая альтернатива многим функциям Manus'а и этапам планирования для ИИ ассистентом для программирования.
По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.
Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью
—
И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.
Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.
Ну и открытый код - это всегда плюс
#coding #ai #aiagents #opensource
По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.
Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью
—
И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.
Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.
Ну и открытый код - это всегда плюс
#coding #ai #aiagents #opensource
👏4⚡2❤2👍2
Мы забаним вас и высмеем публично, если вы потратите наше время на всякую ерунду. (c)
Если вы ещё не видели, политика работы с заявками отчетами по безопасности от команды инструмента выгрузки файлов curl
Чувствуется что многих уже достал поток малоценных сообщений от LLM-ботов в адрес проектов с открытым кодом.
Можно футболку такую завести: "Спроси меня о ерунде чтобы я тебя высмеял и забанил". Или это совсем по снобски?😂
#opensource
Если вы ещё не видели, политика работы с заявками отчетами по безопасности от команды инструмента выгрузки файлов curl
Чувствуется что многих уже достал поток малоценных сообщений от LLM-ботов в адрес проектов с открытым кодом.
Можно футболку такую завести: "Спроси меня о ерунде чтобы я тебя высмеял и забанил". Или это совсем по снобски?😂
#opensource
👍10💯6🔥5😁3✍1🤔1
В DuckDB добавили поддержку формата Vortex, это такой специальный формат хранения данных который разработали в компании SpiralDB и передали в Linux Foundation в августе 2025 г.Это такой специально оптимизированный формат хранения данных который может быть компактнее и быстрее Parquet.
Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).
Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.
#opensource #data #datatools #dataengineering
Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).
Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.
#opensource #data #datatools #dataengineering
🔥10👍5😱1
TLDR
- Microsoft попались на передачи ключей шифрования Bitlocker пользователей хранимых в облаке
- это и так было очевидно что Bitlocker'ом пользоваться было нельзя
- вот посмотрите какие есть альтернативы
А теперь подробнее
Оказывается (неожиданно) Microsoft передавали неоднократно ключи шифрования дисков пользователей ФБР, можно прочитать в свежей статье в Forbes где рассказывается про дело Гуама в котором ФБР запросило у Microsoft ключи шифровая Bitlocker, сервиса в Windows отвечающего за шифрование, и компания предоставила эти ключи.
Почему она это сделала? Потому что ключи хранились в облаке, потому что Microsoft соблюдают требования спецслужб как минимум в США.
Что тут скажешь? Эта новость только в том что этот факт получил подтверждение, а в остальном совсем не новость, использование проприетарного шифрования - это плохая практика во всех отношениях.
Настоящие параноики:
1. Не используют Windows (и продукты Apple тоже)
2. Не используют Bitlocker
3. При обострениях используют аналоговые инструменты
Я уже давноненастоящий параноик от острой паранойи слегка отошёл и использую сложную комбинацию устройств с Ubuntu, MacOS и Windows и руководствуюсь простыми правилами:
1. Все чувствительные файлы необходимо держать на зашифрованных носителях/контейнерах. Это правило того же типа как чистить зубы, умываться по утрам и так далее.
2. Управление рисками в отношении чувствительной информации необходимо оценивать собственные риски. Кроме интереса спецслужб который однозначно есть не ко всем, есть ещё и хакеры, корпоративный шпионаж, воровство устройств, их потеря и тд. Лично у меня потенциальный взлом и потеря стоят на первом месте
3. Выбирая способы защиты данных всегда вначале идут решения с открытым кодом и только далее все остальное. В решениях с открытым кодом управление рисками начинается со зрелости инструмента, размере команды, юрисдикции и тд.
4. Не менее 3-х копий в разных местах, физически или в облаках.
5. Не использовать архиваторы как контейнеры без необходимости. Например, лучше не использовать ZIP или RAR архивы. Хотя шифрование в WinZip дает относительно неплохую защиту (зависит от пароля), но базовый алгоритм шифрования ZipCrypto который использовался изначально имеет довольно слабую защиту. RAR проприетарен как и большая часть других популярных архиваторов
Что использовать вместо того же Bitlocker'а?
- Veracrypt как продукт наследник TrueCrypt. Открытый код, зрелый продукт под все популярные ОС. Главный недостаток - сейчас у него только один майнтейнер
- LUKS система шифрования для Linux, есть инструменты для монтирования дисков на MacOS и Windows под WSL2
- gocryptfs также шифрование дисков с открытым кодом и под Linux, скорее всего можно монтировать к MacOS и в Windows WSL2
#cryptography #microsoft #opensource #security
- Microsoft попались на передачи ключей шифрования Bitlocker пользователей хранимых в облаке
- это и так было очевидно что Bitlocker'ом пользоваться было нельзя
- вот посмотрите какие есть альтернативы
А теперь подробнее
Оказывается (неожиданно) Microsoft передавали неоднократно ключи шифрования дисков пользователей ФБР, можно прочитать в свежей статье в Forbes где рассказывается про дело Гуама в котором ФБР запросило у Microsoft ключи шифровая Bitlocker, сервиса в Windows отвечающего за шифрование, и компания предоставила эти ключи.
Почему она это сделала? Потому что ключи хранились в облаке, потому что Microsoft соблюдают требования спецслужб как минимум в США.
Что тут скажешь? Эта новость только в том что этот факт получил подтверждение, а в остальном совсем не новость, использование проприетарного шифрования - это плохая практика во всех отношениях.
Настоящие параноики:
1. Не используют Windows (и продукты Apple тоже)
2. Не используют Bitlocker
3. При обострениях используют аналоговые инструменты
Я уже давно
1. Все чувствительные файлы необходимо держать на зашифрованных носителях/контейнерах. Это правило того же типа как чистить зубы, умываться по утрам и так далее.
2. Управление рисками в отношении чувствительной информации необходимо оценивать собственные риски. Кроме интереса спецслужб который однозначно есть не ко всем, есть ещё и хакеры, корпоративный шпионаж, воровство устройств, их потеря и тд. Лично у меня потенциальный взлом и потеря стоят на первом месте
3. Выбирая способы защиты данных всегда вначале идут решения с открытым кодом и только далее все остальное. В решениях с открытым кодом управление рисками начинается со зрелости инструмента, размере команды, юрисдикции и тд.
4. Не менее 3-х копий в разных местах, физически или в облаках.
5. Не использовать архиваторы как контейнеры без необходимости. Например, лучше не использовать ZIP или RAR архивы. Хотя шифрование в WinZip дает относительно неплохую защиту (зависит от пароля), но базовый алгоритм шифрования ZipCrypto который использовался изначально имеет довольно слабую защиту. RAR проприетарен как и большая часть других популярных архиваторов
Что использовать вместо того же Bitlocker'а?
- Veracrypt как продукт наследник TrueCrypt. Открытый код, зрелый продукт под все популярные ОС. Главный недостаток - сейчас у него только один майнтейнер
- LUKS система шифрования для Linux, есть инструменты для монтирования дисков на MacOS и Windows под WSL2
- gocryptfs также шифрование дисков с открытым кодом и под Linux, скорее всего можно монтировать к MacOS и в Windows WSL2
#cryptography #microsoft #opensource #security
Forbes
Microsoft Gave FBI Keys To Unlock Encrypted Data, Exposing Major Privacy Flaw
The tech giant said providing encryption keys was a standard response to a court order. But companies like Apple and Meta set up their systems so such a privacy violation isn’t possible.
✍11🤔5❤3🔥3👍1🌚1💯1🤣1
Полезные ссылки про данные, технологии и не только:
- Agent Psychosis: Are We Going Insane? автор рассуждает о том наступил ли уже агентский психоз у разработчиков или ещё нет и на что это влияет. Короткий ответ - да, наступил. Что дальше то? Агенты психиатры? Не помогут;)
- I Made Zig Compute 33 Million Satellite Positions in 3 Seconds. No GPU Required. автор решил достаточно ресурсоемкую задачу астрометрии с помощью связки Python + Zig, сравнил с реализацией на Rust и пишет про лучшую производительность у Zig. С одной стороны ожидаемый результат, с другой критерий производительности далеко не единственный и доступность разработчиков на рынке имеет значение.
- RzWeb онлайн инструмент для реверс инжениринга (анализа работы и содержания файлов программ) написанный на WebAssembly. В последние годы я так редко сталкиваюсь с задачами копания в исполняемых файлах (потому что от рынка инфобеза уже давно далек), но такие инструменты люблю
- OpenWork аналог Claude Work на базе открытого кода OpenCode. Сам продукт тоже с открытым кодом. Для не-разработчиков может быть удобным инструментом, правда для задач deep research я, всё же, применял бы MiroThinker (доступен не во всех юрисдикциях).
#opensource #tools #ai #aiagents
- Agent Psychosis: Are We Going Insane? автор рассуждает о том наступил ли уже агентский психоз у разработчиков или ещё нет и на что это влияет. Короткий ответ - да, наступил. Что дальше то? Агенты психиатры? Не помогут;)
- I Made Zig Compute 33 Million Satellite Positions in 3 Seconds. No GPU Required. автор решил достаточно ресурсоемкую задачу астрометрии с помощью связки Python + Zig, сравнил с реализацией на Rust и пишет про лучшую производительность у Zig. С одной стороны ожидаемый результат, с другой критерий производительности далеко не единственный и доступность разработчиков на рынке имеет значение.
- RzWeb онлайн инструмент для реверс инжениринга (анализа работы и содержания файлов программ) написанный на WebAssembly. В последние годы я так редко сталкиваюсь с задачами копания в исполняемых файлах (потому что от рынка инфобеза уже давно далек), но такие инструменты люблю
- OpenWork аналог Claude Work на базе открытого кода OpenCode. Сам продукт тоже с открытым кодом. Для не-разработчиков может быть удобным инструментом, правда для задач deep research я, всё же, применял бы MiroThinker (доступен не во всех юрисдикциях).
#opensource #tools #ai #aiagents
Armin Ronacher's Thoughts and Writings
Agent Psychosis: Are We Going Insane?
What’s going on with the AI builder community right now?
👍5
Я, кстати, пропустил эту новость, а оказывается в конце ноября 2025 г. проект языка Zig полностью мигрировал с Github на Codeberg и теперь именно там его исходный код, задачи, команда разработки и тд. Для тех кто не слышал о нем Codeberg - это некоммерческая открытая платформа для хостинга открытого кода созданная на базе Forgejo открытой.и бесплатной альтернативе Github, Gitlab, Gitea для самостоятельнрого создания системы контроля кода поверх Git.
Особенность Codeberg в четких правилах, явно обозначенным акцентом на FOSS и при этом достаточная зрелость для практического использования.
Почему новость про Zig важна? У одного только репозитория Zig'а на Github'е было 42.7 тысяч подписчиков, а после миграции на Codeberg их почти сразу стало 3.1 тысяча подписчиков на их платформе.
Что с одной стороны в 14 раз меньше, а с другой стороны на Codefberg'е Zig теперь на втором месте.
Если почитать почему автор Zig'а Andrew Kelley мигрировал с Github'а то он пишет про нежелание оказаться в ситуации vendor lock-in и того что Github стал портиться, в частности, в отношении Github Actions и конфликта между политикой Zig Strict No LLM/AI Policy и толерантностью команды Github'а к потокам автосгенерированных PR и Issues.
С одной стороны миграция Zig'а на Codeberg - это не массовая миграция, а с другой если Евросоюз реально войдет в торговый клинч с США, то я бы предполагал миграцию с Github'а (и Gitlab'а) всего государственного кода и кода получающего грантовое финанасирование ЕС как минимум.
Это не Бог весть какое хтоническое изменение, на фоне остальных международных событий, но все же важное для ИТ если оно произойдет.
#opensource #europe #github #codeberg #zig
Особенность Codeberg в четких правилах, явно обозначенным акцентом на FOSS и при этом достаточная зрелость для практического использования.
Почему новость про Zig важна? У одного только репозитория Zig'а на Github'е было 42.7 тысяч подписчиков, а после миграции на Codeberg их почти сразу стало 3.1 тысяча подписчиков на их платформе.
Что с одной стороны в 14 раз меньше, а с другой стороны на Codefberg'е Zig теперь на втором месте.
Если почитать почему автор Zig'а Andrew Kelley мигрировал с Github'а то он пишет про нежелание оказаться в ситуации vendor lock-in и того что Github стал портиться, в частности, в отношении Github Actions и конфликта между политикой Zig Strict No LLM/AI Policy и толерантностью команды Github'а к потокам автосгенерированных PR и Issues.
С одной стороны миграция Zig'а на Codeberg - это не массовая миграция, а с другой если Евросоюз реально войдет в торговый клинч с США, то я бы предполагал миграцию с Github'а (и Gitlab'а) всего государственного кода и кода получающего грантовое финанасирование ЕС как минимум.
Это не Бог весть какое хтоническое изменение, на фоне остальных международных событий, но все же важное для ИТ если оно произойдет.
#opensource #europe #github #codeberg #zig
forgejo.org
Forgejo – Beyond coding. We forge.
Forgejo is a self-hosted lightweight software forge. Easy to install and low maintenance, it just does the job.
❤6🤔5✍2
SiriusDB специальный движок расширяющий инструменты работы с базами данных и ускоряющий выборки из баз данных используя GPU. Реализован в виде расширения для DuckDB и занимает первую позицию в оценке по Hot run в рейтинге ClickBench.
Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.
Требует для работы процессор NVIDIA и установленный CUDA.
Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.
#opensource #datatools
Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.
Требует для работы процессор NVIDIA и установленный CUDA.
Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.
#opensource #datatools
❤5👍4🤔1