Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе, ~~охранниками с дубинками~~ и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных

#readings #ai #opensource

www.nerd-lang.org

Story - NERD

Why NERD exists. The story of an LLM-native language.

❤6✍2❤‍🔥1👌1

1.44K viewsIvan Begtin, 11:18

Ivan Begtin

Я ещё помню времена когда искусством в софтверной разработке было создание приложений работающих быстро и занимающих мало физической и оперативной памяти и писать небольшие приложения было прямо таки непросто, были десятки самых разных архиваторов для запускаемых файлов, а многие функции специально переписывались на ассемблере чтобы не зависеть от стандартных библиотек.

Тем более забавно наблюдать как некоторые разработчики пишут с помощью LLM'ок приложения в той же идеологии. Например, браузер для Википедии в 100kb для Linux использующий только вызовы syscalls. Его разработчик пишет что почти весь код написал с помощью GPT-5.2.

Казалось бы почему бы некоторым разработчикам особо распухших приложений не применить LLM для их оптимизации, но будем честными некоторые приложения проще написать с нуля чем переделать и даже с помощью LLM создание приложений с минимальным футпринтом остается нетривиальной задачей.

#curiosities #dev #opensource

👍17🔥4🤔4

1.36K viewsIvan Begtin, 05:52

Ivan Begtin

Я неоднократно писал про такой продукт с открытым кодом OpenRefine, он малоизвестен в дата инженерной и корпоративно аналитической среде, но хорошо известен многим журналистам расследователям, аналитикам работающим над публикацией данных, всем кто работает в среде с интеграциями в Википедией и Викидатой и многим цифровым библиотекарям, архивистам и тд.

OpenRefine изначально вырос из проекта Google Refine который, в свою очередь, разрабатывался внутри проекта FreeBase который после поглощения Google превратился в Google Knowledge Graph.

OpenRefine позволяет вручную и полувручную, с использованием языка GREL (General Refine Expression Language) или кода на Jython через веб интерфейс чистить табличные наборы данных и сохранять их в CSV и я ряде других форматов. Никакого SQL, сложного кода, зато бесконечный цикл Undo/Redo.

Можно сказать что OpenRefine - это инструмент подготовки данных выросший из экосистемы управления знаниями. Явление он довольно редкое, и сам продукт довольно интересный, но не без ограничений.
Потому что внутри него не СУБД, а граф объектов на Java что резко ограничивало и ограничивает объемы редактируемых датасетов до 100 тысяч записей максимум. Но всё это с удобным UI и возможностью работать чистить данные без глубокого технического погружения в протоколы, SQL запросы и разработку кода.

Какое-то время назад я думал о том не создать ли более эффективную альтернативу OpenRefine. Даже экспериментировал с созданием обвязки с помощью MongoDB mongorefine что было очень прикольным опыт и тренировкой для мозгов, но совершенно точно непригодно для реальной работы потому что MongoDB даёт большую гибкость и очень низкую скорость обработки данных. Это был эксперимент, отложенный для дальнейших размышлений.

Сейчас посмотрев на OpenRefine и его развитие свежим взглядом я могу сказать следующее:
1. Да, с помощью LLM можно очень быстро сделать его аналог, с изначально более-правильной архитектурой на базе Polars + DuckLake или Iceberg, с разделением бэкэнда и фронтэнда/фронтэндов и превратить его в инструмент обогащения данных с помощью LLM и не только.
2. При этом у него очень понятная аудитория, инструмент мог бы быть коммерческим или некоммерческим, важнее что он точно будет востребован

В общем это стало выполнимой задачей, даже для очень небольшой команды в очень обозримые сроки. Но вот я пока довольно активно занят задачами в рамках Dateno что лично для меня даже более интересная задача и несравнимо больший вызов.

Поэтому широко делюсь идеей про создание инструмента очистки и обогащение данных с интерфейсом а ля OpenRefine, но с возможностью очищать и обогащать датасеты в миллионы записей и гигабайтного размера.

#opendata #opensource #ideas #dataquality #dataenrichment

openrefine.org

General Refine Expression Language | OpenRefine

Basics

👍15❤3✍1🙏1🤝1

1.39K viewsIvan Begtin, 13:53

Ivan Begtin

Разные мысли вслух:
1. Термин "большие данные" в 2026 году выглядит анахронизмом, а экономика больших данных особенно. Когда слышу его от кого-либо то вот прямо таки ощущаю что человек находится вне контекста и, либо не понимает предметной области (увы), либо довольно долго был от нее оторван. Условно нет никакой "экономики больших данных", есть экономика данных, но и она, условно, слепляется с ИИ стартапами и ИИ экономикой. В этом есть странное смешение хайпа, реальности и страха потому что это гораздо большие изменения цифровых экосистем чем что-то ещё.
2. Евросоюз запустил публичное обсуждение с~~тратегии импортозамещения и снижения зависимости от США~~ стратегии открытой цифровой экосистемы которая должна помочь цифровому суверенитету ЕС и которая формируется из открытости кода, открытости данных и так далее. Мне такой подход нравится больше чем российское импортозамещение, но реалистичность реального цифрового суверенитета для ЕС, по моему, невелика. Однако если ВЫ резидент ЕС и работаете с открытым кодом и данными, то почему бы не поддержать такое хорошее дело?

#opendata #bigdata #thoughts #opensource #eu

European Commission - Have your say

❤8👍5👏2

1.4K viewsIvan Begtin, 08:57

Ivan Begtin

В качестве регулярных напоминаний, большое количество открытого кода который я лично создавал и поддерживаю:
- iterabledata библиотека для Python по работе с любыми файлами с записями с помощью прямого их перебора и возвращением каждой записи как словаря (dict). Фактически реализация интерфейсов csv.DictReader и csv.DictWriter для десятков форматов файлов таких как JSON, JSON lines, XML, Parquet, ORC и множества более специфических и отраслевых таких как PCAP, WARC и др.
- internacia-db референсная база данных с базовыми данными по странам и по страновым блокам. Распространяется в форматах JSONL, Parquet, DuckDB, YAML. Полезно для задач обогащения данных, поиска и фильтрации результатов в территориальной привязке, сравнении стран и территориальных блоков.
- undatum это инструмент командной строки для работы с файлами со сложной иерархией так как работают с CSV файлами. Он умеет считать статистику, преобразовывать файлы, анализировать их, разрезать на части и тд. Внутри используется библиотека iterabledata и большое число форматов файлов поддерживаются
- metacrafter библиотека для Python и инструмент командной строки для работы с семантическими типами данных, используется для выявления персональных идентификаторов и иных объектов (кодов организаций, кадастровых и почтовых кодов и так далее)

А также много другого открытого кода о котором я регулярно тут пишу.

#opensource #data #dataengineering #datatools

GitHub

GitHub - datenoio/iterabledata: Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet,…

Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata

👍15

1.34K viewsIvan Begtin, 11:53

Ivan Begtin

MiroThinker Хорошая открытая альтернатива многим функциям Manus'а и этапам планирования для ИИ ассистентом для программирования.

По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.

Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью
—
И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.

Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.

Ну и открытый код - это всегда плюс

#coding #ai #aiagents #opensource

👏4⚡2👍2❤1

1.2K viewsIvan Begtin, 17:46

Ivan Begtin

Мы забаним вас и высмеем публично, если вы потратите наше время на всякую ерунду. (c)

Если вы ещё не видели, политика работы с заявками отчетами по безопасности от команды инструмента выгрузки файлов curl

Чувствуется что многих уже достал поток малоценных сообщений от LLM-ботов в адрес проектов с открытым кодом.

Можно футболку такую завести: "Спроси меня о ерунде чтобы я тебя высмеял и забанил". Или это совсем по снобски?😂

#opensource

👍9💯6🔥5😁3✍1🤔1

1.29K viewsIvan Begtin, 10:23

Ivan Begtin

В DuckDB добавили поддержку формата Vortex, это такой специальный формат хранения данных который разработали в компании SpiralDB и передали в Linux Foundation в августе 2025 г.Это такой специально оптимизированный формат хранения данных который может быть компактнее и быстрее Parquet.

Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).

Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.

#opensource #data #datatools #dataengineering

🔥9👍5😱1

1.21K viewsIvan Begtin, 14:29

Ivan Begtin

TLDR
- Microsoft попались на передачи ключей шифрования Bitlocker пользователей хранимых в облаке
- это и так было очевидно что Bitlocker'ом пользоваться было нельзя
- вот посмотрите какие есть альтернативы

А теперь подробнее

Оказывается (неожиданно) Microsoft передавали неоднократно ключи шифрования дисков пользователей ФБР, можно прочитать в свежей статье в Forbes где рассказывается про дело Гуама в котором ФБР запросило у Microsoft ключи шифровая Bitlocker, сервиса в Windows отвечающего за шифрование, и компания предоставила эти ключи.

Почему она это сделала? Потому что ключи хранились в облаке, потому что Microsoft соблюдают требования спецслужб как минимум в США.

Что тут скажешь? Эта новость только в том что этот факт получил подтверждение, а в остальном совсем не новость, использование проприетарного шифрования - это плохая практика во всех отношениях.

Настоящие параноики:
1. Не используют Windows (и продукты Apple тоже)
2. Не используют Bitlocker
3. При обострениях используют аналоговые инструменты

Я уже давно ~~ненастоящий параноик~~ от острой паранойи слегка отошёл и использую сложную комбинацию устройств с Ubuntu, MacOS и Windows и руководствуюсь простыми правилами:
1. Все чувствительные файлы необходимо держать на зашифрованных носителях/контейнерах. Это правило того же типа как чистить зубы, умываться по утрам и так далее.
2. Управление рисками в отношении чувствительной информации необходимо оценивать собственные риски. Кроме интереса спецслужб который однозначно есть не ко всем, есть ещё и хакеры, корпоративный шпионаж, воровство устройств, их потеря и тд. Лично у меня потенциальный взлом и потеря стоят на первом месте
3. Выбирая способы защиты данных всегда вначале идут решения с открытым кодом и только далее все остальное. В решениях с открытым кодом управление рисками начинается со зрелости инструмента, размере команды, юрисдикции и тд.
4. Не менее 3-х копий в разных местах, физически или в облаках.
5. Не использовать архиваторы как контейнеры без необходимости. Например, лучше не использовать ZIP или RAR архивы. Хотя шифрование в WinZip дает относительно неплохую защиту (зависит от пароля), но базовый алгоритм шифрования ZipCrypto который использовался изначально имеет довольно слабую защиту. RAR проприетарен как и большая часть других популярных архиваторов

Что использовать вместо того же Bitlocker'а?
- Veracrypt как продукт наследник TrueCrypt. Открытый код, зрелый продукт под все популярные ОС. Главный недостаток - сейчас у него только один майнтейнер
- LUKS система шифрования для Linux, есть инструменты для монтирования дисков на MacOS и Windows под WSL2
- gocryptfs также шифрование дисков с открытым кодом и под Linux, скорее всего можно монтировать к MacOS и в Windows WSL2

#cryptography #microsoft #opensource #security

Forbes

Microsoft Gave FBI Keys To Unlock Encrypted Data, Exposing Major Privacy Flaw

The tech giant said providing encryption keys was a standard response to a court order. But companies like Apple and Meta set up their systems so such a privacy violation isn’t possible.

✍10🤔4❤3🔥2👍1🌚1💯1🤣1

997 viewsIvan Begtin, 09:49

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Agent Psychosis: Are We Going Insane? автор рассуждает о том наступил ли уже агентский психоз у разработчиков или ещё нет и на что это влияет. Короткий ответ - да, наступил. Что дальше то? Агенты психиатры? Не помогут;)
- I Made Zig Compute 33 Million Satellite Positions in 3 Seconds. No GPU Required. автор решил достаточно ресурсоемкую задачу астрометрии с помощью связки Python + Zig, сравнил с реализацией на Rust и пишет про лучшую производительность у Zig. С одной стороны ожидаемый результат, с другой критерий производительности далеко не единственный и доступность разработчиков на рынке имеет значение.
- RzWeb онлайн инструмент для реверс инжениринга (анализа работы и содержания файлов программ) написанный на WebAssembly. В последние годы я так редко сталкиваюсь с задачами копания в исполняемых файлах (потому что от рынка инфобеза уже давно далек), но такие инструменты люблю
- OpenWork аналог Claude Work на базе открытого кода OpenCode. Сам продукт тоже с открытым кодом. Для не-разработчиков может быть удобным инструментом, правда для задач deep research я, всё же, применял бы MiroThinker (доступен не во всех юрисдикциях).

#opensource #tools #ai #aiagents

Armin Ronacher's Thoughts and Writings

Agent Psychosis: Are We Going Insane?

What’s going on with the AI builder community right now?

👍5

976 viewsIvan Begtin, 10:42

Ivan Begtin

Я, кстати, пропустил эту новость, а оказывается в конце ноября 2025 г. проект языка Zig полностью мигрировал с Github на Codeberg и теперь именно там его исходный код, задачи, команда разработки и тд. Для тех кто не слышал о нем Codeberg - это некоммерческая открытая платформа для хостинга открытого кода созданная на базе Forgejo открытой.и бесплатной альтернативе Github, Gitlab, Gitea для самостоятельнрого создания системы контроля кода поверх Git.

Особенность Codeberg в четких правилах, явно обозначенным акцентом на FOSS и при этом достаточная зрелость для практического использования.

Почему новость про Zig важна? У одного только репозитория Zig'а на Github'е было 42.7 тысяч подписчиков, а после миграции на Codeberg их почти сразу стало 3.1 тысяча подписчиков на их платформе.
Что с одной стороны в 14 раз меньше, а с другой стороны на Codefberg'е Zig теперь на втором месте.

Если почитать почему автор Zig'а Andrew Kelley мигрировал с Github'а то он пишет про нежелание оказаться в ситуации vendor lock-in и того что Github стал портиться, в частности, в отношении Github Actions и конфликта между политикой Zig Strict No LLM/AI Policy и толерантностью команды Github'а к потокам автосгенерированных PR и Issues.

С одной стороны миграция Zig'а на Codeberg - это не массовая миграция, а с другой если Евросоюз реально войдет в торговый клинч с США, то я бы предполагал миграцию с Github'а (и Gitlab'а) всего государственного кода и кода получающего грантовое финанасирование ЕС как минимум.

Это не Бог весть какое хтоническое изменение, на фоне остальных международных событий, но все же важное для ИТ если оно произойдет.

#opensource #europe #github #codeberg #zig

forgejo.org

Forgejo – Beyond coding. We forge.

Forgejo is a self-hosted lightweight software forge. Easy to install and low maintenance, it just does the job.

🤔5❤4✍2

927 viewsIvan Begtin, 09:42

Ivan Begtin

SiriusDB специальный движок расширяющий инструменты работы с базами данных и ускоряющий выборки из баз данных используя GPU. Реализован в виде расширения для DuckDB и занимает первую позицию в оценке по Hot run в рейтинге ClickBench.

Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.

Требует для работы процессор NVIDIA и установленный CUDA.

Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.

#opensource #datatools

❤5👍4

746 viewsIvan Begtin, 06:01

Ivan Begtin

Оказывается появилось множество инструментов работы с данными через WebAssembly, когда код загружается с сервера, но исполняется локально и работа со всеми данными идет локально. Причем почти все такие инструменты на базе DuckDB.

В списке уже:
- DataKit (открытый код и сервис)
- PondPilot (открытый код и сервис)
- OpenSheet (сервис и приложение для выгрузки локально)
- Tabula Studio (сервис)

А также большая подборка инструментов в списке Awesome DuckDB

Пора делать ревизию своего аналитического инструментария, многое можно делать быстрее и удобнее теперь

#opensource #datatools

pondpilot.io

PondPilot - Client-Side Data Tools

A suite of client-side data tools powered by DuckDB. Explore data and embed SQL widgets - all without uploading your data anywhere.

❤5🤔1

641 viewsIvan Begtin, 09:08

About

Blog

Apps

Platform