Ivan Begtin

AgenticSeek альтернатива Manus умеющая выполнять разные, в том числе довольно сложные задачи требующие запуска приложений и браузера иных агентских операций. Важное отличие - открытый код и локальный (приватный) запуск.

#opensource #ai #privacy #llm #tools #datatools

✍10🔥1

1.18K viewsIvan Begtin, 09:59

Ivan Begtin

DeepScholar свежий ИИ агент помощник ученого-исследователя. В авторах команда из Стенфорда которые делали Lotus, фреймворк по работе с датасетами с помощью LLM (собственно читая про Lotus я про DeepScholar и узнал).

Это не единственный подобный инструмент и их становится все больше.

#ai #research #tools #datatools

✍12⚡5

1.97K viewsIvan Begtin, 14:32

Ivan Begtin

В рубрике полезных инструментов для сбора данных tdl (Telegram Downloader) инструмент командной строки,написан на Go, под лицензией AGPL-3.0, позволяет выгружать списки сообщений, сами сообщения и файлы и проводить другие манипуляции по выгрузке списков чатов, их участников и другой информации.

Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.

Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.

Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.

Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.

#opendata #opensource #digitalpreservation #data #tools

GitHub

GitHub - iyear/tdl: 📥 A Telegram toolkit written in Golang

📥 A Telegram toolkit written in Golang. Contribute to iyear/tdl development by creating an account on GitHub.

👍14✍7⚡2❤1

1.89K viewsIvan Begtin, 06:30

Ivan Begtin

Как обмениваться большими файлами ~~не привлекая внимания санитаров~~ без необходимости использовать облачные диски или аренды серверов? AltSendme инструмент по отправке данных через зашифрованное peer-to-peer соединение, представляет собой GUI приложение для Linux, Windows и Mac. Можно выбрать конкретный файл и после нажатия на "Start sharing" приложение создает длинны код/тикет который надо любым способом передать получателю и который после ввода этого кода в это же приложение у себя быстро и напрямую скачивает файл.

Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.

Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.

Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.

#opensource #filetransfer #tools #datatools

🔥20❤5✍2

1.65K viewsIvan Begtin, 12:57

Ivan Begtin

Ещё один полезный инструмент для дата инженера и аналитика data-peek SQL клиент для десктопа под Windows, Mac и Linux с поддержкой PostgreSQL, MySQL и Microsoft SQL. Для личного пользования лицензия MIT и открытый код, для коммерческого отдельная лицензия и платное использование.

В целом ничего нового, кроме построителя SQL запросов через ИИ модели, поддерживает многие модели включая локальные через Ollama.

Как же много таких клиентов появилось в последнее время, кто бы сделал аналогичное для NoSQL: Elasticsearch, OpenSearch, MongoDB и тд.

А еще лучше для SPARQL'я потому что программировать SPARQL запросы это боль для психически неподготовленной личности. Именно очеловечивание запросов способно придать SPARQL'ю новую жизнь, по моему разумению.

Но понятно, на самом деле, почему таких инструментов нет, потому что ёмкость рынка инструментов для SQL превышает все остальные. Но тогда уж надо добавлять поддержку не Microsoft SQL, а Clickhouse, SQLite, DuckDB и тд.

#opensource #datatools #dataengineering #tools

👏6👍2❤1🔥1🤝1

1.49K viewsIvan Begtin, 17:24

Ivan Begtin

Для тех кто задумывается об архивации личных и не самых личных файлов утилита ydiskarc для архивации парок и файлов размещённых на Яндекс.Диск. Я создал её довольно давно и недавно актуализировал до удобного вида. Она использует открытое API Яндекс.Диск для получения метаданных о файлах и выгрузки их локально без использования ПО Яндекса или получения ключа доступа. Можно использовать на собственных папках или на каких-либо общедоступных, не требующих авторизации.

Поддерживает две команды:
- full - делает дамп всего содержимого в виде ZIP файла
- sync - сохраняет файлы с сохранением структуры папок

В процессе работы сохраняет все полученные метаданные в файлах _metadata.json в папках.

Может применяться, например, при архивации российских сайтов где какие-то материалы опубликованы на Яндекс.Диск и не поддаются индексированию классическими инструментами такими как веб-краулеры.

Ошибки, предложения и идеи можно оставлять в issues к репозиторию.

#opensource #tools #digitalpreservation

👍17✍3❤1⚡1

1.44K viewsIvan Begtin, 18:10

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Agent Psychosis: Are We Going Insane? автор рассуждает о том наступил ли уже агентский психоз у разработчиков или ещё нет и на что это влияет. Короткий ответ - да, наступил. Что дальше то? Агенты психиатры? Не помогут;)
- I Made Zig Compute 33 Million Satellite Positions in 3 Seconds. No GPU Required. автор решил достаточно ресурсоемкую задачу астрометрии с помощью связки Python + Zig, сравнил с реализацией на Rust и пишет про лучшую производительность у Zig. С одной стороны ожидаемый результат, с другой критерий производительности далеко не единственный и доступность разработчиков на рынке имеет значение.
- RzWeb онлайн инструмент для реверс инжениринга (анализа работы и содержания файлов программ) написанный на WebAssembly. В последние годы я так редко сталкиваюсь с задачами копания в исполняемых файлах (потому что от рынка инфобеза уже давно далек), но такие инструменты люблю
- OpenWork аналог Claude Work на базе открытого кода OpenCode. Сам продукт тоже с открытым кодом. Для не-разработчиков может быть удобным инструментом, правда для задач deep research я, всё же, применял бы MiroThinker (доступен не во всех юрисдикциях).

#opensource #tools #ai #aiagents

Armin Ronacher's Thoughts and Writings

Agent Psychosis: Are We Going Insane?

What’s going on with the AI builder community right now?

👍5

1.51K viewsIvan Begtin, 10:42

Ivan Begtin

Prism от OpenAI - свежий их сервис по помощи исследователям в написании статей. Причем Prism помогает писать статьи сразу в LaTeX в облаке вместе с ИИ ассистентом. Фактически OpenAI одним махом сейчас поубивали десятки стартапов которые делали разные инструменты для помощи исследователям в научной работе. Собственно это главный риск у нишевых ИИ стартапов сейчас - быстрое их убийство крупняком если они чувствуют хороший потенциал в нише.

А я вот на эту тему задумался что скоро в рамках требований scientific integrity от исследователей будут требовать предоставлять протокол коммуникации с ИИ ассистентом вместе с научной работой чтобы верифицировать вклад самого исследователя и того что он не применял ИИ ассистента для подлога референсов, данных и так далее.

Впрочем Prism пока является инструментом скорее универсальным и в более узких областях больше вероятности специализированных ИИ ассистентов (физика, биоинформатика).

#ai #research #tools

❤9👍6🌚1

1.69K viewsIvan Begtin, edited 07:32

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.

#tools #datatools #opensource #dataengineering

GitHub

GitHub - villagesql/villagesql-server: VillageSQL - a drop-in replacement for MySQL with extensions

VillageSQL - a drop-in replacement for MySQL with extensions - villagesql/villagesql-server

🔥5🤔1

1.29K viewsIvan Begtin, 11:49

Ivan Begtin

Подборка полезных ссылок про данные, технологии и не только:
- gogcli инструментарий командной строки для большей части популярных сервисов Google: GMail, Calendar, Classroom, Drive, Docs. Незаменимо для всех кто любит работать в командной строке и, скорее всего, удобно пристыковывается к личному локальному ИИ агенту.
- qmd еще один удобный инструмент для командной строки, Query Markup Document, поисковик по локальным файлам .md с использованием LLM. Опять же для фанатов командной строки

#commandline #tools #opensource

✍4

1.4K viewsIvan Begtin, edited 08:27

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Artifacts бета версия версионированного хранилища файлов с доступом через Git. Продукт от Cloudflare, под использование ИИ агентами и легким созданием новых репозиторий. Выглядит интересно, под ИИ продукты особенно (а может быть только для них). Из необычного - написан на Zig
- AI Summer, Data Winter: What the AI Index Reveals — and What It Doesn’t Yet Measure статья об исчерпании данных для обучения ИИ и о data winter, сжиманию открытости данных из-за ИИ хайпа. Полезно почитать это и другие статьи автора
- isitagentready.com еще один сервис от Cloudflare который определяет готов ли Ваш сайт для ИИ агентов. Возникает вопрос - а хорошо ли если он готов и плохо ли если не готов? В чем больше выгоды?
- Inside Notion про культуру внутри Notion, читать интересно, хороший жанр

#ai #tools #services #readings

The Cloudflare Blog

Artifacts: versioned storage that speaks Git

Give your agents, developers, and automations a home for code and data. We’ve just launched Artifacts: Git-compatible versioned storage built for agents. Create tens of millions of repos, fork from any remote, and hand off a URL to any Git client.

👍7❤1

1.3K viewsIvan Begtin, 13:05

Ivan Begtin

Еще одна свежая спецификация Website Spec на сей раз для создания современных сайтов. Казалось бы ничего радикально нового - списки обязательных и рекомендуемых стандартов и лучших практик, начиная от наличия важных атрибутов таких как кодировка и doctype у html и продолжая множеством других практик, стандартов и так далее. Важное отличие от любых других чеклистов в том что эта спецификация для LLM и ИИ агентов. Имеются описания для SKILLS, llms.txt, MCP и многое другое.

Разумно там буквально все, что-то реализуется при разработке кода, что на серверном уровне.

Автор явно думал над тем что делал и спецификация выглядит разумно-расширяемой.

Полезно для всех кто проектирует и разрабатывает сайты с помощью ИИ, разрабатывает дизайн и актуализирует существующие сайты.

#specifications #tools

👍7✍5

4.97K viewsIvan Begtin, 17:42

Ivan Begtin

Подборка ссылок про данные, технологии и не только:
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом

#opendata #opensource #ai #tools

Redistricting Data Hub

We have all the redistricting data you need to draw or analyze Community of Interest or District maps

✍7👍1

1.49K viewsIvan Begtin, 07:29

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.

#opensource #data #tools

GitHub

GitHub - microsoft/coreutils: Coreutils for Windows: Installer & Packaging

Coreutils for Windows: Installer & Packaging. Contribute to microsoft/coreutils development by creating an account on GitHub.

👍5⚡1✍1

1.3K viewsIvan Begtin, 14:57

Ivan Begtin

OpenSharing свежий стандарт/протокол/спецификация по обмену данными и другими цифровыми артефактами для работы ИИ агентов включая таблицы, коллекции файлов, схемы, глоссарии и так далее. Был передан компанией Databricks в Linux Foundation и основан на уже активно используемом протоколе Delta Sharing к которому уже есть действующая экосистема и множество продуктов его поддерживают.

Передача его в Linux Foundation - это хорошо, это позволяет расширить экосистему. Хочется надеяться что появятся еще и open source реализации серверной части delta sharing, чтобы не зависеть от облака Databricks.

#opensource #standards #ai #tools #datatools

✍7👍6🔥6👏1

1.55K viewsIvan Begtin, 10:59

Ivan Begtin

Подборка ссылок про данные, технологии и не только:
- Running local models is good now - автор пишет что, внезапно, но разработка ПО с помощью локальных моделей стала реалистичной. Она приводит в пример новую LLM Gemma-4-12b-qat достаточно компактную чтобы работать на ноутбуке с 64GB памяти и достаточно эффективную чтобы решать задачи работы с кодом.
- SpaceX to acquire Cursor for $60B in stock если кратко то компания AnySphere создателей среды разработки Cursor теперь куплена SpaceX. Я бы сказал что если Grok не начнут навязывать через Cursor, то это хорошая новость. Думаю что не будут и думаю что это не последнее приобретение SpaceX
- GenSpark - стартап/сервис-ИИ агента сравнимый с Manus. В моих тестах неожиданно хорошо показал себя на Deep Research задачах. Сервисов таких до сих пор не так уж много и можно разориться уже если тестировать их все.
- Bigset агент с открытым кодом по созданию датасетов из веб-поиска. Вбиваешь что-то вроде "AI infrastructure startups hiring backend engineers" и получаешь CSV файл на выходе. Концептуально напоминает сервис Webhound, там открытого кода нет, только SaaS. Правда и Bigset хоть и с открытым кодом, но зависит от коммерческого сервиса Tinyfish через который он делает веб поиск.

#opensource #ai #tools

Vickiboykis

Running local models is good now

Local agentic coding has gotten great over the past few months

👍7🔥3❤‍🔥1

1.41K viewsIvan Begtin, 03:16

Ivan Begtin

Свежая модель GLM 5.2 от Z.ai, её уже можно потестить в агентском режиме на chat.z.ai и выглядит в работе она неплохо

У меня есть набор тестовых кейсов для deep research задач которые я опробую на всех новых моделях. Они к основной работе не относятся, зато я сам очень хорошо понимаю контекстную среду и могу оценить результат. Например, промпт как на приведенном скриншоте. В результате получается отчет на 30-40 страниц, не идеальный, не так чтобы вау-вау, но так чтобы очень хорошо. Если бы я реально этим репозиторием и кодом занимался, я бы рекомендации из результатов анализа применил.

Необычное наблюдение что вместо режима выдачи результатов Markdown-по-умолчанию привычный по другим сервисам тут всегда выдается PDF или DOCX или оба файла, но не Markdown. Это скорее неудобно чем удобно, но точно не критично.

По разного рода бенчмаркам для разработки у GLM-5.2 тоже очень высокие оценки, пробовать в работе точно стоит.

#ai #tools

👍8✍5❤3⚡1

1.66K viewsIvan Begtin, 05:03

Ivan Begtin

OmniRoute локальный маршрутизатор запросов к ИИ провайдерам умеющий работать с большим их количеством, сейчас это 231 провайдер в том числе с теми которые дают бесплатные квоты. Позиционируется как инструмент сильной оптимизации потребления токенов, позволяет сократить их благодаря сжатию RTK + Caveman.

Что характерно даже поддерживают одного из российских провайдеров - gigachat (можно увидеть в общем списке), но собственно и только. Того же Яндекс'а к примеру тут нет почему-то.

Плюс обещают прозрачную интеграцию с 1proxy и возможность обхода блокировок из стран которым некоторые AI провайдеры не дают доступа (Россия, Иран, Куба, Китай и тд.).

На чем зарабатывают непонятно, думаю что монетизацию включат позже и привяжут как раз к сервисам прокси или экономии токенов.

Выглядит как очень полезный инструмент еще и из-за встроенной аналитики потребления, так что надо пробовать на практике. Если все работает как обещано - ценное дополнение к техническому стеку.

#opensource #ai #tools

✍5👍3⚡2

1.32K viewsIvan Begtin, 13:44

Ivan Begtin

В качестве регулярных напоминаний коллекция библиотек и инструментов с открытым кодом к которым я приложил свою руку и которые могут быть полезны многим работающим с данными:
- qddate библиотека для Python быстрого парсинга дат написанных на множестве языков и во множестве форматов. Не такой широкий охват форматов как у dateutil, но гораздо более высокая скорость парсинга.
- newsworker библиотека и инструмент на Python для извлечения новостей из веб страниц. Например, когда надо подписаться на сайт через RSS, а RSS ленты нет. Понимает множество форматов дат используя qddate и динамически идентифицирует новостные блоки.
- russiannames база данных и парсер Python для разного рода написания ФИО принятых в российской практике. В базе десятки тысяч имен и отчеств и сотни тысяч фамилий
- undatum утилита командной строки для работы с датасетами в форматах CSV, JSONl, Parquet и сотне других форматах. Умеет преобразовывать данные и проводить с ними различные операции. Эдакий швейцарский нож для работы с данными с командной строки
- metawarc утилита по извлечению метаданных из файлов веб-архивов (WARC). Умеет извлекать метаданные из офисных файлов, PDF, изображений и тд.
- plainrussian сервис проверки простоты текстов на русском языке используя формулы читабельности адаптированные под русский язык. Код самого сервиса и формул для расчета
- iterabledata библиотека для Python для чтения и записи практически всех существующих форматов файлов с данными. Используется в утилите undatum
- internacia-db дата продукт в виде датасета по всем странам и макрорегионам во множестве форматов и покрытием всего мира и многими метаданными по каждой территории

#opensource #datatools #tools

GitHub

GitHub - ivbeg/qddate: Quick and dirty date parsing Python library to parse HTML dates really fast

Quick and dirty date parsing Python library to parse HTML dates really fast - ivbeg/qddate

👍13🔥6✍4❤4

1.28K viewsIvan Begtin, 09:20

Ivan Begtin

Magic Extractor open source инструмент для извлечения содержимого из большого числа разных форматов образов дисков, архивов и иных цифровых контейнеров. Автор пошел по пути охвата как можно большего числа форматов и сам инструмент явным образом написан под Windows и идентификацию файлов в непонятных форматах.

Применение явно преимущественно для задач цифровой форенсики, что нужно не только исследователям/дознавателям, но и цифровым архивистам которые работают с унаследованными бинарниками. Тем более что многие из поддерживаемых архивных форматов - это именно что исторические архиваторы, не самые популярные.

Немного пересекается с тем что я делаю по iterabledata, например, в части работы с файлами почтовых клиентов. Но лишь немного потому как подходы разные, Magic Extractor работает на извлечение, а iterabledata на последовательное чтение.

Вообще я лично очень люблю тему форенсики еще с детства, когда приходилось возиться с огромным числом незнакомых форматов файлов для вскрытия защиты игр, save файлов и тд. Практическую пользу для себя вижу пока небольшую, но всегда приятно вспомнить старое когда анализ бинарных файлов я осваивал ещё до полноценного программирования.

Кстати, большая часть сигнатур для подобных инструментов идут из проектов вроде TrID который активно используется именно в задачах цифровой архивации вроде PRONOM.

#opensource #tools

GitHub

GitHub - xchwarze/magic-extractor: Universal Windows extraction tool that detects unknown files and routes them to the right bundled…

Universal Windows extraction tool that detects unknown files and routes them to the right bundled extractor. - xchwarze/magic-extractor

❤5✍2🔥1

1.17K viewsIvan Begtin, 17:16

About

Blog

Apps

Platform