Ivan Begtin
8.99K subscribers
2.59K photos
5 videos
114 files
5.39K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- New updates and more access to Google Earth AI команда Google Earth AI рассказывает о Geospatial Reasoning подходе при котором не просто определяют место удара шторма, но и предсказывают каким сообществам достанется более других
- Building Capacityfor Data Access,Analysis + Accountability доклад Columbia World Projects о развитии открытого доступа. Полезный для понимания того какие инвестиции сейчас направляются в сторону открытости инфраструктуры доступа к данным для исследователей
- Deta Surf цифровая записная книжка с AI внутри для помощи студентам в учёбе, с открытым кодом и ориентированной на самостоятельное изучение материалов с помощью AI
- oxdraw инструмент с открытым кодом для создания диаграмм, из полезных фич в том что он построен на отображении диаграммы по декларативному описанию, но позволяет автоматически создавать это декларативное описание через интерактивный инструмент. Мне очень нравится подход даже если сам инструмент ещё только-только появился
- How We Saved $500,000 Per Year by Rolling Our Own “S3” инженеры из Nanit пишут о том как сделали упрощенный аналог AWS S3 и сэкономили уйму денег. Как я их понимаю, вокруг S3 уже целая индустрия выстроилась помогателей экономить на их инфраструктуре, но заменить их на что-то свое может быть более оптимальным решением

#ai #tools #opensource #readings
5
Подборка ссылок про данные, технологии и не только:
- transferia инструмент для переноса данных между разными базами данных причем поддерживает не только SQL, но и выгрузку и загрузку данных в MongoDB, OpenSearch, Elasticsearch. Судя по именам разработчиков и поддержке YTSaurus создатели продукта русскоязычные. Сам продукт пока не очень популярен, но лично у меня под такое задачки есть, надо тестировать
- Affine набирающая популярность замена Notion с открытым кодом. Делает его сингапурский стартап которые создают на его базе облачный сервис с подпиской и они же распространяют версию с открытым кодом. Выглядит симпатично и лозунг у них Write, Draw, Plan. Пиши, рисуй, планируй. ПРП в общем
#opensource #data #tools
5🤝42
Я на выходных столкнулся с очередной ситуацией когда пришлось чистить свободное место на дисках, но при этом не хотелось архивировать некоторые файлы для холодного хранения, они нужны были под рукой. И я вспомнил про утилиту filesrepack которую я когда-то давно писал для пересжатия существующих файлов и архивов, это когда архивы и их содержание сжимаются более сильными алгоритмами сжатия чем это было сделано изначально и когда внутри них файлы тоже пересжимаются, обычно без потери качества, или с минимальной потерей в качестве изображений, там где это некритично.

Сама утилита эта работа как обертка вокруг множества приложений в операционной системе: pngquant, jpegoptim, 7z, zip и тд, но вот одна беда что она устарела и её надо было переписать.

Так что я её использовал как второй полигон для проверки кодирования с помощью ИИ (первый был с библиотекой iterabledata).

Итого:
- утилита filesrepack полностью переписана и теперь умеет две команды: repack - сжимать одиночные файлы, bulk - сжимать файлы внутри папки, рекурсивно
- добавлена поддержка множества новых форматов файлов: tiff, parquet, avi, avf, svg, gif, rtb, pages, numbers, key и других
- 90% кода написано с помощью ИИ агента Cursor'а (2-я версия Cursor, режим автовыбора моделей)
- существенные ошибки были лишь пару раз, достаточно легко они исправлялись
- у ИИ агента очень неплохое понимание контекста и того для чего сделано приложение и очень хорошие ответы на вопросы вроде "проанализируй приложение и предложи какие опции были бы полезны для его пользователей" или "предложи форматы файлов которые можно было бы оптимизировать и которые пока не поддерживаются"
- наибольшая польза, по прежнему, в автоматическом написании документации что очень удобно для всякого рода утилит и программных библиотек где не надо скриншотов и сложных сценариев.
- для такого простого практического применения ИИ агенты, действительно, прекрасно подходят и ускоряют работы многократно, а также помогают закрыть дыры в документировании, тестировании и тд.
- по ощущениям можно уже применять ИИ агенты и для промышленного применения в сложных системах, но, конечно, с существенно большей осторожностью и дополнительными мерами по верификации кода
- все в совокупности, конечно, огромный прогресс за последний год. Ранее когда я пытался применять ИИ агенты, было ощущение что галлюцинаций существенно больше чем результата.
- в любом случае джуниорам я категорически не рекомендую начинать изучение программирования через ИИ ассистенты. Что бы понимать насколько созданный код хорош и адекватен нужно уметь создавать его самостоятельно иначе можно наделать серьёзных ошибок

Далее я уже расскажу про практическое применение ИИ для работы с кодом и создания индекса в Dateno, но этим кодом поделиться уже можно только в отдельных отчуждаемых компонентах.

#opensource #tools #ai #coding #thoughts
👍104🏆2
AgenticSeek альтернатива Manus умеющая выполнять разные, в том числе довольно сложные задачи требующие запуска приложений и браузера иных агентских операций. Важное отличие - открытый код и локальный (приватный) запуск.

#opensource #ai #privacy #llm #tools #datatools
10🔥1
DeepScholar свежий ИИ агент помощник ученого-исследователя. В авторах команда из Стенфорда которые делали Lotus, фреймворк по работе с датасетами с помощью LLM (собственно читая про Lotus я про DeepScholar и узнал).

Это не единственный подобный инструмент и их становится все больше.

#ai #research #tools #datatools
125
В рубрике полезных инструментов для сбора данных tdl (Telegram Downloader) инструмент командной строки,написан на Go, под лицензией AGPL-3.0, позволяет выгружать списки сообщений, сами сообщения и файлы и проводить другие манипуляции по выгрузке списков чатов, их участников и другой информации.

Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.

Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.

Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.

Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.

#opendata #opensource #digitalpreservation #data #tools
👍14721
Как обмениваться большими файлами не привлекая внимания санитаров без необходимости использовать облачные диски или аренды серверов? AltSendme инструмент по отправке данных через зашифрованное peer-to-peer соединение, представляет собой GUI приложение для Linux, Windows и Mac. Можно выбрать конкретный файл и после нажатия на "Start sharing" приложение создает длинны код/тикет который надо любым способом передать получателю и который после ввода этого кода в это же приложение у себя быстро и напрямую скачивает файл.

Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.

Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.

Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.

#opensource #filetransfer #tools #datatools
🔥2052
Ещё один полезный инструмент для дата инженера и аналитика data-peek SQL клиент для десктопа под Windows, Mac и Linux с поддержкой PostgreSQL, MySQL и Microsoft SQL. Для личного пользования лицензия MIT и открытый код, для коммерческого отдельная лицензия и платное использование.

В целом ничего нового, кроме построителя SQL запросов через ИИ модели, поддерживает многие модели включая локальные через Ollama.

Как же много таких клиентов появилось в последнее время, кто бы сделал аналогичное для NoSQL: Elasticsearch, OpenSearch, MongoDB и тд.

А еще лучше для SPARQL'я потому что программировать SPARQL запросы это боль для психически неподготовленной личности. Именно очеловечивание запросов способно придать SPARQL'ю новую жизнь, по моему разумению.

Но понятно, на самом деле, почему таких инструментов нет, потому что ёмкость рынка инструментов для SQL превышает все остальные. Но тогда уж надо добавлять поддержку не Microsoft SQL, а Clickhouse, SQLite, DuckDB и тд.

#opensource #datatools #dataengineering #tools
👏6👍21🔥1🤝1
Для тех кто задумывается об архивации личных и не самых личных файлов утилита ydiskarc для архивации парок и файлов размещённых на Яндекс.Диск. Я создал её довольно давно и недавно актуализировал до удобного вида. Она использует открытое API Яндекс.Диск для получения метаданных о файлах и выгрузки их локально без использования ПО Яндекса или получения ключа доступа. Можно использовать на собственных папках или на каких-либо общедоступных, не требующих авторизации.

Поддерживает две команды:
- full - делает дамп всего содержимого в виде ZIP файла
- sync - сохраняет файлы с сохранением структуры папок

В процессе работы сохраняет все полученные метаданные в файлах _metadata.json в папках.

Может применяться, например, при архивации российских сайтов где какие-то материалы опубликованы на Яндекс.Диск и не поддаются индексированию классическими инструментами такими как веб-краулеры.

Ошибки, предложения и идеи можно оставлять в issues к репозиторию.

#opensource #tools #digitalpreservation
👍17311
Полезные ссылки про данные, технологии и не только:
- Agent Psychosis: Are We Going Insane? автор рассуждает о том наступил ли уже агентский психоз у разработчиков или ещё нет и на что это влияет. Короткий ответ - да, наступил. Что дальше то? Агенты психиатры? Не помогут;)
- I Made Zig Compute 33 Million Satellite Positions in 3 Seconds. No GPU Required. автор решил достаточно ресурсоемкую задачу астрометрии с помощью связки Python + Zig, сравнил с реализацией на Rust и пишет про лучшую производительность у Zig. С одной стороны ожидаемый результат, с другой критерий производительности далеко не единственный и доступность разработчиков на рынке имеет значение.
- RzWeb онлайн инструмент для реверс инжениринга (анализа работы и содержания файлов программ) написанный на WebAssembly. В последние годы я так редко сталкиваюсь с задачами копания в исполняемых файлах (потому что от рынка инфобеза уже давно далек), но такие инструменты люблю
- OpenWork аналог Claude Work на базе открытого кода OpenCode. Сам продукт тоже с открытым кодом. Для не-разработчиков может быть удобным инструментом, правда для задач deep research я, всё же, применял бы MiroThinker (доступен не во всех юрисдикциях).

#opensource #tools #ai #aiagents
👍5
Prism от OpenAI - свежий их сервис по помощи исследователям в написании статей. Причем Prism помогает писать статьи сразу в LaTeX в облаке вместе с ИИ ассистентом. Фактически OpenAI одним махом сейчас поубивали десятки стартапов которые делали разные инструменты для помощи исследователям в научной работе. Собственно это главный риск у нишевых ИИ стартапов сейчас - быстрое их убийство крупняком если они чувствуют хороший потенциал в нише.

А я вот на эту тему задумался что скоро в рамках требований scientific integrity от исследователей будут требовать предоставлять протокол коммуникации с ИИ ассистентом вместе с научной работой чтобы верифицировать вклад самого исследователя и того что он не применял ИИ ассистента для подлога референсов, данных и так далее.

Впрочем Prism пока является инструментом скорее универсальным и в более узких областях больше вероятности специализированных ИИ ассистентов (физика, биоинформатика).

#ai #research #tools
9👍5🌚1
Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.

#tools #datatools #opensource #dataengineering
🔥5🤔1
Подборка полезных ссылок про данные, технологии и не только:
- gogcli инструментарий командной строки для большей части популярных сервисов Google: GMail, Calendar, Classroom, Drive, Docs. Незаменимо для всех кто любит работать в командной строке и, скорее всего, удобно пристыковывается к личному локальному ИИ агенту.
- qmd еще один удобный инструмент для командной строки, Query Markup Document, поисковик по локальным файлам .md с использованием LLM. Опять же для фанатов командной строки

#commandline #tools #opensource
4