Ivan Begtin
9K subscribers
2.57K photos
5 videos
114 files
5.36K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Фонд Викимедиа анонсировал партнерство с ещё несколькими ИИ бигтехами - это Amazon, Meta, Microsoft и Mistral AI, вдобавок к уже имевшимся партнерствам с Google, Ecosia, Nomic, Pleias, ProRata и Reef Media. Можно сказать что, вполне возможно, у Википедии появится таки устойчивое финансирование и проект будет жить. Это с одной стороны, с другой стороны не превратится ли в Викимедиа в коммерческий продукт под видом некоммерческого и не оттолкнет ли это многих редакторов от вклада в её тексты? Я слишком мало знаю о том что происходит там внутри, так что интересно. Что еще интересно так то что AI крупняк, не считая X.ai с его Грокипедией, не пытается воспроизвести продукты Фонда, а заключает соглашения с ним. Полагаю что причиной может быть и то что у Фонда Викимедиа есть техническая возможность ограничивать ИИ краулеры, а одни лишь дампы Википроектов содержат только текстовый контент и не в реальном времени.

#opendata #API #wikipedia #data #ai
👍122👌1
MiroThinker Хорошая открытая альтернатива многим функциям Manus'а и этапам планирования для ИИ ассистентом для программирования.

По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.

Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью

И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.

Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.

Ну и открытый код - это всегда плюс

#coding #ai #aiagents #opensource
👏422👍2
Я, кстати, пропустил эту новость, а тем временем NVIDIA обвинили в получении 500ТБ пиратских книг из Anna's Archive. Это к вопросу о роли пиратских библиотек в скорости роста бума ИИ. Если представить себе какой-то другой мир с гораздо более правовой моделью распространения информации то такой стремительный взлёт ИИ инструментов был бы просто невозможен. Но это какая-то альтернативная вселенная была бы, а де-факто пиратскими материалами пользуются если не весь AI бигтех, то большинство.

#ai #piracy #books
👍15👏3❤‍🔥2🔥21
Наблюдаю взлет сервисов автоматического документирования публичных (и не публичных) репозиториев кода. Помимо хорошо известного DeepWiki есть, как минимум, Zread.ai и os.ninja, DeepWiki-Open, OpenDeepWiki, GitSummarize, DeepDocs и другие.

Некоторые из них даже выглядят симпатично, но ИМХО, в генерации документации для открытых репозиториев есть минус в том что это будет хорошо пока Github не сделает это как часть их подписки и тогда у всех сервисов которые сейчас есть и создаются останется востребованность только для кода вне Github'а или же придется очень сильно конкурировать за качество итоговой документации.

В общем, выглядит это всё это как интересный тренд, но с непонятным итогом потому что неявным маркетмейкером тут является Github (Microsoft) который быстро может убить все эти попытки, ну или как минимум сильно обесценить.

Но сама идея интересная и самое её очевидное применение legaltech. Потому что понятное структурированное и логичное изложение НПА по отдельности и по блокам это то что нехватает очень сильно. Мне, правда, самому легалтех не очень интересен, ибо я много матом ругаться и коньяка пить начинаю когда читаю законы. Но общая идея, ИМХО, понятна - в областях где есть объекты требующие подробного понятного изложения и где нет подобных маркетмейкеров подход через автогенерацию документацию в стиле вики будет оправдан

#thoughts #ai #documentation
🔥421🤔1
Полезные ссылки про данные, технологии и не только:
- Agent Psychosis: Are We Going Insane? автор рассуждает о том наступил ли уже агентский психоз у разработчиков или ещё нет и на что это влияет. Короткий ответ - да, наступил. Что дальше то? Агенты психиатры? Не помогут;)
- I Made Zig Compute 33 Million Satellite Positions in 3 Seconds. No GPU Required. автор решил достаточно ресурсоемкую задачу астрометрии с помощью связки Python + Zig, сравнил с реализацией на Rust и пишет про лучшую производительность у Zig. С одной стороны ожидаемый результат, с другой критерий производительности далеко не единственный и доступность разработчиков на рынке имеет значение.
- RzWeb онлайн инструмент для реверс инжениринга (анализа работы и содержания файлов программ) написанный на WebAssembly. В последние годы я так редко сталкиваюсь с задачами копания в исполняемых файлах (потому что от рынка инфобеза уже давно далек), но такие инструменты люблю
- OpenWork аналог Claude Work на базе открытого кода OpenCode. Сам продукт тоже с открытым кодом. Для не-разработчиков может быть удобным инструментом, правда для задач deep research я, всё же, применял бы MiroThinker (доступен не во всех юрисдикциях).

#opensource #tools #ai #aiagents
👍5
Prism от OpenAI - свежий их сервис по помощи исследователям в написании статей. Причем Prism помогает писать статьи сразу в LaTeX в облаке вместе с ИИ ассистентом. Фактически OpenAI одним махом сейчас поубивали десятки стартапов которые делали разные инструменты для помощи исследователям в научной работе. Собственно это главный риск у нишевых ИИ стартапов сейчас - быстрое их убийство крупняком если они чувствуют хороший потенциал в нише.

А я вот на эту тему задумался что скоро в рамках требований scientific integrity от исследователей будут требовать предоставлять протокол коммуникации с ИИ ассистентом вместе с научной работой чтобы верифицировать вклад самого исследователя и того что он не применял ИИ ассистента для подлога референсов, данных и так далее.

Впрочем Prism пока является инструментом скорее универсальным и в более узких областях больше вероятности специализированных ИИ ассистентов (физика, биоинформатика).

#ai #research #tools
9👍4🌚1
Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная

#readings #data #ai #economics
🔥8
Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon

#opensource #ai #data #readings
👍11
Полезные ссылки про данные, технологии и не только:
- The Economics of the Modern Data Stack есть ощущение что сам термин Modern Data Stack уже уходит в прошлое, но тут любопытный разговор про ETL продукты с открытым кодом и про то что Matatika поглотили Meltano. Лично мне продукт Meltano нравился на каких-то ранних его стадиях когда они форкнулись из Gitlab, но дальше они как-то совсем провалили коммуникацию с сообществом. Причем я не могу понять как они такое умудрились.
- Antigravity Manager open source инструмент для управления аккаунтами для работы с Google Antigravity. Решает важную проблему с тем что работать с Antigravity с корпоративного аккаунта очень накладно и откровенно неудобно. Вообще Google сделали хороший продукт технически и весьма неудобный в части управления им. Инструмент на китайском языке почти полностью
- Inside OpenAI’s in-house data agent о том как с помощью дата агента работают с данными внутри OpenAI. Любопытны идеи, но повторять один в один такое не надо, то что могут позволить себе те у кого ресурсы не ограничены - это не для всех.

#readings #ai #data
👍5🔥21
ИИ по факсу в Германии https://simple-fax.de/fax-ki

Внутри LLM модели от OpenAI.

Как ответ на вопрос "использует ли ещё кто-то факсы?"😎

Никто еще не подключил ИИ к СМС?

#ai #curiosities #germany
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23🔥2