Ivan Begtin
9.07K subscribers
2.55K photos
5 videos
114 files
5.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Свежая модель o3 от OpenAI умеет неплохо в местоположение по фотографии, угадывает с большой точностью не всё, но многое. Для OSINT бесценный инструмент.

Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.

Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.


#ai #photo #tools #osint
🔥13
Печальная новость, Microsoft выключает API к их поиску Bing [1] с 11 августа 2025 года, через менее чем 3 месяца. Учитывая что у Google нет API к их поисковому индексу, наличие поиска у второго по размерам поисковика мира (Bing'у) было важным подспорьем для многих.

В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".

У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).

В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.

Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/

#search #api #tools
😢3👍1🌚1
Появилось настольное приложение Qwen [1] для Windows и MacOSX через которую можно работать с 5 облачными языковыми моделями этого семейства LLM. Это не local-first и не local-only, все языковые модели облачные поэтому чувствительные тексты и документы туда направлять не будет разумным, но в остальном удобно для тех кто кто не может использовать другие LLM из-за геоблокировок. Важный объявленный плюс - поддержка MCP. Мне, правда, так и не удалось подключить Qwen к локальному MCP серверу по http streaming, хотя через LM Studio всё прекрасно работало. Но, будем надеяться, что это скоро исправят.

Ссылки:
[1] https://qwen.ai/download

#llm #qwen #ai #tools
1👍10
В продолжение текста о предубеждениях программистов, команда с которой я тогда общался - это команда Open Data Editor, open source приложения от Open Knowledge Foundation для валидации данных, изначально публикуемых на порталах открытых данных вроде CKAN.

Мне вообще для многих разных задач всегда был нужен похожий инструмент который помогал бы в задачах обработки и верификации данных и изначально ребята ребята его и делали с возможностью подготовить данные для публикации в CKAN/Zenodo, почистить их и тд.

Теперь:
1. Они добавили ИИ функции исключительно через локальные LLM
2. Убрали публикацию в CKAN и Zenodo
3. Переосмыслили приложение в сторону data exploration и data validation, практически полностью убрав все функции редактирования данных.

В итоге:
- ИИ функции не работают поскольку используются самые слабые ИИ модели и всё выполняется локально
- ориентация на нетехнических пользователей
- всё сделано в виде десктопного приложения, но у разработчиков нет компьютеров с Windows поэтому на Windows они не тестируют и приложение на Windows регулярно падает, скорее всего также из-за ИИ функций
- валидация данных без последующей возможности изменения данных не приносит счастья, даже если ошибки найдены
- у пользователей постоянный вопросы "какие промпты писать?" потому что оказывается что промптинг сам по себе на бытовые вопросы - это несложно, а промптинг в отношении данных - вопросы вызывает.

По моим ощущениям всё это скорее печально, но вообще экосистема открытых данных резко контрастирует с инструментами для дата аналитиков. Есть ощущение что она очень сильно отстаёт и ориентируется на пользователей с весьма низкими навыками вместо обучения их к применению более развитых инструментов. Причём на пользователей из наименее развитых стран, при этом не учитывая что у них нет достаточно мощного оборудования для работы с LLM локально.

Другой подход есть, к примеру, у расширения ИИ для OpenRefine которое позволяет обрабатывать данные подключая разных провайдеров, Ollama или Grok или OpenRouter.

А пока получается что удобного инструмента для публикации в каталогах данных нет(

#opensource #thoughts #data #opendata #tools
🤔4👍32
Полезные ссылки про данные, технологии и не только:
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.

#opensource #tools #ai #notetaking #aiagents #rdbms
53❤‍🔥1🔥1
Я чуть было это не пропустил, а оказывается в конце августа Microsoft передали в Linux Foundation выложенную в открытый код DocumentDB, NoSQL базу данных совместимую с MongoDB. Под свободной лицензией MIT, что выгодно отличает от самой MongoDB под превдо-открытой лицензией SSPL.

Документации там ещё скудновато, уровень совместимости с API MongoDB до конца не понятен, но он вроде как неплохой, поскольку основные операции в MongoDB там должны поддерживаться.

DocumentDB внутри работает на PostgresSQL и самая простая установка его через Docker (не самая правильная быть может), но есть и альтернативы. Непонятно что пока там с API из коробки, MongoDB в редакции сообщества не развивалось в сторону предоставления GraphQL по умолчанию, например, и API там было упрощённое, хочется надеяться что в будет дорожная карта где такое прояснится.

А вообще это всё напоминает историю с Elasticsearch vs OpenSearch.

#opensource #rdbms #data #tools
4👍3🤔1
Для тех кто работает с данными на регулярной основе и любит командную строку:
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам

Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.

Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.

#data #tools #datatools
8💯32
Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны

#ai #data #laws #FAIR #wikipedia #tools #books
👍43
Полезные ссылки про данные, технологи и не только:
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.

#opensource #tools #datatools
👍1075
Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.

- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML

А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных

И это далеко не полный список.

#opendata #specifications #datasets #standards
🔥21🌚1