Ещё один полезный/любопытный инструмент ChartDB по проектированию баз данных [1]. Умеет быстро делать структуру из нескольких SQL СУБД, выглядит простым и удобным. Открытый код AGPL-3.0 [2].
Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb
#opensource #tools #databases
Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb
#opensource #tools #databases
❤7
Со стороны и не скажешь, но всю жизнь я лично был большим фанатом командной строки. Потому что печатать быстрее и удобнее чем кликать в интерфейсе, а визуальное растровое отображение элементов интерфейса нужно, на самом деле, очень редко.
Тем больше меня радует начавшийся ренессанс TUI (Text User Interface) приложений, в виде командной строки или в виде интерактивных, но текстовых, инструментов которые можно запускать локально или на терминале.
Поэтому подборка полезного open source с командной строкой и TUI:
- stu [1] текстовый навигатор (TUI) для корзин s3. Удобно для тех кто любит командную строку и работу с серверами через терминал. Работает на базе движка ratatui [2] для Rust, помогающего быстро создавать текстовые приложения.
- csvlens [3] ещё одна утилита с текстовым интерфейсом для манипуляции с CSV файлами. Тоже на базе ratatui. Кстати, стоит посмотреть галерею других TUI приложения, там много полезного [4]
- goaccess [5] текстовый интерфейс для анализатора логов веб сервера в реальном времени.
- visidata [6] текстовый интерфейс для просмотра табличных данных в разных форматах
- htop [7] альтернатива top, монитору процессов для Unix.
Ссылки:
[1] https://github.com/lusingander/stu
[2] https://github.com/ratatui/ratatui
[3] https://github.com/YS-L/csvlens
[4] https://ratatui.rs/showcase/apps/
[5] https://github.com/allinurl/goaccess
[6] https://github.com/saulpw/visidata
[7] https://github.com/htop-dev/htop/
#cli #commandline #opensource #tools #datatools
Тем больше меня радует начавшийся ренессанс TUI (Text User Interface) приложений, в виде командной строки или в виде интерактивных, но текстовых, инструментов которые можно запускать локально или на терминале.
Поэтому подборка полезного open source с командной строкой и TUI:
- stu [1] текстовый навигатор (TUI) для корзин s3. Удобно для тех кто любит командную строку и работу с серверами через терминал. Работает на базе движка ratatui [2] для Rust, помогающего быстро создавать текстовые приложения.
- csvlens [3] ещё одна утилита с текстовым интерфейсом для манипуляции с CSV файлами. Тоже на базе ratatui. Кстати, стоит посмотреть галерею других TUI приложения, там много полезного [4]
- goaccess [5] текстовый интерфейс для анализатора логов веб сервера в реальном времени.
- visidata [6] текстовый интерфейс для просмотра табличных данных в разных форматах
- htop [7] альтернатива top, монитору процессов для Unix.
Ссылки:
[1] https://github.com/lusingander/stu
[2] https://github.com/ratatui/ratatui
[3] https://github.com/YS-L/csvlens
[4] https://ratatui.rs/showcase/apps/
[5] https://github.com/allinurl/goaccess
[6] https://github.com/saulpw/visidata
[7] https://github.com/htop-dev/htop/
#cli #commandline #opensource #tools #datatools
GitHub
GitHub - lusingander/stu: TUI explorer application for Amazon S3 (AWS S3) 🪣
TUI explorer application for Amazon S3 (AWS S3) 🪣. Contribute to lusingander/stu development by creating an account on GitHub.
🔥15👍3❤1
Свежая модель o3 от OpenAI умеет неплохо в местоположение по фотографии, угадывает с большой точностью не всё, но многое. Для OSINT бесценный инструмент.
Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.
Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.
#ai #photo #tools #osint
Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.
Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.
#ai #photo #tools #osint
🔥13
Печальная новость, Microsoft выключает API к их поиску Bing [1] с 11 августа 2025 года, через менее чем 3 месяца. Учитывая что у Google нет API к их поисковому индексу, наличие поиска у второго по размерам поисковика мира (Bing'у) было важным подспорьем для многих.
В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".
У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).
В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.
Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/
#search #api #tools
В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".
У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).
В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.
Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/
#search #api #tools
Neowin
Microsoft pulls plug on Bing Search APIs
Microsoft has announced the retirement of its popular Bing Search APIs, effective August 11, 2025, surprising many developers who relied on them.
😢3👍1🌚1
Появилось настольное приложение Qwen [1] для Windows и MacOSX через которую можно работать с 5 облачными языковыми моделями этого семейства LLM. Это не local-first и не local-only, все языковые модели облачные поэтому чувствительные тексты и документы туда направлять не будет разумным, но в остальном удобно для тех кто кто не может использовать другие LLM из-за геоблокировок. Важный объявленный плюс - поддержка MCP. Мне, правда, так и не удалось подключить Qwen к локальному MCP серверу по http streaming, хотя через LM Studio всё прекрасно работало. Но, будем надеяться, что это скоро исправят.
Ссылки:
[1] https://qwen.ai/download
#llm #qwen #ai #tools
Ссылки:
[1] https://qwen.ai/download
#llm #qwen #ai #tools
1👍10
В продолжение текста о предубеждениях программистов, команда с которой я тогда общался - это команда Open Data Editor, open source приложения от Open Knowledge Foundation для валидации данных, изначально публикуемых на порталах открытых данных вроде CKAN.
Мне вообще для многих разных задач всегда был нужен похожий инструмент который помогал бы в задачах обработки и верификации данных и изначально ребята ребята его и делали с возможностью подготовить данные для публикации в CKAN/Zenodo, почистить их и тд.
Теперь:
1. Они добавили ИИ функции исключительно через локальные LLM
2. Убрали публикацию в CKAN и Zenodo
3. Переосмыслили приложение в сторону data exploration и data validation, практически полностью убрав все функции редактирования данных.
В итоге:
- ИИ функции не работают поскольку используются самые слабые ИИ модели и всё выполняется локально
- ориентация на нетехнических пользователей
- всё сделано в виде десктопного приложения, но у разработчиков нет компьютеров с Windows поэтому на Windows они не тестируют и приложение на Windows регулярно падает, скорее всего также из-за ИИ функций
- валидация данных без последующей возможности изменения данных не приносит счастья, даже если ошибки найдены
- у пользователей постоянный вопросы "какие промпты писать?" потому что оказывается что промптинг сам по себе на бытовые вопросы - это несложно, а промптинг в отношении данных - вопросы вызывает.
По моим ощущениям всё это скорее печально, но вообще экосистема открытых данных резко контрастирует с инструментами для дата аналитиков. Есть ощущение что она очень сильно отстаёт и ориентируется на пользователей с весьма низкими навыками вместо обучения их к применению более развитых инструментов. Причём на пользователей из наименее развитых стран, при этом не учитывая что у них нет достаточно мощного оборудования для работы с LLM локально.
Другой подход есть, к примеру, у расширения ИИ для OpenRefine которое позволяет обрабатывать данные подключая разных провайдеров, Ollama или Grok или OpenRouter.
А пока получается что удобного инструмента для публикации в каталогах данных нет(
#opensource #thoughts #data #opendata #tools
Мне вообще для многих разных задач всегда был нужен похожий инструмент который помогал бы в задачах обработки и верификации данных и изначально ребята ребята его и делали с возможностью подготовить данные для публикации в CKAN/Zenodo, почистить их и тд.
Теперь:
1. Они добавили ИИ функции исключительно через локальные LLM
2. Убрали публикацию в CKAN и Zenodo
3. Переосмыслили приложение в сторону data exploration и data validation, практически полностью убрав все функции редактирования данных.
В итоге:
- ИИ функции не работают поскольку используются самые слабые ИИ модели и всё выполняется локально
- ориентация на нетехнических пользователей
- всё сделано в виде десктопного приложения, но у разработчиков нет компьютеров с Windows поэтому на Windows они не тестируют и приложение на Windows регулярно падает, скорее всего также из-за ИИ функций
- валидация данных без последующей возможности изменения данных не приносит счастья, даже если ошибки найдены
- у пользователей постоянный вопросы "какие промпты писать?" потому что оказывается что промптинг сам по себе на бытовые вопросы - это несложно, а промптинг в отношении данных - вопросы вызывает.
По моим ощущениям всё это скорее печально, но вообще экосистема открытых данных резко контрастирует с инструментами для дата аналитиков. Есть ощущение что она очень сильно отстаёт и ориентируется на пользователей с весьма низкими навыками вместо обучения их к применению более развитых инструментов. Причём на пользователей из наименее развитых стран, при этом не учитывая что у них нет достаточно мощного оборудования для работы с LLM локально.
Другой подход есть, к примеру, у расширения ИИ для OpenRefine которое позволяет обрабатывать данные подключая разных провайдеров, Ollama или Grok или OpenRouter.
А пока получается что удобного инструмента для публикации в каталогах данных нет(
#opensource #thoughts #data #opendata #tools
Telegram
Ivan Begtin
О предубеждениях программистов
На днях мне довелось общаться с командой которая делает один любопытный продукт по обработке данных. В какой-то момент они решили добавить в продукт работы с данными с помощью ИИ и, поначалу, поэкспериментировали с подключением…
На днях мне довелось общаться с командой которая делает один любопытный продукт по обработке данных. В какой-то момент они решили добавить в продукт работы с данными с помощью ИИ и, поначалу, поэкспериментировали с подключением…
🤔4👍3❤2
Полезные ссылки про данные, технологии и не только:
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.
#opensource #tools #ai #notetaking #aiagents #rdbms
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.
#opensource #tools #ai #notetaking #aiagents #rdbms
DuckDB
DuckDB in Science
A curated collection of papers, lectures, and podcasts exploring DuckDB in research and academia.
❤5✍3❤🔥1🔥1
Я чуть было это не пропустил, а оказывается в конце августа Microsoft передали в Linux Foundation выложенную в открытый код DocumentDB, NoSQL базу данных совместимую с MongoDB. Под свободной лицензией MIT, что выгодно отличает от самой MongoDB под превдо-открытой лицензией SSPL.
Документации там ещё скудновато, уровень совместимости с API MongoDB до конца не понятен, но он вроде как неплохой, поскольку основные операции в MongoDB там должны поддерживаться.
DocumentDB внутри работает на PostgresSQL и самая простая установка его через Docker (не самая правильная быть может), но есть и альтернативы. Непонятно что пока там с API из коробки, MongoDB в редакции сообщества не развивалось в сторону предоставления GraphQL по умолчанию, например, и API там было упрощённое, хочется надеяться что в будет дорожная карта где такое прояснится.
А вообще это всё напоминает историю с Elasticsearch vs OpenSearch.
#opensource #rdbms #data #tools
Документации там ещё скудновато, уровень совместимости с API MongoDB до конца не понятен, но он вроде как неплохой, поскольку основные операции в MongoDB там должны поддерживаться.
DocumentDB внутри работает на PostgresSQL и самая простая установка его через Docker (не самая правильная быть может), но есть и альтернативы. Непонятно что пока там с API из коробки, MongoDB в редакции сообщества не развивалось в сторону предоставления GraphQL по умолчанию, например, и API там было упрощённое, хочется надеяться что в будет дорожная карта где такое прояснится.
А вообще это всё напоминает историю с Elasticsearch vs OpenSearch.
#opensource #rdbms #data #tools
❤4👍3🤔1
Для тех кто работает с данными на регулярной основе и любит командную строку:
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам
Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.
Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.
#data #tools #datatools
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам
Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.
Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.
#data #tools #datatools
❤8💯3✍2
Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны
#ai #data #laws #FAIR #wikipedia #tools #books
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны
#ai #data #laws #FAIR #wikipedia #tools #books
Slidecrafting
Making beautiful slides with reveal.js and Quarto
👍4❤3
Полезные ссылки про данные, технологи и не только:
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.
#opensource #tools #datatools
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.
#opensource #tools #datatools
www.dash.builders
Dash - Data Exploration Tool
Open-source data visualization tool with DuckDB.
👍10✍7❤5
Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.
- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML
А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных
И это далеко не полный список.
#opendata #specifications #datasets #standards
- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML
А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных
И это далеко не полный список.
#opendata #specifications #datasets #standards
Substack
Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
«Буду делать хорошо, и не буду — плохо». (Маяковский)
🔥2❤1🌚1
Полезные ссылки про данные, технологии и не только:
- New updates and more access to Google Earth AI команда Google Earth AI рассказывает о Geospatial Reasoning подходе при котором не просто определяют место удара шторма, но и предсказывают каким сообществам достанется более других
- Building Capacityfor Data Access,Analysis + Accountability доклад Columbia World Projects о развитии открытого доступа. Полезный для понимания того какие инвестиции сейчас направляются в сторону открытости инфраструктуры доступа к данным для исследователей
- Deta Surf цифровая записная книжка с AI внутри для помощи студентам в учёбе, с открытым кодом и ориентированной на самостоятельное изучение материалов с помощью AI
- oxdraw инструмент с открытым кодом для создания диаграмм, из полезных фич в том что он построен на отображении диаграммы по декларативному описанию, но позволяет автоматически создавать это декларативное описание через интерактивный инструмент. Мне очень нравится подход даже если сам инструмент ещё только-только появился
- How We Saved $500,000 Per Year by Rolling Our Own “S3” инженеры из Nanit пишут о том как сделали упрощенный аналог AWS S3 и сэкономили уйму денег. Как я их понимаю, вокруг S3 уже целая индустрия выстроилась помогателей экономить на их инфраструктуре, но заменить их на что-то свое может быть более оптимальным решением
#ai #tools #opensource #readings
- New updates and more access to Google Earth AI команда Google Earth AI рассказывает о Geospatial Reasoning подходе при котором не просто определяют место удара шторма, но и предсказывают каким сообществам достанется более других
- Building Capacityfor Data Access,Analysis + Accountability доклад Columbia World Projects о развитии открытого доступа. Полезный для понимания того какие инвестиции сейчас направляются в сторону открытости инфраструктуры доступа к данным для исследователей
- Deta Surf цифровая записная книжка с AI внутри для помощи студентам в учёбе, с открытым кодом и ориентированной на самостоятельное изучение материалов с помощью AI
- oxdraw инструмент с открытым кодом для создания диаграмм, из полезных фич в том что он построен на отображении диаграммы по декларативному описанию, но позволяет автоматически создавать это декларативное описание через интерактивный инструмент. Мне очень нравится подход даже если сам инструмент ещё только-только появился
- How We Saved $500,000 Per Year by Rolling Our Own “S3” инженеры из Nanit пишут о том как сделали упрощенный аналог AWS S3 и сэкономили уйму денег. Как я их понимаю, вокруг S3 уже целая индустрия выстроилась помогателей экономить на их инфраструктуре, но заменить их на что-то свое может быть более оптимальным решением
#ai #tools #opensource #readings
❤5
Подборка ссылок про данные, технологии и не только:
- transferia инструмент для переноса данных между разными базами данных причем поддерживает не только SQL, но и выгрузку и загрузку данных в MongoDB, OpenSearch, Elasticsearch. Судя по именам разработчиков и поддержке YTSaurus создатели продукта русскоязычные. Сам продукт пока не очень популярен, но лично у меня под такое задачки есть, надо тестировать
- Affine набирающая популярность замена Notion с открытым кодом. Делает его сингапурский стартап которые создают на его базе облачный сервис с подпиской и они же распространяют версию с открытым кодом. Выглядит симпатично и лозунг у них Write, Draw, Plan. Пиши, рисуй, планируй. ПРП в общем
#opensource #data #tools
- transferia инструмент для переноса данных между разными базами данных причем поддерживает не только SQL, но и выгрузку и загрузку данных в MongoDB, OpenSearch, Elasticsearch. Судя по именам разработчиков и поддержке YTSaurus создатели продукта русскоязычные. Сам продукт пока не очень популярен, но лично у меня под такое задачки есть, надо тестировать
- Affine набирающая популярность замена Notion с открытым кодом. Делает его сингапурский стартап которые создают на его базе облачный сервис с подпиской и они же распространяют версию с открытым кодом. Выглядит симпатично и лозунг у них Write, Draw, Plan. Пиши, рисуй, планируй. ПРП в общем
#opensource #data #tools
GitHub
GitHub - transferia/transferia: Open Source Cloud Native Ingestion engine
Open Source Cloud Native Ingestion engine. Contribute to transferia/transferia development by creating an account on GitHub.
✍5🤝4❤2
Я на выходных столкнулся с очередной ситуацией когда пришлось чистить свободное место на дисках, но при этом не хотелось архивировать некоторые файлы для холодного хранения, они нужны были под рукой. И я вспомнил про утилиту filesrepack которую я когда-то давно писал для пересжатия существующих файлов и архивов, это когда архивы и их содержание сжимаются более сильными алгоритмами сжатия чем это было сделано изначально и когда внутри них файлы тоже пересжимаются, обычно без потери качества, или с минимальной потерей в качестве изображений, там где это некритично.
Сама утилита эта работа как обертка вокруг множества приложений в операционной системе: pngquant, jpegoptim, 7z, zip и тд, но вот одна беда что она устарела и её надо было переписать.
Так что я её использовал как второй полигон для проверки кодирования с помощью ИИ (первый был с библиотекой iterabledata).
Итого:
- утилита filesrepack полностью переписана и теперь умеет две команды: repack - сжимать одиночные файлы, bulk - сжимать файлы внутри папки, рекурсивно
- добавлена поддержка множества новых форматов файлов: tiff, parquet, avi, avf, svg, gif, rtb, pages, numbers, key и других
- 90% кода написано с помощью ИИ агента Cursor'а (2-я версия Cursor, режим автовыбора моделей)
- существенные ошибки были лишь пару раз, достаточно легко они исправлялись
- у ИИ агента очень неплохое понимание контекста и того для чего сделано приложение и очень хорошие ответы на вопросы вроде "проанализируй приложение и предложи какие опции были бы полезны для его пользователей" или "предложи форматы файлов которые можно было бы оптимизировать и которые пока не поддерживаются"
- наибольшая польза, по прежнему, в автоматическом написании документации что очень удобно для всякого рода утилит и программных библиотек где не надо скриншотов и сложных сценариев.
- для такого простого практического применения ИИ агенты, действительно, прекрасно подходят и ускоряют работы многократно, а также помогают закрыть дыры в документировании, тестировании и тд.
- по ощущениям можно уже применять ИИ агенты и для промышленного применения в сложных системах, но, конечно, с существенно большей осторожностью и дополнительными мерами по верификации кода
- все в совокупности, конечно, огромный прогресс за последний год. Ранее когда я пытался применять ИИ агенты, было ощущение что галлюцинаций существенно больше чем результата.
- в любом случае джуниорам я категорически не рекомендую начинать изучение программирования через ИИ ассистенты. Что бы понимать насколько созданный код хорош и адекватен нужно уметь создавать его самостоятельно иначе можно наделать серьёзных ошибок
Далее я уже расскажу про практическое применение ИИ для работы с кодом и создания индекса в Dateno, но этим кодом поделиться уже можно только в отдельных отчуждаемых компонентах.
#opensource #tools #ai #coding #thoughts
Сама утилита эта работа как обертка вокруг множества приложений в операционной системе: pngquant, jpegoptim, 7z, zip и тд, но вот одна беда что она устарела и её надо было переписать.
Так что я её использовал как второй полигон для проверки кодирования с помощью ИИ (первый был с библиотекой iterabledata).
Итого:
- утилита filesrepack полностью переписана и теперь умеет две команды: repack - сжимать одиночные файлы, bulk - сжимать файлы внутри папки, рекурсивно
- добавлена поддержка множества новых форматов файлов: tiff, parquet, avi, avf, svg, gif, rtb, pages, numbers, key и других
- 90% кода написано с помощью ИИ агента Cursor'а (2-я версия Cursor, режим автовыбора моделей)
- существенные ошибки были лишь пару раз, достаточно легко они исправлялись
- у ИИ агента очень неплохое понимание контекста и того для чего сделано приложение и очень хорошие ответы на вопросы вроде "проанализируй приложение и предложи какие опции были бы полезны для его пользователей" или "предложи форматы файлов которые можно было бы оптимизировать и которые пока не поддерживаются"
- наибольшая польза, по прежнему, в автоматическом написании документации что очень удобно для всякого рода утилит и программных библиотек где не надо скриншотов и сложных сценариев.
- для такого простого практического применения ИИ агенты, действительно, прекрасно подходят и ускоряют работы многократно, а также помогают закрыть дыры в документировании, тестировании и тд.
- по ощущениям можно уже применять ИИ агенты и для промышленного применения в сложных системах, но, конечно, с существенно большей осторожностью и дополнительными мерами по верификации кода
- все в совокупности, конечно, огромный прогресс за последний год. Ранее когда я пытался применять ИИ агенты, было ощущение что галлюцинаций существенно больше чем результата.
- в любом случае джуниорам я категорически не рекомендую начинать изучение программирования через ИИ ассистенты. Что бы понимать насколько созданный код хорош и адекватен нужно уметь создавать его самостоятельно иначе можно наделать серьёзных ошибок
Далее я уже расскажу про практическое применение ИИ для работы с кодом и создания индекса в Dateno, но этим кодом поделиться уже можно только в отдельных отчуждаемых компонентах.
#opensource #tools #ai #coding #thoughts
GitHub
GitHub - ivbeg/filerepack: Recompressing tool to repack .zip and zip based files, png and jpeg images
Recompressing tool to repack .zip and zip based files, png and jpeg images - ivbeg/filerepack
👍10✍4🏆2
AgenticSeek альтернатива Manus умеющая выполнять разные, в том числе довольно сложные задачи требующие запуска приложений и браузера иных агентских операций. Важное отличие - открытый код и локальный (приватный) запуск.
#opensource #ai #privacy #llm #tools #datatools
#opensource #ai #privacy #llm #tools #datatools
✍10🔥1
DeepScholar свежий ИИ агент помощник ученого-исследователя. В авторах команда из Стенфорда которые делали Lotus, фреймворк по работе с датасетами с помощью LLM (собственно читая про Lotus я про DeepScholar и узнал).
Это не единственный подобный инструмент и их становится все больше.
#ai #research #tools #datatools
Это не единственный подобный инструмент и их становится все больше.
#ai #research #tools #datatools
✍11⚡4
В рубрике полезных инструментов для сбора данных tdl (Telegram Downloader) инструмент командной строки,написан на Go, под лицензией AGPL-3.0, позволяет выгружать списки сообщений, сами сообщения и файлы и проводить другие манипуляции по выгрузке списков чатов, их участников и другой информации.
Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.
Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.
Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.
Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.
#opendata #opensource #digitalpreservation #data #tools
Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.
Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.
Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.
Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.
#opendata #opensource #digitalpreservation #data #tools
GitHub
GitHub - iyear/tdl: 📥 A Telegram toolkit written in Golang
📥 A Telegram toolkit written in Golang. Contribute to iyear/tdl development by creating an account on GitHub.
👍12✍6⚡2❤1
Как обмениваться большими файлами не привлекая внимания санитаров без необходимости использовать облачные диски или аренды серверов? AltSendme инструмент по отправке данных через зашифрованное peer-to-peer соединение, представляет собой GUI приложение для Linux, Windows и Mac. Можно выбрать конкретный файл и после нажатия на "Start sharing" приложение создает длинны код/тикет который надо любым способом передать получателю и который после ввода этого кода в это же приложение у себя быстро и напрямую скачивает файл.
Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.
Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.
Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.
#opensource #filetransfer #tools #datatools
Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.
Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.
Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.
#opensource #filetransfer #tools #datatools
🔥17❤4✍2
Ещё один полезный инструмент для дата инженера и аналитика data-peek SQL клиент для десктопа под Windows, Mac и Linux с поддержкой PostgreSQL, MySQL и Microsoft SQL. Для личного пользования лицензия MIT и открытый код, для коммерческого отдельная лицензия и платное использование.
В целом ничего нового, кроме построителя SQL запросов через ИИ модели, поддерживает многие модели включая локальные через Ollama.
Как же много таких клиентов появилось в последнее время, кто бы сделал аналогичное для NoSQL: Elasticsearch, OpenSearch, MongoDB и тд.
А еще лучше для SPARQL'я потому что программировать SPARQL запросы это боль для психически неподготовленной личности. Именно очеловечивание запросов способно придать SPARQL'ю новую жизнь, по моему разумению.
Но понятно, на самом деле, почему таких инструментов нет, потому что ёмкость рынка инструментов для SQL превышает все остальные. Но тогда уж надо добавлять поддержку не Microsoft SQL, а Clickhouse, SQLite, DuckDB и тд.
#opensource #datatools #dataengineering #tools
В целом ничего нового, кроме построителя SQL запросов через ИИ модели, поддерживает многие модели включая локальные через Ollama.
Как же много таких клиентов появилось в последнее время, кто бы сделал аналогичное для NoSQL: Elasticsearch, OpenSearch, MongoDB и тд.
А еще лучше для SPARQL'я потому что программировать SPARQL запросы это боль для психически неподготовленной личности. Именно очеловечивание запросов способно придать SPARQL'ю новую жизнь, по моему разумению.
Но понятно, на самом деле, почему таких инструментов нет, потому что ёмкость рынка инструментов для SQL превышает все остальные. Но тогда уж надо добавлять поддержку не Microsoft SQL, а Clickhouse, SQLite, DuckDB и тд.
#opensource #datatools #dataengineering #tools
👏4👍2🤝1