Полезные ссылки про данные, технологии и не только:
- FOR-species20K dataset [1] датасет результатов лазерного сканирования более 20 тысяч деревьев и идентификация их видов на основе этих данных
- DuckDB Tricks – Part 1 [2] полезные трюки по работе с данными с помощью DuckDB.
- ncWMS Guide [3] руководство по серверу WMS ncWMS, активно используется вместе с серверами Thredds в метеорологии. Начал их активно добавлять в реестр каталогов данных, скоро проиндексируются в Dateno
- Mapbender 4.0 [4] вышла 4-я версия Mapbender, популярного open source геопортала используемого в ЕС во многих странах.
- SuperMap [5] популярный в Китае геосервер, альтернатива ArcGIS. Используется во многих китайских госорганах, компаниях и активно распространяется в южной, восточной и юго-восточной азии. Имеет частичную совместимость с ArcGIS
- Mealie [6] сервер для ведения рецептов, открытый код и импорт из разных источников. Локализован на многие языки включая русский.
- Slackdump [7] архиватор публичных и личных сообщений из Slack'а. Не требует админских привилегий, открытый код.
Ссылки:
[1] https://zenodo.org/records/13255198
[2] https://duckdb.org/2024/08/19/duckdb-tricks-part-1
[3] https://reading-escience-centre.gitbooks.io/ncwms-user-guide/content/
[4] https://mapbender.org/aktuelles/details/mapbender-version-400-released/
[5] https://www.supermap.com/en-us/
[6] https://github.com/mealie-recipes/mealie
[7] https://github.com/rusq/slackdump
#opensource #data #datatools #geodata #geoportals #tools #datasets
- FOR-species20K dataset [1] датасет результатов лазерного сканирования более 20 тысяч деревьев и идентификация их видов на основе этих данных
- DuckDB Tricks – Part 1 [2] полезные трюки по работе с данными с помощью DuckDB.
- ncWMS Guide [3] руководство по серверу WMS ncWMS, активно используется вместе с серверами Thredds в метеорологии. Начал их активно добавлять в реестр каталогов данных, скоро проиндексируются в Dateno
- Mapbender 4.0 [4] вышла 4-я версия Mapbender, популярного open source геопортала используемого в ЕС во многих странах.
- SuperMap [5] популярный в Китае геосервер, альтернатива ArcGIS. Используется во многих китайских госорганах, компаниях и активно распространяется в южной, восточной и юго-восточной азии. Имеет частичную совместимость с ArcGIS
- Mealie [6] сервер для ведения рецептов, открытый код и импорт из разных источников. Локализован на многие языки включая русский.
- Slackdump [7] архиватор публичных и личных сообщений из Slack'а. Не требует админских привилегий, открытый код.
Ссылки:
[1] https://zenodo.org/records/13255198
[2] https://duckdb.org/2024/08/19/duckdb-tricks-part-1
[3] https://reading-escience-centre.gitbooks.io/ncwms-user-guide/content/
[4] https://mapbender.org/aktuelles/details/mapbender-version-400-released/
[5] https://www.supermap.com/en-us/
[6] https://github.com/mealie-recipes/mealie
[7] https://github.com/rusq/slackdump
#opensource #data #datatools #geodata #geoportals #tools #datasets
Zenodo
FOR-species20K dataset
Description Data for benchmarking tree species classification from proximally-sensed laser scanning data. Data split and usage The data is split into: Development data (dev): these includes 90% of the trees in the dataset and consists of individual tree point…
✍6👍2🔥2
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].
Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.
И всё это в Markdown, расширяемо, и тд.
А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].
Куда ни посмотри, отличный инструмент.
Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals
#opensource #datajournalism #analytics #datadocs #tools
Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.
И всё это в Markdown, расширяемо, и тд.
А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].
Куда ни посмотри, отличный инструмент.
Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals
#opensource #datajournalism #analytics #datadocs #tools
🔥8👍6
Про уход Notion из России, это, увы, неизбежное и в большинстве уходов хуже всего то по каким критериям большая часть сервисов определяют российскую аффиляцию. Какое-то время назад я переписывался с JetBrains по поводу использования их продукта и задавал им вопросы по поводу использования их продукта не в РФ и может ли компания использовать продукт если кто-то из команды будет иметь доступ к нему из РФ. Ответ был - нет, не может.
То есть даже если компания зарегистрирована в Казахстане или Армении, если даже там работает большая часть команды, в команде есть кто-то кто даже если изредка, но работает из РФ, например, приезжая к родственникам, это может рассматриваться как нарушение условий использования сервиса. Потому что дословно "ни один сотрудник не имеет права использовать продукт из России".
В этом проблема и с Notion, в этом могут быть будущие проблемы с использованием Google Workspace и других популярных сервисов, хостинга и тд, просто по критериям блокировки использования по подключению из сетей аффилированных с РФ.
У практически всех популярных онлайн сервисов много альтернатив, лично я надеюсь что больше развития получат open source продукты по модели local-first.
#tools #sanctions #opensource
То есть даже если компания зарегистрирована в Казахстане или Армении, если даже там работает большая часть команды, в команде есть кто-то кто даже если изредка, но работает из РФ, например, приезжая к родственникам, это может рассматриваться как нарушение условий использования сервиса. Потому что дословно "ни один сотрудник не имеет права использовать продукт из России".
В этом проблема и с Notion, в этом могут быть будущие проблемы с использованием Google Workspace и других популярных сервисов, хостинга и тд, просто по критериям блокировки использования по подключению из сетей аффилированных с РФ.
У практически всех популярных онлайн сервисов много альтернатив, лично я надеюсь что больше развития получат open source продукты по модели local-first.
#tools #sanctions #opensource
❤14😢6👍2😁2
Ещё один полезный/любопытный инструмент ChartDB по проектированию баз данных [1]. Умеет быстро делать структуру из нескольких SQL СУБД, выглядит простым и удобным. Открытый код AGPL-3.0 [2].
Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb
#opensource #tools #databases
Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb
#opensource #tools #databases
❤7
Со стороны и не скажешь, но всю жизнь я лично был большим фанатом командной строки. Потому что печатать быстрее и удобнее чем кликать в интерфейсе, а визуальное растровое отображение элементов интерфейса нужно, на самом деле, очень редко.
Тем больше меня радует начавшийся ренессанс TUI (Text User Interface) приложений, в виде командной строки или в виде интерактивных, но текстовых, инструментов которые можно запускать локально или на терминале.
Поэтому подборка полезного open source с командной строкой и TUI:
- stu [1] текстовый навигатор (TUI) для корзин s3. Удобно для тех кто любит командную строку и работу с серверами через терминал. Работает на базе движка ratatui [2] для Rust, помогающего быстро создавать текстовые приложения.
- csvlens [3] ещё одна утилита с текстовым интерфейсом для манипуляции с CSV файлами. Тоже на базе ratatui. Кстати, стоит посмотреть галерею других TUI приложения, там много полезного [4]
- goaccess [5] текстовый интерфейс для анализатора логов веб сервера в реальном времени.
- visidata [6] текстовый интерфейс для просмотра табличных данных в разных форматах
- htop [7] альтернатива top, монитору процессов для Unix.
Ссылки:
[1] https://github.com/lusingander/stu
[2] https://github.com/ratatui/ratatui
[3] https://github.com/YS-L/csvlens
[4] https://ratatui.rs/showcase/apps/
[5] https://github.com/allinurl/goaccess
[6] https://github.com/saulpw/visidata
[7] https://github.com/htop-dev/htop/
#cli #commandline #opensource #tools #datatools
Тем больше меня радует начавшийся ренессанс TUI (Text User Interface) приложений, в виде командной строки или в виде интерактивных, но текстовых, инструментов которые можно запускать локально или на терминале.
Поэтому подборка полезного open source с командной строкой и TUI:
- stu [1] текстовый навигатор (TUI) для корзин s3. Удобно для тех кто любит командную строку и работу с серверами через терминал. Работает на базе движка ratatui [2] для Rust, помогающего быстро создавать текстовые приложения.
- csvlens [3] ещё одна утилита с текстовым интерфейсом для манипуляции с CSV файлами. Тоже на базе ratatui. Кстати, стоит посмотреть галерею других TUI приложения, там много полезного [4]
- goaccess [5] текстовый интерфейс для анализатора логов веб сервера в реальном времени.
- visidata [6] текстовый интерфейс для просмотра табличных данных в разных форматах
- htop [7] альтернатива top, монитору процессов для Unix.
Ссылки:
[1] https://github.com/lusingander/stu
[2] https://github.com/ratatui/ratatui
[3] https://github.com/YS-L/csvlens
[4] https://ratatui.rs/showcase/apps/
[5] https://github.com/allinurl/goaccess
[6] https://github.com/saulpw/visidata
[7] https://github.com/htop-dev/htop/
#cli #commandline #opensource #tools #datatools
GitHub
GitHub - lusingander/stu: TUI explorer application for Amazon S3 (AWS S3) 🪣
TUI explorer application for Amazon S3 (AWS S3) 🪣. Contribute to lusingander/stu development by creating an account on GitHub.
🔥15👍3❤1
Свежая модель o3 от OpenAI умеет неплохо в местоположение по фотографии, угадывает с большой точностью не всё, но многое. Для OSINT бесценный инструмент.
Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.
Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.
#ai #photo #tools #osint
Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.
Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.
#ai #photo #tools #osint
🔥13
Печальная новость, Microsoft выключает API к их поиску Bing [1] с 11 августа 2025 года, через менее чем 3 месяца. Учитывая что у Google нет API к их поисковому индексу, наличие поиска у второго по размерам поисковика мира (Bing'у) было важным подспорьем для многих.
В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".
У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).
В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.
Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/
#search #api #tools
В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".
У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).
В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.
Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/
#search #api #tools
Neowin
Microsoft pulls plug on Bing Search APIs
Microsoft has announced the retirement of its popular Bing Search APIs, effective August 11, 2025, surprising many developers who relied on them.
😢3👍1🌚1
Появилось настольное приложение Qwen [1] для Windows и MacOSX через которую можно работать с 5 облачными языковыми моделями этого семейства LLM. Это не local-first и не local-only, все языковые модели облачные поэтому чувствительные тексты и документы туда направлять не будет разумным, но в остальном удобно для тех кто кто не может использовать другие LLM из-за геоблокировок. Важный объявленный плюс - поддержка MCP. Мне, правда, так и не удалось подключить Qwen к локальному MCP серверу по http streaming, хотя через LM Studio всё прекрасно работало. Но, будем надеяться, что это скоро исправят.
Ссылки:
[1] https://qwen.ai/download
#llm #qwen #ai #tools
Ссылки:
[1] https://qwen.ai/download
#llm #qwen #ai #tools
1👍10
В продолжение текста о предубеждениях программистов, команда с которой я тогда общался - это команда Open Data Editor, open source приложения от Open Knowledge Foundation для валидации данных, изначально публикуемых на порталах открытых данных вроде CKAN.
Мне вообще для многих разных задач всегда был нужен похожий инструмент который помогал бы в задачах обработки и верификации данных и изначально ребята ребята его и делали с возможностью подготовить данные для публикации в CKAN/Zenodo, почистить их и тд.
Теперь:
1. Они добавили ИИ функции исключительно через локальные LLM
2. Убрали публикацию в CKAN и Zenodo
3. Переосмыслили приложение в сторону data exploration и data validation, практически полностью убрав все функции редактирования данных.
В итоге:
- ИИ функции не работают поскольку используются самые слабые ИИ модели и всё выполняется локально
- ориентация на нетехнических пользователей
- всё сделано в виде десктопного приложения, но у разработчиков нет компьютеров с Windows поэтому на Windows они не тестируют и приложение на Windows регулярно падает, скорее всего также из-за ИИ функций
- валидация данных без последующей возможности изменения данных не приносит счастья, даже если ошибки найдены
- у пользователей постоянный вопросы "какие промпты писать?" потому что оказывается что промптинг сам по себе на бытовые вопросы - это несложно, а промптинг в отношении данных - вопросы вызывает.
По моим ощущениям всё это скорее печально, но вообще экосистема открытых данных резко контрастирует с инструментами для дата аналитиков. Есть ощущение что она очень сильно отстаёт и ориентируется на пользователей с весьма низкими навыками вместо обучения их к применению более развитых инструментов. Причём на пользователей из наименее развитых стран, при этом не учитывая что у них нет достаточно мощного оборудования для работы с LLM локально.
Другой подход есть, к примеру, у расширения ИИ для OpenRefine которое позволяет обрабатывать данные подключая разных провайдеров, Ollama или Grok или OpenRouter.
А пока получается что удобного инструмента для публикации в каталогах данных нет(
#opensource #thoughts #data #opendata #tools
Мне вообще для многих разных задач всегда был нужен похожий инструмент который помогал бы в задачах обработки и верификации данных и изначально ребята ребята его и делали с возможностью подготовить данные для публикации в CKAN/Zenodo, почистить их и тд.
Теперь:
1. Они добавили ИИ функции исключительно через локальные LLM
2. Убрали публикацию в CKAN и Zenodo
3. Переосмыслили приложение в сторону data exploration и data validation, практически полностью убрав все функции редактирования данных.
В итоге:
- ИИ функции не работают поскольку используются самые слабые ИИ модели и всё выполняется локально
- ориентация на нетехнических пользователей
- всё сделано в виде десктопного приложения, но у разработчиков нет компьютеров с Windows поэтому на Windows они не тестируют и приложение на Windows регулярно падает, скорее всего также из-за ИИ функций
- валидация данных без последующей возможности изменения данных не приносит счастья, даже если ошибки найдены
- у пользователей постоянный вопросы "какие промпты писать?" потому что оказывается что промптинг сам по себе на бытовые вопросы - это несложно, а промптинг в отношении данных - вопросы вызывает.
По моим ощущениям всё это скорее печально, но вообще экосистема открытых данных резко контрастирует с инструментами для дата аналитиков. Есть ощущение что она очень сильно отстаёт и ориентируется на пользователей с весьма низкими навыками вместо обучения их к применению более развитых инструментов. Причём на пользователей из наименее развитых стран, при этом не учитывая что у них нет достаточно мощного оборудования для работы с LLM локально.
Другой подход есть, к примеру, у расширения ИИ для OpenRefine которое позволяет обрабатывать данные подключая разных провайдеров, Ollama или Grok или OpenRouter.
А пока получается что удобного инструмента для публикации в каталогах данных нет(
#opensource #thoughts #data #opendata #tools
Telegram
Ivan Begtin
О предубеждениях программистов
На днях мне довелось общаться с командой которая делает один любопытный продукт по обработке данных. В какой-то момент они решили добавить в продукт работы с данными с помощью ИИ и, поначалу, поэкспериментировали с подключением…
На днях мне довелось общаться с командой которая делает один любопытный продукт по обработке данных. В какой-то момент они решили добавить в продукт работы с данными с помощью ИИ и, поначалу, поэкспериментировали с подключением…
🤔4👍3❤2
Полезные ссылки про данные, технологии и не только:
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.
#opensource #tools #ai #notetaking #aiagents #rdbms
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.
#opensource #tools #ai #notetaking #aiagents #rdbms
DuckDB
DuckDB in Science
A curated collection of papers, lectures, and podcasts exploring DuckDB in research and academia.
❤5✍3❤🔥1🔥1