Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
GitHub
GitHub - vanna-ai/vanna: 🤖 Chat with your SQL database 📊. Accurate Text-to-SQL Generation via LLMs using RAG 🔄.
🤖 Chat with your SQL database 📊. Accurate Text-to-SQL Generation via LLMs using RAG 🔄. - vanna-ai/vanna
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах.
Описание очень симпатично и кажется практичным, но лично у меня с первой попытки не завелось, исследования по темам Recent development in CSV files analysis и Recent development in automatic data analysis не принесли никаких результатов.
Наверняка дело в настройках, но, как бы, из коробки не заработало. Тем не менее, несомненно, инструмент интересный.
Впрочем это не единственный инструмент, есть ещё deep-searcher [2] который тоже умеет искать с использованием разных моделей и возвращать результаты локально.
Ссылки:
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://github.com/zilliztech/deep-searcher
#opensource #ai #research #analytics
Описание очень симпатично и кажется практичным, но лично у меня с первой попытки не завелось, исследования по темам Recent development in CSV files analysis и Recent development in automatic data analysis не принесли никаких результатов.
Наверняка дело в настройках, но, как бы, из коробки не заработало. Тем не менее, несомненно, инструмент интересный.
Впрочем это не единственный инструмент, есть ещё deep-searcher [2] который тоже умеет искать с использованием разных моделей и возвращать результаты локально.
Ссылки:
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://github.com/zilliztech/deep-searcher
#opensource #ai #research #analytics
GitHub
GitHub - LearningCircuit/local-deep-research: Local Deep Research is an AI-powered assistant that transforms complex questions…
Local Deep Research is an AI-powered assistant that transforms complex questions into comprehensive, cited reports by conducting iterative analysis using any LLM across diverse knowledge sources in...
Свежая модель o3 от OpenAI умеет неплохо в местоположение по фотографии, угадывает с большой точностью не всё, но многое. Для OSINT бесценный инструмент.
Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.
Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.
#ai #photo #tools #osint
Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.
Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.
#ai #photo #tools #osint