Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике полезных инструментов по работе с данными:
Milvus Lite [1] безсерверная версия продукта Milvus, с открытым кодом и библиотекой для Python. Является векторной базой данных позволяющей реализовывать поиск по тексту или по изображениям. А также много примеров по применению вместе с языковыми моделями. [2]. Про движок Milvus [3] также забывать не стоит.

Относительно векторных баз данных то чуть ли не лучший их обзор - это примеры в документации LLamaindex [4] в разделе "Vector stores". Нет информации о производительности хранилищ, зато там перечислены практически все такие продукты.

Правда я подозреваю что DuckDB может оказаться более удобным инструментом для векторных данных и операций, если не уже, то скоро.

Ссылки:
[1] https://github.com/milvus-io/milvus-lite
[2] https://github.com/milvus-io/bootcamp/tree/master/bootcamp/tutorials
[3] https://milvus.io/
[4] https://docs.llamaindex.ai/en/stable/examples/

#vectordb #opensource #databases
Полезное чтение про данные, технологии и не только:
- A Quick Introduction to JavaScript Stored Programs in MySQL [1] в блоге Oracle MySQL о том чтобы использовать программы на Javascript внутри СУБД. Признаться честно я к этой практике отношусь с глубоким осуждением, особенно в части аргументации что миллионы разработчиков используют Javascript так давайте запихнём его ещё куда-нибудь. Тем не менее тоже тренд и тоже понятный, хотя и запоздавший лет на 10-15.
- ColPali: Efficient Document Retrieval with Vision Language Models [2] про распознавание текстов и Vision LLMs. Вот это перспективная тема которая может подвинуть текущих лидеров OCR.
- A Crash Course on Relational Database Design [3] хорошая инфографика для совсем начинающих работающих с базами данных. Как и вся наглядная инфографика от ByteByteGo
- Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models [4] проект STORM родом из Stanford который позволяет писать длинные вики статьи с помощью LLM на произвольные неизвестные темы. Выглядит как инструмент который может, как сильно дополнить Википедию, так и создать реального её конкурента с нуля, так и ещё много для чего. Когда уже сделают LLM для быстрой генерации корпоративной документации на ИТ продукты или доков для open source?

Ссылки:
[1] https://blogs.oracle.com/mysql/post/a-quick-introduction-to-javascript-stored-programs-in-mysql
[2] https://huggingface.co/blog/manu/colpali
[3] https://blog.bytebytego.com/p/a-crash-course-on-relational-database
[4] https://storm-project.stanford.edu/research/storm/

#ai #readings #sql #databases #ocr #data
Ещё один полезный/любопытный инструмент ChartDB по проектированию баз данных [1]. Умеет быстро делать структуру из нескольких SQL СУБД, выглядит простым и удобным. Открытый код AGPL-3.0 [2].

Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb

#opensource #tools #databases