Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.

Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].

Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.

Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.

Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.

Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418

#opensource #datatools #dataengineering #data #ai #llm
Оказывается в декабре команда OpenRefine [1], инструмента по ручной очистке данных, опубликовала результаты опроса пользователей о том к какой группе те себя относят, как пользуются и так далее.

И по группам результаты даже чуть удивительные.
Основные пользователи (38%) - это исследователи, а вот следом за ними следующие - это библиотекари.
Далее идут по сообществам:
- Data Science
- Wikimedian
- GLAM

И где-то там же ещё и дата журналисты, digital humanities и тд.

По сути это инструмент как раз для обработки данных в гуманитарных профессиях, относительно небольшого объёма, но с прицелом на работу со связанными данными, Wikipedia/Wikimedia и так далее.

Подозреваю что и Data Science там тоже в контексте не корпоративных, а исследовательских данных.

Кстати, в дата инженерии и корпоративной дата аналитики он почти не применяется. Всё это про разницу в стеках инструментов работы с данными, их достаточно давно можно нарезать группами по областям применения.

Например, дата журналистам или историкам OpenRefine полезен, аналитиков логичнее учить делать то же самое с помощью дата фреймов, дата инженеров с помощью конвееров данных и так далее.

А сам OpenRefine хороший инструмент, но упершийся в жёсткие ограничения внутреннего движка. Если бы я не был так увлечен Dateno я бы всерьёз озадачился созданием UI похожего на OpenRefine, но на движке DuckDB или Polars.

Ссылки:
[1] https://openrefine.org
[2] https://openrefine.org/blog/2024/12/20/2024-survey-results

#opendata #opensource #datatools