В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.
Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].
Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.
Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.
Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.
Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418
#opensource #datatools #dataengineering #data #ai #llm
Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].
Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.
Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.
Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.
Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418
#opensource #datatools #dataengineering #data #ai #llm
GitHub
GitHub - guestrin-lab/lotus: LOTUS: A semantic query engine for fast and easy LLM-powered data processing
LOTUS: A semantic query engine for fast and easy LLM-powered data processing - guestrin-lab/lotus
Оказывается в декабре команда OpenRefine [1], инструмента по ручной очистке данных, опубликовала результаты опроса пользователей о том к какой группе те себя относят, как пользуются и так далее.
И по группам результаты даже чуть удивительные.
Основные пользователи (38%) - это исследователи, а вот следом за ними следующие - это библиотекари.
Далее идут по сообществам:
- Data Science
- Wikimedian
- GLAM
И где-то там же ещё и дата журналисты, digital humanities и тд.
По сути это инструмент как раз для обработки данных в гуманитарных профессиях, относительно небольшого объёма, но с прицелом на работу со связанными данными, Wikipedia/Wikimedia и так далее.
Подозреваю что и Data Science там тоже в контексте не корпоративных, а исследовательских данных.
Кстати, в дата инженерии и корпоративной дата аналитики он почти не применяется. Всё это про разницу в стеках инструментов работы с данными, их достаточно давно можно нарезать группами по областям применения.
Например, дата журналистам или историкам OpenRefine полезен, аналитиков логичнее учить делать то же самое с помощью дата фреймов, дата инженеров с помощью конвееров данных и так далее.
А сам OpenRefine хороший инструмент, но упершийся в жёсткие ограничения внутреннего движка. Если бы я не был так увлечен Dateno я бы всерьёз озадачился созданием UI похожего на OpenRefine, но на движке DuckDB или Polars.
Ссылки:
[1] https://openrefine.org
[2] https://openrefine.org/blog/2024/12/20/2024-survey-results
#opendata #opensource #datatools
И по группам результаты даже чуть удивительные.
Основные пользователи (38%) - это исследователи, а вот следом за ними следующие - это библиотекари.
Далее идут по сообществам:
- Data Science
- Wikimedian
- GLAM
И где-то там же ещё и дата журналисты, digital humanities и тд.
По сути это инструмент как раз для обработки данных в гуманитарных профессиях, относительно небольшого объёма, но с прицелом на работу со связанными данными, Wikipedia/Wikimedia и так далее.
Подозреваю что и Data Science там тоже в контексте не корпоративных, а исследовательских данных.
Кстати, в дата инженерии и корпоративной дата аналитики он почти не применяется. Всё это про разницу в стеках инструментов работы с данными, их достаточно давно можно нарезать группами по областям применения.
Например, дата журналистам или историкам OpenRefine полезен, аналитиков логичнее учить делать то же самое с помощью дата фреймов, дата инженеров с помощью конвееров данных и так далее.
А сам OpenRefine хороший инструмент, но упершийся в жёсткие ограничения внутреннего движка. Если бы я не был так увлечен Dateno я бы всерьёз озадачился созданием UI похожего на OpenRefine, но на движке DuckDB или Polars.
Ссылки:
[1] https://openrefine.org
[2] https://openrefine.org/blog/2024/12/20/2024-survey-results
#opendata #opensource #datatools