Ivan Begtin
9.29K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Я тут задумался над тем какие практические инструменты с LLM внутри я использую в работе и для чего хотелось бы использовать ещё. Хотелось бы, для многого конечно, но не всё ещё существует

Самое очевидное это переписывание текстов с помощью DeepL Write. Очень удобно для переписке и публикаций не на родном языке, поскольку сильно выправляет текст. Похоже на Grammarly, но ощущение что итоговый текст гораздо лучше и поддерживается не только английский язык. Главный минус пока только в том что поддерживаются только 8 языков. В любом случае очень удобно для публикации в англоязычных и других соцсетях

Совсем не такое очевидное, но важное для меня это сбор информации о дата каталогах. Это довольно специфическая лично моя задача по обновлению реестра каталогов данных в Dateno. Этот процесс на текущей стадии ручной, поскольку автоматизированный ранее собранных каталогов уже выполнен и оставшаяся часть работы - это ручная разметка. В частности вручную проставляется инфа по каталогу данных:
- название
- описание
- название владельца
- тип владельца (гос-во, муниципалитет, ученые и тд.)
- тематики
- теги

А также простановка геопривязки для тех ресурсов у которых её нет или если выясняется что они уровня регионов.

Это много ручной работы напрямую влияющей на качество данных в Dateno, поскольку тип владельца, геопривязки и тематики идут в фасеты поиска, а остальные поля отображаются в карточках датасетов.

Оказалось что Perplexity отлично выдаёт ответы на такие вопросы как:
- Who owns <> website ?
- About what this website is <> ?

А также, что очень практически удобно, Perplexity умеет точно отвечать на такие вопросы как "What is ISO3166-2 code of the Magallanes and Chilean Antarctica ?" и выдавать точный код.

Скорее всего Perplexity можно заменить на другую модель, но и текущие результаты вполне полезны.

Сейчас в Dateno около 18% (3.4 миллиона) наборов данных не имеют пометки типа владельца данных, а 2.4 миллиона не имеют привязки к стране/территории.

Это, в любом случае лучше чем у Google Dataset Search, но всё ещё недостаточно хорошо.

Применение LLM в повышении качества метаданных кажется очень реалистичной задачей.

#ai #thoughts #dateno #datasets #data
Какой хороший инструмент, но без открытого кода.

Я эту фразу в последние годы повторяю чаще чем хотелось бы. Применительно почти ко всем инструментам, кроме тех где отсутствие кода оправдано. Например, выбираю инструмент для создания резервных копий и это сводится в итоге к Borg или Restic, хотя есть коммерческие альтернативы и неплохие. Но зачем они нужны если есть не хуже, а иногда и лучше с открытым кодом?

Или инструменты обработки и очистки данных. Да, их много, но чаще всего достаточно OpenRefine, или инструментов вроде pandas, polars, duckdb и др. для работы с датафреймами.

Или для ведения заметок, зачем нужны другие если есть Obsidian ? Конечно много хороших инструментов, но реально Obsidian закрывает большую часть задач.

Я не единственный кто так рассуждает. Достаточно подсчитать ежемесячные/ежегодные расходы на ПО и сервисы по подписке чтобы понимать реальную нагрузку на свой кошелёк или кошелёк компании.

Всё это про ниши продуктов и про то какие их свойства и характеристики подталкивают к тому чтобы их купить и какие приводят к поиску бесплатных альтернатив. Главный критерий - это то сколько усилий нужно приложить и насколько продуктовые характеристики реально создают качество жизни, удобство работы и тд.

Я бы распределил эти фичи следующим образом:
1. AI powered. Там где это уместно, там где это логично, там где это необходимо, там где есть для этого потребность - это реально повышает качество продукта. У нас в Dateno такое давно назрело и мы всё ещё планируем и ищем человека под fulltime работу на эти задачи с учётом и оговоркой что у нас международный проект и у него есть своя специфика. Но AI powered для данных я вижу много где, в первую очередь в многочисленных аналитических сервисах которые на основе пользовательских данных генерируют разного рода дашборды. То на что аналитик может потратить несколько недель делается за несколько часов.
2. Интеграция с облаками. То что является маст-хэв фичами для почти всех инструментов для работы с данными. Так чтобы напрямую подключаться к S3 совместимому хранилищу, но с оговоркой что такие возможности стали уже по умолчанию у много каких открытых инструментов и зачем платить за коммерческую фичу.
3. Множество устройств. Особенно в части перехода с небольшого числа личных устройств на устройства для небольшой команды. У меня перед глазами есть как минимум такой инструмент и сервис как Tailscale, но это распространяется и на другие подобного рода zero-config сервисы.

Список не исчерпывающий, но важный в том что наиболее востребована комбинация стоимости воспроизведения сервиса или продукта и пользы которую он приносит.

А вот, к примеру, сейчас сложно сделать сервис ETL/ELT которому нет замены с открытым кодом

Поэтому работая над текущими продуктами всегда нужен ответ как минимум на 2 вопроса:
1) Есть ли у продукта открытая альтернатива?
2) Можно ли то же самое сделать с помощью ChatGPT ?

#thoughts #products