Ivan Begtin
9.31K subscribers
2.1K photos
3 videos
102 files
4.82K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Яндекс запустил AI помощника Нейроэксперт [1] который умеет анализировать документы и отвечать на простые вопросы по ним.

Не первый, не последний такой инструмент. Мне вот тоже такой нужен, но желательно в виде API и которому можно скармливать базы данных, а не только файлы.

Инструмент любопытный для всех кто анализирует документы на русском языке.

Но один тест он не проходит. Несмотря на все попытки этот AI помощник не хочет становится котом. Мда. Всё таки Яндекс слишком сильно цензурирует ИИ 😂 Для сравнения диалог с ChatGPT

Ссылки:
[1] https://expert.ya.ru

#ai #aitools #cats
И о научных работах которые я искал, собственно более всего меня интересовали свежие статьи о автодокументировании наборов данных и вот наиболее релевантная работа AutoDDG: Automated Dataset Description Generation using Large Language Models [1] которую я проглядел несмотря на то что у меня в Semantic Scholar настроены фильтры с уведомлением о статьях по определенным темам. Кстати, хорошо бы если бы эти фильтры могли иметь форму запросов к AI помощнику, результаты должны быть точнее.

А статья интересная, от команды Visualization, Imaging, and Data Analysis Center at New York University (VIDA-NYU) которые делали очень много разных инструментов по автоматизации анализа данных и, кстати, они авторы одного из поисковиков по открытым данным Auctus [2], только они забросили этот проект года 3 назад, но он был интересен.

Вот эта команда вместе со статьёй выложили код AutoDDG [3] который пока явно мало кто видел. Можно код посмотреть и увидеть что они там делали примерно то что и я в утилите undatum [4], но с лучшей проработкой. Вернее у меня проработка была практическая и моя утилита умеет датасеты в разных форматах документировать, но у них, несомненно, качество документирования проработаннее и продуманнее.

Хорошая статья, полезный код. Прилинковывать его к своим проектам я бы не стал, но идеи подсмотреть там можно. Заодно они применяют ИИ для выявления семантических типов данных, приятно что кто-то думает в том же направлении что и я;)

Ссылки:
[1] https://www.semanticscholar.org/reader/5298f09eced7aa2010f650ff16e4736e6d8dc8fe
[2] https://github.com/VIDA-NYU/auctus
[3] https://github.com/VIDA-NYU/AutoDDG
[4] https://t.me/begtin/6578

#opensource #datadocumentation #ai #aitools