И о научных работах которые я искал, собственно более всего меня интересовали свежие статьи о автодокументировании наборов данных и вот наиболее релевантная работа AutoDDG: Automated Dataset Description Generation using Large Language Models [1] которую я проглядел несмотря на то что у меня в Semantic Scholar настроены фильтры с уведомлением о статьях по определенным темам. Кстати, хорошо бы если бы эти фильтры могли иметь форму запросов к AI помощнику, результаты должны быть точнее.
А статья интересная, от команды Visualization, Imaging, and Data Analysis Center at New York University (VIDA-NYU) которые делали очень много разных инструментов по автоматизации анализа данных и, кстати, они авторы одного из поисковиков по открытым данным Auctus [2], только они забросили этот проект года 3 назад, но он был интересен.
Вот эта команда вместе со статьёй выложили код AutoDDG [3] который пока явно мало кто видел. Можно код посмотреть и увидеть что они там делали примерно то что и я в утилите undatum [4], но с лучшей проработкой. Вернее у меня проработка была практическая и моя утилита умеет датасеты в разных форматах документировать, но у них, несомненно, качество документирования проработаннее и продуманнее.
Хорошая статья, полезный код. Прилинковывать его к своим проектам я бы не стал, но идеи подсмотреть там можно. Заодно они применяют ИИ для выявления семантических типов данных, приятно что кто-то думает в том же направлении что и я;)
Ссылки:
[1] https://www.semanticscholar.org/reader/5298f09eced7aa2010f650ff16e4736e6d8dc8fe
[2] https://github.com/VIDA-NYU/auctus
[3] https://github.com/VIDA-NYU/AutoDDG
[4] https://t.me/begtin/6578
#opensource #datadocumentation #ai #aitools
А статья интересная, от команды Visualization, Imaging, and Data Analysis Center at New York University (VIDA-NYU) которые делали очень много разных инструментов по автоматизации анализа данных и, кстати, они авторы одного из поисковиков по открытым данным Auctus [2], только они забросили этот проект года 3 назад, но он был интересен.
Вот эта команда вместе со статьёй выложили код AutoDDG [3] который пока явно мало кто видел. Можно код посмотреть и увидеть что они там делали примерно то что и я в утилите undatum [4], но с лучшей проработкой. Вернее у меня проработка была практическая и моя утилита умеет датасеты в разных форматах документировать, но у них, несомненно, качество документирования проработаннее и продуманнее.
Хорошая статья, полезный код. Прилинковывать его к своим проектам я бы не стал, но идеи подсмотреть там можно. Заодно они применяют ИИ для выявления семантических типов данных, приятно что кто-то думает в том же направлении что и я;)
Ссылки:
[1] https://www.semanticscholar.org/reader/5298f09eced7aa2010f650ff16e4736e6d8dc8fe
[2] https://github.com/VIDA-NYU/auctus
[3] https://github.com/VIDA-NYU/AutoDDG
[4] https://t.me/begtin/6578
#opensource #datadocumentation #ai #aitools
www.semanticscholar.org
[PDF] AutoDDG: Automated Dataset Description Generation using Large Language Models | Semantic Scholar
An academic search engine that utilizes artificial intelligence methods to provide highly relevant results and novel tools to filter them with ease.