Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.26K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике как это устроено у них B2Find EUDAT [1] поисковик по научным данным в европейских репозиториях данных. Охватывает более 1 миллиона наборов данных, позволяет фильтровать по:
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.

Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.

Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.

Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.

По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.

По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.

Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.

Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy

#opendata #researchdata #openaccess #datasets #search
Интересный стартап Hebba [1] привлекли $30M финансирования [2] на создание новой системы поиска с применением ИИ. Позиционируют они свой продукт как “neural” search engine. На сайте очень мало информации, в статьей на Techcrunch пишут что у них уже 20 платящих корпоративных клиентов. Известно о них ещё с 2020 года, стартап основала команда ИИ исследователей из Стенфорда [3].

Делают акцент на ответах на человеческий вопросы вроде такого: "Which are the largest acquisitions in the supply chain industry within the past five years?" (Какие крупнейшие поглощения в индустрии цепочки поставок были за последние пять лет?)

А также на работы с финансовыми данными и текущие клиенты - это компании из рынка финансовых услуг.

Всё вместе звучит как интересный продукт о котором, жаль, очень мало сведений.

В любом случае - это проект про данные. Я бы даже его относил скорее к системам умных помощников, а не поисковым системам. Понятно почему они подняли раунд $30М, быстро ответить на корпоративном совещании или совете директоров на финансовый вопрос дорогого стоит.

Ссылки:
[1] https://www.hebbia.ai/
[2] https://techcrunch.com/2022/09/07/hebbia-raises-30m-to-launch-an-ai-powered-document-search-tool/
[3] https://techcrunch.com/2020/10/28/hebbia-wants-to-make-ctrl-f-or-command-f-actually-useful-through-better-ai/

#data #search #startups #ai
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.

Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.

А вот Microsoft может получить существенную долю поискового рынка для Bing.

Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

#ai #microsoft #search
Из любопытного, в Meilisearch, одном из самых быстрых опенсорсных движков для поиска структурированного контента, добавили векторный поиск [1], а их CTO интересно и с примерами рассказывает про применение Meilisearch для семантического поиска и построения чат-ботов [2]. Там есть технические подробности для интересующихся, лично я планирую посмотреть пристально на эту новую возможность.

А из другого бросившегося в глаза в их анонсе, это ссылка на бот дающего ответы на основе их же документации [3], чат боты для технической документации это хорошая идея, да и для любой другой документации больших текстов тоже.

Ссылки:
[1] https://blog.meilisearch.com/vector-search-announcement/
[2] https://github.com/meilisearch/meilisearch/issues/3838
[3] https://blazy-chat.vercel.app/

#opensource #search
Как и где искать наборы данных? Помимо Dateno, поисковика над которым работает наша команда, в мире существует некоторое количество поисковых систем в которых можно попробовать найти нужные данные.

Google Dataset Search
Все ещё имеет исследовательский статус, но уже содержит десятки миллионов ссылок на датасеты. Для индексирования использует описание Dataset из Schema.org что даёт возможность индексировать всё что вебмастера отметили как датасеты, и индексировать немало спама тоже.
Плюс: широта охвата, много данных для бизнеса, много научных данных
Минус: мало данных не научных и не коммерческих, сильная загрязненность SEO, не индексируется всё что не по Schema.org

BASE (Bielefeld Academic Search Engine)
Как видно из название система поиска по академическим результатам, более 363 миллионов разного рода research outputs (научных результатов) включая наборы данных которых там 21 миллион. Охватывает только научные источники и научные данные. Индексирует с помощью OAI-PMH краулера со всеми его достоинствами и недостатками.
Плюсы: много научных данных, хорошие фильтры для сужения поиска
Минус: мало ненаучных данных, невозможно скачивать ресурсы с файлами прямо из поиска

Datacite Commons
Поисковик по научным работам от DataCite, сервиса выдачи DOI для данных. Умеет искать по всем тем датасетам которым присвоен DOI. Охватывает несколько десятков миллионов научных данных и научных предметов. Дело в том что DOI могут присваиваться не только датасету, но и,к примеру, виду животных или химической формуле.
Плюсы: широкий охват научных данных
Минусы: отсутствие любых ненаучных данных, много мусора поскольку часто исследователи присваивают DOI документам и изображениям а не датасетам.

FinData
Китайский поисковик по научным данным от Центра компьютерных сетей при Академии наук. Охватывает , преимущественно, китайские и связанные с Китаем датасеты, в первую очередь из SciDB.
Плюсы: очень много очень китайских научных данных
Минусы: совсем нет ничего другого, мало фильтров при поиске

Итого поисковики есть, из крупных - это Google. У Bing и Yandex нет поиска по наборам данных. Большая часть остальных научные. Кроме них ещё есть немало поисковиков как агрегаторов, о них я тоже позже расскажу.

#datasearch #opendata #data #search #datasets #dateno
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search