Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Не только у Google есть поиск по наборам данных. В Австралии разработали позаказу правительства движок Magda [1] который агрегирует данные со всех порталов открытых данных страны и дает возможность быстрого и удобного поиска на search.data.gov.au [2].

Кроме публичных порталов он агрегирует данные и из закрытых порталов и вычищает данные от ошибок, сломанных ссылок и так далее.

Но пользователь всегда по умолчанию видит поисковую строку с возможностью предпросмотра результатов в виде таблиц и графиков.

Если сравнить с поиском по датасетам Гугла, то австралийский поиск куда удобнее. С той лишь оговоркой что поиск Гугла ориентирован на наборы данных по которым предпросмотр очень ограничен их объёмами.

Ссылки:
[1] https://magda.io/
[2] https://search.data.gov.au/

#opendata #search
А как же правильно? А что же делать? А то критиковать могут многие, а ты предложи (c)
А я и предлагаю (с):
1. Большую Российскую энкциклопедию необходимо "закрыть со всем уважением" (c) так скоро сколь только возможно. Помещение превратить в музей Большой советской энциклопедии, субсидию вернуть, далее выпуск бумажных/электронных/любых иных томов энциклопедии не финансировать. БРЭ не сумело выйти на самоокупаемость, как энциклопедия Британника, не способно существовать без господдержки и просто не соответствует нынешним реалиям востребованности.

2. Раз у федерального правительства есть столь много свободных средств на развитие качественного контента, то решение в том чтобы устроить непрерывно идующий конкурс в котором выделять ежемесячно до 10 миллионов рублей на премирование за написание с нуля статей в Википедии. Лучшим 50 авторам по 50 тысяч, следующим 100 авторам по 25 тысяч, следующим 500 авторам по 5 тысяч и ещё 1000 авторов по 2.5 тысячи. Каждый месяц. Непрерывно. Обойдётся это бюджету не более чем в 120 миллионов рублей в год или 360 миллионов рублей за 3 года. Да тут ещё и экономия возникнет немалая.

3. Создать Фонд поддержки знаний по аналогии с Фондом кино и финансировать на конкурсно-грантовой основе проекты по преумножению знаний. Материальная поддержка может помочь жить многим вики-проектам альтернативным Википедии [8], а они тоже имеют право на жизнь и они куда как более полны чем БРЭ, даже если не столь энциклопедичны. Не говоря уже о бесконечном множестве более узких вики-проектов не имеющих возможности находить финансирование у Фонда президентских грантов или иных источников финансирования.

В качестве послесловия тезисами:
- конкуренция и гранты - это хорошо, отсутствие конкуренции и субсидии - это плохо;
- БРЭ необходимо превратить в музей. Виртуальный и реальный, а все накопленные статьи опубликовать под Creative Commons;
- конкурс на статьи в Википедии резко повысит и качество статей, и заинтересованность участников и даст возможность гражданам России больше узнать о истории родины и многих других знаниях о которых напишут авторы;
- проекты альтернативные википедии существуют и заслуживают хотя бы небольшой, но поддержки;

Как видите позитивная повестка и вполне конкретное решение у меня тоже есть.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Википедия:Текст_лицензии_Creative_Commons_Attribution-ShareAlike_3.0_Unported
[2] https://dumps.wikimedia.org/
[3] https://www.similarweb.com/website/ru.wikipedia.org#search
[4] https://www.wired.co.uk/article/wikipedia-google-youtube-facebook-support
[5] https://sub.clearspending.ru/subsidy/13519PH6000/
[6] http://www.tadviser.ru/index.php/Компания:Спутник_Поисковый_портал
[8] http://wikireality.ru/wiki/Альтернативные_Википедии_википроекты

#opendata #openknowledge #wikipedia
Поиск по наборам данных от Гугл, Dataset Search [1], вышел из беты и в их посте в блоге рассказывается как он развился [2]
В первой вышедшей из беты версии появились:
- более 25 миллионов наборов данных из которых более 2 миллионов из data.gov (США)
- фильтрация по типу набору данных, геолокации и режиму доступа (открытый/не открытый)
- поиск адаптировали под аудиторию ищущую наборы данных

Российские данные пока доступны через агрегатор data.wu.ac.at который собирает с порталов на базе движка CKAN по всему миру наборы данных и отдает в формате метаданных для Google. Например, данные Хаба открытых данных [3] доступны именно через него [4].

Что значит что будем это исправлять и интегрировать в необходимом формате. Тем временем, напомню что это не единственный поисковик по данным в мире.

Существуют также:
- DataSearch (Elsevier) [5] - поиск по научным данным от Elsevier
- Magda [6] - австралийский движок для индексации и поиска по данным, используется в data.gov.au

Ссылки:
[1] http://g.co/datasetsearch
[2] https://blog.google/products/search/discovering-millions-datasets-web
[3] http://hubofdata.ru
[4] https://datasetsearch.research.google.com/search?query=hubofdata.ru
[5] https://datasearch.elsevier.com
[6] https://magda.io/

#opendata #datasets #search
На regulation.gov.ru выложен документ "О проведении эксперимента по созданию, миграции и развитию государственных сервисов и информационных систем органов государственной власти Российской Федерации и государственных внебюджетных фондов на единой цифровой платформе Российской Федерации «ГосТех»" [1]

Я давно хочу начать декомпозировать НПА в понятную форму, понемногу начну "экспериментировать" на этих НПА

Уровень: Постановление Правительства РФ

Вовлечённые стороны
- Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации;
- Автономная некоммерческая организация «Аналитический центр при Правительстве Российской Федерации»;
- Федеральное агентство по управлению государственным имуществом;
- Федеральный фонд обязательного медицинского страхования;
- Федеральная служба государственной регистрации, кадастра и картографии;
- государственные учреждения, иные юридические лица, обеспечивающие реализацию задач ...ж
- иные организации, индивидуальные предприниматели, а также граждане, согласившиеся на участие в эксперименте на добровольной основе;
- поставщик платформы разработки, которая представляет собой набор технологических компонентов и сервисов, позволяющих разрабатывать и эксплуатировать прикладное программное обеспечение
- Федеральная служба безопасности (не указана явно в списке участников, указана в тексте постановления)
- ФСТЭК России (не указана явно в списке участников, указана в тексте постановления)

Создаваемые оргструктуры:
- межведомственная рабочая группа для координации мероприятий, необходимых для реализации эксперимента

Создаваемые документы:
- требования к платформе «ГосТех»
- оценка результатов эксперимента, в том числе в части определения эффективности применения платформы «ГосТех (? нечеткое определение ?)
- доклады в Правительство Российской Федерации, включающих в том числе предложения по развитию и доработке платформы «ГосТех»
- предложения по целевой архитектуре и модели данных платформы «ГосТех»
- методическая поддержка проведения эксперимента (? нечеткое определение ?)
- модели угроз и модель нарушителя безопасности информации и техническое задание на создание системы защиты информации в рамках компонентов платформы разработки (по каждому эксперименту);

Сервисы
- сервисы для взаимодействия между гражданами, бизнесом и государством в сфере учета и управления государственным имуществом
- сервисы в рамках системы обязательного медицинского страхования;
- сервис, направленный на удобство осуществления кадастровой деятельности и оказания услуг по выполнению кадастровых работ;
- сервис, направленный на повышение удобства совершения сделок с недвижимостью
- сервис, направленный на интеграцию и предоставление заинтересованным лицам аналитической информации на основе сведений Единого государственного реестра недвижимости, сведений, содержащихся в фонде данных государственной кадастровой оценки и в иных источниках
- иные сервисы, определяемые Министерством цифрового развития, связи и массовых коммуникаций Российской Федерации

Финансирование
- Национальная программа «Цифровая экономика Российской Федерации».

Ссылки:
[1] https://regulation.gov.ru/projects#search=01/01/07-20/00105928&npa=105928

#laws #regulation
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Google анонсировали закрытие поиска в Австралии [1] если будет принят закон о плате местным СМИ за указание ссылок в выдаче на их сайты.

Позиция понятная, жёсткая, и показывает самосоознание Google/Alphabet себя как участника переговоров, а не объекта регулирования. Похоже что глобальные цифровые корпорации доросли до нового собственного позиционирования, интересно как дальше это всё пойдет.

Тем временем, интересна и позиция властей Австралии, прогнутся ли они или же надавят, а в Австралию придут Bing (Microsoft), DuckDuckGo, Yandex и другие игроки, готовые играть по правилам страны, а не своим собственным.

Ссылки:
[1] https://about.google/google-in-australia/an-open-letter/

#search #data
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.

Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/

#privacy #search
Рынок поисковых систем настолько сложился и настолько кажется поделенным занятым одним игроком - Google и лишь очень редко чуть-чуть Bing, Яндекс и Baidu, что может может показаться что ничего нового в этой области уже не покажется.

А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.

С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.

Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].

И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.

Потеснят ли они Google? Будет интересно на это посмотреть

Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com

#privacy #search
В рубрике интересных продуктов для работы с данными - Meilisearch [1] система поиска с открытым кодом написанная на Rust и чья команда в январе 2022 года получила $5M инвестиций на создание облачного продукта. Обещают поддержку любого языка использующего пробелы для разделения слов, поддерживают китайский (что сейчас особенно актуально в России) и имеют кучу интеграций. На Github у них почти 24 тысячи звезд [2] и растущая популярность. Пока ещё не обгоняют ElasticSearch, но уже показывают высокую востребованность.

У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].

Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html

#opensource #startups #search #data
В рубрике интересных инструментов с открытым кодом txtai [1], движок для семантического поиска по данным с использованием ИИ. ИИ, там, конечно нет, но есть много машинного обучения и, в принципе, интересный подход к индексированию данных и их поиску. На его основе много чего интересного сделано, например, tldrstory [2] пример с открытым кодом по пониманию заголовков и текстов новостей, а для разработчиков хороший пример code question [3] для получения ответов на поисковые запросы прямо в терминале.

У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.

Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.

Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai

#data #opensource #datatools #search
Написал очередной текст в англоязычный блог о том что поисковые системы - это глобальные инструменты для data discovery (поиска данных), недостатках DataCite Search и Google Dataset Search и о том какой могла бы быть идеальная поисковая система по данным

Dataset search engines as global data discovery tools [1]

Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datasets #search #datatools
Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].

Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.

Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).

Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.

Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] http://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data

#opendata #datasets #search #research
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
В рубрике как это устроено у них B2Find EUDAT [1] поисковик по научным данным в европейских репозиториях данных. Охватывает более 1 миллиона наборов данных, позволяет фильтровать по:
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.

Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.

Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.

Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.

По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.

По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.

Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.

Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy

#opendata #researchdata #openaccess #datasets #search
Интересный стартап Hebba [1] привлекли $30M финансирования [2] на создание новой системы поиска с применением ИИ. Позиционируют они свой продукт как “neural” search engine. На сайте очень мало информации, в статьей на Techcrunch пишут что у них уже 20 платящих корпоративных клиентов. Известно о них ещё с 2020 года, стартап основала команда ИИ исследователей из Стенфорда [3].

Делают акцент на ответах на человеческий вопросы вроде такого: "Which are the largest acquisitions in the supply chain industry within the past five years?" (Какие крупнейшие поглощения в индустрии цепочки поставок были за последние пять лет?)

А также на работы с финансовыми данными и текущие клиенты - это компании из рынка финансовых услуг.

Всё вместе звучит как интересный продукт о котором, жаль, очень мало сведений.

В любом случае - это проект про данные. Я бы даже его относил скорее к системам умных помощников, а не поисковым системам. Понятно почему они подняли раунд $30М, быстро ответить на корпоративном совещании или совете директоров на финансовый вопрос дорогого стоит.

Ссылки:
[1] https://www.hebbia.ai/
[2] https://techcrunch.com/2022/09/07/hebbia-raises-30m-to-launch-an-ai-powered-document-search-tool/
[3] https://techcrunch.com/2020/10/28/hebbia-wants-to-make-ctrl-f-or-command-f-actually-useful-through-better-ai/

#data #search #startups #ai
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.

Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.

А вот Microsoft может получить существенную долю поискового рынка для Bing.

Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

#ai #microsoft #search
Из любопытного, в Meilisearch, одном из самых быстрых опенсорсных движков для поиска структурированного контента, добавили векторный поиск [1], а их CTO интересно и с примерами рассказывает про применение Meilisearch для семантического поиска и построения чат-ботов [2]. Там есть технические подробности для интересующихся, лично я планирую посмотреть пристально на эту новую возможность.

А из другого бросившегося в глаза в их анонсе, это ссылка на бот дающего ответы на основе их же документации [3], чат боты для технической документации это хорошая идея, да и для любой другой документации больших текстов тоже.

Ссылки:
[1] https://blog.meilisearch.com/vector-search-announcement/
[2] https://github.com/meilisearch/meilisearch/issues/3838
[3] https://blazy-chat.vercel.app/

#opensource #search
Как и где искать наборы данных? Помимо Dateno, поисковика над которым работает наша команда, в мире существует некоторое количество поисковых систем в которых можно попробовать найти нужные данные.

Google Dataset Search
Все ещё имеет исследовательский статус, но уже содержит десятки миллионов ссылок на датасеты. Для индексирования использует описание Dataset из Schema.org что даёт возможность индексировать всё что вебмастера отметили как датасеты, и индексировать немало спама тоже.
Плюс: широта охвата, много данных для бизнеса, много научных данных
Минус: мало данных не научных и не коммерческих, сильная загрязненность SEO, не индексируется всё что не по Schema.org

BASE (Bielefeld Academic Search Engine)
Как видно из название система поиска по академическим результатам, более 363 миллионов разного рода research outputs (научных результатов) включая наборы данных которых там 21 миллион. Охватывает только научные источники и научные данные. Индексирует с помощью OAI-PMH краулера со всеми его достоинствами и недостатками.
Плюсы: много научных данных, хорошие фильтры для сужения поиска
Минус: мало ненаучных данных, невозможно скачивать ресурсы с файлами прямо из поиска

Datacite Commons
Поисковик по научным работам от DataCite, сервиса выдачи DOI для данных. Умеет искать по всем тем датасетам которым присвоен DOI. Охватывает несколько десятков миллионов научных данных и научных предметов. Дело в том что DOI могут присваиваться не только датасету, но и,к примеру, виду животных или химической формуле.
Плюсы: широкий охват научных данных
Минусы: отсутствие любых ненаучных данных, много мусора поскольку часто исследователи присваивают DOI документам и изображениям а не датасетам.

FinData
Китайский поисковик по научным данным от Центра компьютерных сетей при Академии наук. Охватывает , преимущественно, китайские и связанные с Китаем датасеты, в первую очередь из SciDB.
Плюсы: очень много очень китайских научных данных
Минусы: совсем нет ничего другого, мало фильтров при поиске

Итого поисковики есть, из крупных - это Google. У Bing и Yandex нет поиска по наборам данных. Большая часть остальных научные. Кроме них ещё есть немало поисковиков как агрегаторов, о них я тоже позже расскажу.

#datasearch #opendata #data #search #datasets #dateno
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search