Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Не только у Google есть поиск по наборам данных. В Австралии разработали позаказу правительства движок Magda [1] который агрегирует данные со всех порталов открытых данных страны и дает возможность быстрого и удобного поиска на search.data.gov.au [2].

Кроме публичных порталов он агрегирует данные и из закрытых порталов и вычищает данные от ошибок, сломанных ссылок и так далее.

Но пользователь всегда по умолчанию видит поисковую строку с возможностью предпросмотра результатов в виде таблиц и графиков.

Если сравнить с поиском по датасетам Гугла, то австралийский поиск куда удобнее. С той лишь оговоркой что поиск Гугла ориентирован на наборы данных по которым предпросмотр очень ограничен их объёмами.

Ссылки:
[1] https://magda.io/
[2] https://search.data.gov.au/

#opendata #search
А как же правильно? А что же делать? А то критиковать могут многие, а ты предложи (c)
А я и предлагаю (с):
1. Большую Российскую энкциклопедию необходимо "закрыть со всем уважением" (c) так скоро сколь только возможно. Помещение превратить в музей Большой советской энциклопедии, субсидию вернуть, далее выпуск бумажных/электронных/любых иных томов энциклопедии не финансировать. БРЭ не сумело выйти на самоокупаемость, как энциклопедия Британника, не способно существовать без господдержки и просто не соответствует нынешним реалиям востребованности.

2. Раз у федерального правительства есть столь много свободных средств на развитие качественного контента, то решение в том чтобы устроить непрерывно идующий конкурс в котором выделять ежемесячно до 10 миллионов рублей на премирование за написание с нуля статей в Википедии. Лучшим 50 авторам по 50 тысяч, следующим 100 авторам по 25 тысяч, следующим 500 авторам по 5 тысяч и ещё 1000 авторов по 2.5 тысячи. Каждый месяц. Непрерывно. Обойдётся это бюджету не более чем в 120 миллионов рублей в год или 360 миллионов рублей за 3 года. Да тут ещё и экономия возникнет немалая.

3. Создать Фонд поддержки знаний по аналогии с Фондом кино и финансировать на конкурсно-грантовой основе проекты по преумножению знаний. Материальная поддержка может помочь жить многим вики-проектам альтернативным Википедии [8], а они тоже имеют право на жизнь и они куда как более полны чем БРЭ, даже если не столь энциклопедичны. Не говоря уже о бесконечном множестве более узких вики-проектов не имеющих возможности находить финансирование у Фонда президентских грантов или иных источников финансирования.

В качестве послесловия тезисами:
- конкуренция и гранты - это хорошо, отсутствие конкуренции и субсидии - это плохо;
- БРЭ необходимо превратить в музей. Виртуальный и реальный, а все накопленные статьи опубликовать под Creative Commons;
- конкурс на статьи в Википедии резко повысит и качество статей, и заинтересованность участников и даст возможность гражданам России больше узнать о истории родины и многих других знаниях о которых напишут авторы;
- проекты альтернативные википедии существуют и заслуживают хотя бы небольшой, но поддержки;

Как видите позитивная повестка и вполне конкретное решение у меня тоже есть.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Википедия:Текст_лицензии_Creative_Commons_Attribution-ShareAlike_3.0_Unported
[2] https://dumps.wikimedia.org/
[3] https://www.similarweb.com/website/ru.wikipedia.org#search
[4] https://www.wired.co.uk/article/wikipedia-google-youtube-facebook-support
[5] https://sub.clearspending.ru/subsidy/13519PH6000/
[6] http://www.tadviser.ru/index.php/Компания:Спутник_Поисковый_портал
[8] http://wikireality.ru/wiki/Альтернативные_Википедии_википроекты

#opendata #openknowledge #wikipedia
Поиск по наборам данных от Гугл, Dataset Search [1], вышел из беты и в их посте в блоге рассказывается как он развился [2]
В первой вышедшей из беты версии появились:
- более 25 миллионов наборов данных из которых более 2 миллионов из data.gov (США)
- фильтрация по типу набору данных, геолокации и режиму доступа (открытый/не открытый)
- поиск адаптировали под аудиторию ищущую наборы данных

Российские данные пока доступны через агрегатор data.wu.ac.at который собирает с порталов на базе движка CKAN по всему миру наборы данных и отдает в формате метаданных для Google. Например, данные Хаба открытых данных [3] доступны именно через него [4].

Что значит что будем это исправлять и интегрировать в необходимом формате. Тем временем, напомню что это не единственный поисковик по данным в мире.

Существуют также:
- DataSearch (Elsevier) [5] - поиск по научным данным от Elsevier
- Magda [6] - австралийский движок для индексации и поиска по данным, используется в data.gov.au

Ссылки:
[1] http://g.co/datasetsearch
[2] https://blog.google/products/search/discovering-millions-datasets-web
[3] http://hubofdata.ru
[4] https://datasetsearch.research.google.com/search?query=hubofdata.ru
[5] https://datasearch.elsevier.com
[6] https://magda.io/

#opendata #datasets #search
На regulation.gov.ru выложен документ "О проведении эксперимента по созданию, миграции и развитию государственных сервисов и информационных систем органов государственной власти Российской Федерации и государственных внебюджетных фондов на единой цифровой платформе Российской Федерации «ГосТех»" [1]

Я давно хочу начать декомпозировать НПА в понятную форму, понемногу начну "экспериментировать" на этих НПА

Уровень: Постановление Правительства РФ

Вовлечённые стороны
- Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации;
- Автономная некоммерческая организация «Аналитический центр при Правительстве Российской Федерации»;
- Федеральное агентство по управлению государственным имуществом;
- Федеральный фонд обязательного медицинского страхования;
- Федеральная служба государственной регистрации, кадастра и картографии;
- государственные учреждения, иные юридические лица, обеспечивающие реализацию задач ...ж
- иные организации, индивидуальные предприниматели, а также граждане, согласившиеся на участие в эксперименте на добровольной основе;
- поставщик платформы разработки, которая представляет собой набор технологических компонентов и сервисов, позволяющих разрабатывать и эксплуатировать прикладное программное обеспечение
- Федеральная служба безопасности (не указана явно в списке участников, указана в тексте постановления)
- ФСТЭК России (не указана явно в списке участников, указана в тексте постановления)

Создаваемые оргструктуры:
- межведомственная рабочая группа для координации мероприятий, необходимых для реализации эксперимента

Создаваемые документы:
- требования к платформе «ГосТех»
- оценка результатов эксперимента, в том числе в части определения эффективности применения платформы «ГосТех (? нечеткое определение ?)
- доклады в Правительство Российской Федерации, включающих в том числе предложения по развитию и доработке платформы «ГосТех»
- предложения по целевой архитектуре и модели данных платформы «ГосТех»
- методическая поддержка проведения эксперимента (? нечеткое определение ?)
- модели угроз и модель нарушителя безопасности информации и техническое задание на создание системы защиты информации в рамках компонентов платформы разработки (по каждому эксперименту);

Сервисы
- сервисы для взаимодействия между гражданами, бизнесом и государством в сфере учета и управления государственным имуществом
- сервисы в рамках системы обязательного медицинского страхования;
- сервис, направленный на удобство осуществления кадастровой деятельности и оказания услуг по выполнению кадастровых работ;
- сервис, направленный на повышение удобства совершения сделок с недвижимостью
- сервис, направленный на интеграцию и предоставление заинтересованным лицам аналитической информации на основе сведений Единого государственного реестра недвижимости, сведений, содержащихся в фонде данных государственной кадастровой оценки и в иных источниках
- иные сервисы, определяемые Министерством цифрового развития, связи и массовых коммуникаций Российской Федерации

Финансирование
- Национальная программа «Цифровая экономика Российской Федерации».

Ссылки:
[1] https://regulation.gov.ru/projects#search=01/01/07-20/00105928&npa=105928

#laws #regulation
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Google анонсировали закрытие поиска в Австралии [1] если будет принят закон о плате местным СМИ за указание ссылок в выдаче на их сайты.

Позиция понятная, жёсткая, и показывает самосоознание Google/Alphabet себя как участника переговоров, а не объекта регулирования. Похоже что глобальные цифровые корпорации доросли до нового собственного позиционирования, интересно как дальше это всё пойдет.

Тем временем, интересна и позиция властей Австралии, прогнутся ли они или же надавят, а в Австралию придут Bing (Microsoft), DuckDuckGo, Yandex и другие игроки, готовые играть по правилам страны, а не своим собственным.

Ссылки:
[1] https://about.google/google-in-australia/an-open-letter/

#search #data
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.

Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/

#privacy #search
Рынок поисковых систем настолько сложился и настолько кажется поделенным занятым одним игроком - Google и лишь очень редко чуть-чуть Bing, Яндекс и Baidu, что может может показаться что ничего нового в этой области уже не покажется.

А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.

С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.

Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].

И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.

Потеснят ли они Google? Будет интересно на это посмотреть

Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com

#privacy #search
В рубрике интересных продуктов для работы с данными - Meilisearch [1] система поиска с открытым кодом написанная на Rust и чья команда в январе 2022 года получила $5M инвестиций на создание облачного продукта. Обещают поддержку любого языка использующего пробелы для разделения слов, поддерживают китайский (что сейчас особенно актуально в России) и имеют кучу интеграций. На Github у них почти 24 тысячи звезд [2] и растущая популярность. Пока ещё не обгоняют ElasticSearch, но уже показывают высокую востребованность.

У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].

Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html

#opensource #startups #search #data
В рубрике интересных инструментов с открытым кодом txtai [1], движок для семантического поиска по данным с использованием ИИ. ИИ, там, конечно нет, но есть много машинного обучения и, в принципе, интересный подход к индексированию данных и их поиску. На его основе много чего интересного сделано, например, tldrstory [2] пример с открытым кодом по пониманию заголовков и текстов новостей, а для разработчиков хороший пример code question [3] для получения ответов на поисковые запросы прямо в терминале.

У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.

Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.

Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai

#data #opensource #datatools #search