Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Google с октября 2024 года не будут более доверять сертификатам от CA Entrust [1] для Google Chrome, а это, на минуточку, более 4 миллионов доменов, по статистике Censys [2]. А значит что уже сейчас пользоваться Entrust для получения сертификатов будет нецелесообразно. Хорошо пока что старые не отключены. Причины очень подробно изложены, в кратком изложении - это систематическое нарушение правил сообщества, несоблюдение стандартов, нежелание внедрять актуальные технологии и тд.

Понятно что кроме Google есть и другие браузеры, но все они в одном консорциуме/сообществе и почти наверняка та же участь постигнет Entrust и в других продуктах.

Что характерно, да, это скорее всего разумное решение. Но это же Kill Switch бигтехов, регулирование вынесенное за пределами регуляторов затрагивающее существенный бизнес и существенную цифровую инфраструктуру.

Ссылки:
[1] https://groups.google.com/a/ccadb.org/g/public/c/29CRLOPM6OM
[2] https://search.censys.io/search?resource=certificates&q=%28Entrust%29+and+parsed.issuer.organization%3D%60Entrust%2C+Inc.%60

#ca #regulation #network #google
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.

Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.

Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.

P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].

Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
А вот и появился настоящий, а не выдуманный "убийца Google", а заодно и других поисковых систем и, возможно, Perplexity - это SearchGPT [1], продукт который OpenAI тестирует пока на 10 тысячах пользователей.

Поломает это, правда, не только бизнес модель поиска Гугла, но и Яндекса, и потенциально столкнётся с сильным раздражением владельцев контента.

Впрочем застать при этой жизни падение монополии Google на поиск - это было бы любопытно.

Ссылки:
[1] https://www.theverge.com/2024/7/25/24205701/openai-searchgpt-ai-search-engine-google-perplexity-rival

#ai #openai #searchgpt #google #search
Честно говоря не знаю по какому критерию они будут проверять что участники из одной из стран Кавказа или Средней Азии, по наличию гражданства или, может быть, сойдёт и ВНЖ. Во втором случае в хакатоне смогут принять многие приехавшие в эти страны из РФ.

В любом случае больше хакатонов интересных и разных.

#opendata #data #google #centralasia #caucasus #ai
Довольно странный и смешной проект с открытым кодом whenfs [1] по превращению Google календаря в файловую систему. Я даже не представляю себе как автор до такого додумался, но тем не менее в примерах сохранение небольших картинок в виде огромного числа записей об эвентах в календаре. Что-то невероятное, там выходит 3 килобайта за 7 секунд!

Впрочем это специфика взгляда, я вот смотрю на всё как на таблицы и данные, а есть люди которые смотрят на всё как графовые структуры или как правила для бизнес логики, или как на код. А в данном случае автор посмотрел на гугл календарь как на файловую систему.

А если про серьёзное, то конечно, гораздо интереснее было бы посмотреть на Google календарь, контакты или почту как на базы данных. Вот мне лично очень нехватает SQL интерфейса или чего-то очень похожего к почте и к контактам.

#google #calendar #funny #filesystem #opensource
Читаю научную статью Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web [1] от команды Google Datasets из которой немного больше понятно о том как устроен их Google Dataset Search и не могу не отметить насколько неглубоко они погружаются в тематику того чем занимаются и с насколько небольшими датасетами метаданных работают. В этом случае они работали с датасетом с метаданными о 2.7 миллионов наборах данных.

Но сама проблема которую они поднимают актуальна. К данным не работают индексы цитирования, а взаимосвязи между ними не всегда можно установить простым образом если авторы сами не указали.

Но, почему я лично считаю их статью неглубокой:
1. Кроме базовых стандартов вроде DCAT, Schema.org и других есть куда больше более сложных стандартов публикации данных, особенно научных, где эти взаимоотношения прописаны куда чётче.
2. Взаимоотношения датасетов, по хорошему, это предмет онтологического моделирования и дополнения/расширения/адаптации DCAT
3. Более сложная эвристика не только и не столько в анализе названий, как это делают авторы, а в общих схеме/структуре данных между датасетами, пересечение по содержанию и тд.

Правда работ в этой области не так много, но от ребят из Гугла я ждал большего.

Когда у меня только начинались мысли про Dateno изначально желание было с запустить процесс постоянного обогащения метаданных чтобы сделать поиск насыщеннее: больше фильтров, лучше связи между данными, больше понимания их содержимого и тд. Но, случайно, получилось собрать быстро много датасетов и по прежнему не покидает ощущение что их слишком мало. Данных всегда мало!😜

Но о том что можно выдавать пользователю инфу про схожие датасеты мысли были и есть. Можно использовать тут сложную эвристику или функции а ля ИИ заложенные в поисковый движок, а можно большее знание о самих данных и простые выборки на основе этого.

Ссылки:
[1] https://www.semanticscholar.org/paper/Relationships-are-Complicated%21-An-Analysis-of-on-Lin-Alrashed/97e3cfd5a6cf88f2b1887c5fefc76b528e92f23b

#opendata #datasets #google #dateno #readings
Please open Telegram to view this post
VIEW IN TELEGRAM
Полезное чтение про данные, технологии и не только:
- The Modern CLI Renaissance [1] о том как инструменты командной строки переживают ренессанс будучи переписанными, в основном, на Rust. Тоже наблюдаю эту картину и что тут скажешь, хорошо что это происходит.
- Nvidia and Oracle team up for Zettascale cluster: Available with up to 131,072 Blackwell GPUs [2] полным ходом гонка ИИ кластеров. Oracle и NVIDIA запускают в начале 2025 г. кластер на 2.4 зетафлопса, сравнивать сложно, это просто много
- Android apps are blocking sideloading and forcing Google Play versions instead [3] Google начали внедрять в андроид функцию установки приложения через Google Play если ты пытаешься поставить его из другого источника. То есть если ты из внешнего магазина загружаешь приложение которое есть в Google Play то тебя обязывают ставить то что в Google Play.
- Google will now link to The Internet Archive to add more context to Search results [4] Google теперь даёт ссылки в результатах поиска на Интернет Архив вместо их собственного кэша, на который они ранее ссылки удалили. Надеюсь они при этом дали денег Интернет Архиву, потому что как бы их не за ддосили.

Ссылки:
[1] https://gabevenberg.com/posts/cli-renaissance/
[2] https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-and-oracle-team-up-for-zettascale-cluster-available-with-up-to-131072-blackwell-gpus
[3] https://arstechnica.com/gadgets/2024/09/android-now-allows-apps-to-block-sideloading-and-push-a-google-play-version/
[4] https://9to5google.com/2024/09/11/google-search-internet-archive-wayback-machine/

#software #data #google #android #readings
SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL [1] научная статья от исследователей Google про GoogleSQL. Особенность в том что это не альтернативный новый язык, а именно специальный диалект для удобного написания конвейеров и так называемого pipe syntax для SQL.

GoogleSQL уже реализован во многих их продуктах вроде BigQuery, F1 и ZetaSQL [2]

Ссылки:
[1] https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql/
[2] https://github.com/google/zetasql

#google #sql #datatools #data
В рубрике интересных больших наборов данных
Open Buildings 2.5D Temporal Dataset [1] от команды Google Research. Отражает изменения в наличии зданий, их высоте и другим показателям по странам Африки, Южной Азии, Юго-Восточной Азии, Латинской Америки и Карибов за 2016-2023 годы.

О нём же подробнее в блоге Google Research [2].
А также можно увидеть его сразу на карте [3]

Применений видится множество, в первую очередь - это прослеживание урбанизации/деурбанизации, мониторинг корреляции изменений с глобальными событиями (землетрясениями, пандемиями, засухами, миграцией, войнами и тд.)

Ссылки:
[1] https://sites.research.google/gr/open-buildings/temporal/
[2] https://research.google/blog/open-buildings-25d-temporal-dataset-tracks-building-changes-across-the-global-south/
[3] https://mmeka-ee.projects.earthengine.app/view/open-buildings-temporal-dataset

#opendata #datasets #spatialdata #geodata #google #googleearth