Ivan Begtin
8.07K subscribers
1.48K photos
3 videos
99 files
4.23K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
На CNews какая-то странная статья про ОС Fuchsia [1] разработку которой команда в Google ведёт довольно таки давно. Странная потому что явно часть материалов пересекается, например, с заметкой из 9to5google [2], но некоторые утверждения вроде Fuchsia, в отличие от Android, базируется на проприетарном ядре, написанном с нуля и получившем название Zircon совершенно необъяснимы. Также необъяснимо и полное отсутствие ссылок на первоисточник, исходный код Fuchsia доступный по адресу fuchsia.dev [3] где и можно найти это "проприетарное ядро" [4], с кодом под лицензией MIT.

А про саму операционную систему, действительно, много лет ходят разговоры и даже интересно надо ли учитывать крен в новые языки программирования которые станут популярны с выходом Fuchsia в промышленное использование или нет.

Ссылки:
[1] https://www.cnews.ru/news/top/2021-03-22_epoha_android_podhodit_k_kontsu
[2] https://9to5google.com/2021/03/19/fuchsia-friday-first-release-f1/
[3] https://fuchsia.dev
[4] https://cs.opensource.google/fuchsia/fuchsia/+/master:zircon/

#opensource #google
Google выиграли суд против Oracle в Верховном суде США [1] [2] и суд признал что то что Google копировали 11 тысяч строк кода Java API - это было fair use и Google не должны ничего платить Oracle. В Oracle с этим, конечно же, не согласны [3], но что будут делать далее непонятно поскольку Верховный суд финальная судебная инстанция в США.

Ссылки:
[1] https://edition.cnn.com/2021/04/05/tech/google-oracle-supreme-court-ruling/index.html
[2] https://blog.archive.org/2021/04/06/a-good-day-for-the-open-web/
[3] https://www.oracle.com/news/announcement/oracle-statement-regarding-oracle-v-google-040521.html

#oracle #google #java #api
Ирина Юзбекова в Forbes пишет о том что Google может, по факту, перестать выполнять 149-ФЗ если суд заставит его разблокировать Царьград [1].

Я лично ставлю на то что скорее Царьград останется заблокированным, а Google останется в России. Но гарантии этого нет, а вот уход Google с российского рынка для многих может оказаться очень болезненным.

Ссылки:
[1] https://www.forbes.ru/tehnologii/437419-google-predupredil-o-riskah-dlya-rossii-v-sluchae-proigrysha-v-sude-cargradu

#google
Все уже написали по поводу огромных оборотных штрафов наложенных на Google и Meta российскими судами [1]. Google (Alphabet) оштрафованы на 7.2 миллиарда рублей, а Facebook (Meta) на 2 миллиарда рублей.

Конечно, вся эта история про то "кто здесь власть". Big tech компании нарастили политического и социального влияния до того уровня который уже нельзя игнорировать. Давят на них не только российские власти, но и власти Китая, Индии, Турции да и многих других стран. И штрафы - это ещё не худший вариант подобного давления.

Например, в Индии, во время протестов фермеров власти угрожали арестом сотрудникам Facebook [2] если те не выдадут информацию о протестующих.

Но и оборотные штрафы - это жесткая форма переговоров с big tech. Важно лишь помнить что выкладывая карты на стол надо быть готовыми что корпорации могут на это не согласится. Если Meta уйдет, вернее не придёт (у них нет своего представительства) в Россию, то катастрофы не случится. А вот про Google важно помнить что это не только поиск, но и почта, экосистема Android, Google Cloud и ещё много чего.

Почтой на Google пользуются многочисленные российские университеты, госорганизации и просто коммерческие компании. Приложения для Android'а являются инструментом заработка многих компаний в России, не говоря уже о пользователях этой платформы и так далее.

Иначе говоря риски у Google (Alphabet) сейчас будет патовая ситуация где, с одной стороны, если они пойдут на требования российских властей, то их обвинят в цензуре, в том числе политической. А если не пойдут, то получат ещё несколько штрафов, усиление давления и возможно уйдут из России.

Лично я считаю что давление властей стран на big tech неизбежно, но неприятно что это происходит через задачи цензуры, а не защиты местного бизнеса и прав граждан. Конфликт властей Австралии с Google закончился тем что Google сдались на их условия. Но австралийские власти добивались компенсации местным новостным агентствам и добились этой цели. А в Турции штрафовали Гугл на 296 лир (36.6 миллионов долларов США) за доминирующее положение в поиске [3]

Ссылки:
[1] https://www.reuters.com/technology/russian-court-fines-alphabets-google-72-bln-roubles-2021-12-24/
[2] https://www.businessinsider.com/india-threatens-to-jail-facebook-twitter-workers-over-farmer-protests-2021-3
[3] https://www.reuters.com/technology/turkey-fines-google-abusing-dominant-position-2021-04-14/

#google #facebook #fines
Существует совсем не нулевая вероятность что Google Analytics в Европейском союзе может быть запрещён или ограничен или Google сами перестанут предоставлять этот продукт европейским пользователям. Simpleanalytics [1] сделали обзор с упоминанием регуляторов Австрии и Голландии которые уже сформулировали свои претензии к этому продукту, в части нарушения GDPR.

Но тут важно помнить что Google просто самый большой из таких сервисов. Кто следующий и чем это закончится?


Ссылки:
[1] https://blog.simpleanalytics.com/will-google-analytics-be-banned-in-the-eu

#privacy #eu #google
dyn.webm
837.8 KB
Dynamic World [1] проект World Resource Institute и Google по визуализации изменений на карте мира после катастроф, таких как пожары, наводнения, войны, извержения вулканов. На сайте карта с разрешением до 10 метров, много примеров катастроф и научная работа посвящённая этому проекту [2].

Главное что обещают, почти реальное время обновления данных. 5000 изображений обновляется ежесуточно, в зависимости от локации общее время обновления составляет от 2 до 5 дней.

Проекту не хватает разве что API и возможности исследователям работать с первичными данными напрямую, но думаю что это скоро появится причём в связке с UNDP и Humanitarian Data Exchange, уж очень эти проекты комплиментарны и подходят друг другу.

Ссылки:
[1] https://www.dynamicworld.app/
[2] https://www.nature.com/articles/s41597-022-01307-4

#data #google #wri #dataproducts
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Для тех кто мог пропустить, с 20 июля, вот уже совсем скоро Google окончательно заменит раздел с разрешениями приложения в Google Apps на блок Data safety.

В Arstechnica статья о важных отличиях [1].

Раздел "разрешения приложению" был гарантированно актуальным поскольку разрешения описывались автоматически по итогам сканирования приложений, а Data safety - это декларация разработчика приложения по итогам заполнения одноименной формы. Это называется honor system (система на доверии).

Иначе говоря Google заменяют блок описания приложения от "мы проверили роботом, они следят вот так" на "разработчик мамой поклялся что будет вот так честно делать всё".

Впрочем в Google свои планы ещё не анонсировали, возможно раздел с разрешениями приложения всё же вернут под давлением общественности и регуляторов.

А я напомню что приложения для Android'а можно проверять независимыми инструментами такими как Exodus Privacy и др., я регулярно делал их обзоры [2].

Ссылки:
[1] https://arstechnica.com/gadgets/2022/07/google-plays-new-privacy-section-actually-hides-app-permissions/
[2] https://t.me/begtin/3106

#google #android #privacy
Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.

RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.

Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.


Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/

#standards #google #apple #messaging #rcs #privacy
В рубрике интересных открытых проектов на данных Data Commons [1] проект по агрегированию открытых данных о географии, индикаторах и многих понятиях с формированием единой онтологии и визуального представления данных.

Данные внутри Data Commons предоставляются для запросов через Google BigQuery, точку подключения SPARQL и REST API. На апрель 2022 г. всего интегрировано в базу данных 2.9 миллионов мест, 3 миллиарда записей временных рядов, 100 000 переменных и 1.4 триллиона триплов (единичных значений).

Проект создан давно и активно развивается, например, недавно к нему добавили инструмент выгрузки данных [2].

Лично по мне так проект интересный, чем-то сравнимый с WikiData и, кстати, с WikiData интегрированный, а чем-то похожий на проекты по визуализации статистики вроде DataUSA и USAFacts.

Из особенностей, у авторов явно временно достигнут предел масштабирования поскольку они охватили довольно хорошо данные по США, но по другим странам, особенно малым, требуется значительно больше усилий, знания языков и тд. Кроме того многие понятия там закодированы так словно их нет за пределами США. Например, ссылка на почтовый индекс [3] не имеет странового префикса и такого много.

Проект поддерживается компанией Google, его код и код отдельных компонентов доступен как открытый код [4].

Ссылки:
[1] https://datacommons.org
[2] https://docs.datacommons.org/2022/09/14/download-tool.html
[3] https://datacommons.org/place/zip/60651
[4] https://github.com/datacommonsorg

#opendata #google #datasets
Похоже Google делают ключевую ставку на поглощённый ими продукт Looker и переименовывают Google Data Studio в Looker Studio [1] и планируют развивать этот бренд и направление․

Это стратегия на явное усиление их продуктов по работе с данными, в первую очередь, продукты для BI.

Looker был куплен Google ещё 2.5 года назад [2] и уже сейчас вокруг него выстроена экосистема интегрированных продуктов и большого числа расширений где 20 источников данных предоставляются внутри Looker Studio, а 660 являются партнерскими источниками и коннекторами.

У всего этого, конечно, сильнейшая сторона в доступе к маркетинговым данным. Всё то что является частью "капитализма слежки".

В этом смысле Looker идеально соответствует бизнес модели Google о том что данные входят-данные не выходят.

Поэтому то что на Looker делается ставка, лично меня совершенно не удивляет.

Ссылки:
[1] https://www.youtube.com/watch?v=Bc_hcLVyFJI
[2] https://techcrunch.com/2020/02/13/google-closes-2-6b-looker-acquisition/

#datatools #clouds #google
Для тех кто задавался вопросом почему Google переносит карты с домена на "https://maps [dot] google [dot] com" на "https://google [dot] com/maps" есть объяснение этого события [1].

Нюанс в том что домен google.com теперь целиком будет получать доступ к вашему местонахождению, а не только сервис карт.

Идеи супераппов, кстати, построены на том же принципе. Запросить у вас как можно больше разрешений в рамках одного приложения.


Ссылки։
[1] https://twitter.com/Rudcher/status/1598596534656024576

#privacy #google #data
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.

Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.

Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.

Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.

При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.

Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.

Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html

#privacy #security #iot #google
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.

Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?

Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/

#datadiscovery #datasets #opendata #searchengines #google
Google выложили в открытый доступ локальную версию СУБД AlloyDB [1] которую в прошлом году сделали доступной как сервис в своём облаке. Теперь можно скачать бесплатную версию для разработчиков и экспериментировать на своём локальном компьютере. Из заявленных фич AlloyDB - это совместимость с PostgreSQL с более чем 2-х кратным ускорением и колоночные таблицы для ускорения ряда типов запросов. Звучит достаточно интересно чтобы попробовать, насколько интересно чтобы делать на это ставку лично я пока сомневаюсь, потому что бесплатная девелоперская версия означает что в продакшн всё равно надо разворачивать на инфраструктуре Google, а это лишь очередная модель облачного vendor lock-in, лично я не люблю такие ограничения, даже при очень интересных технологиях. К тому же исходный код AlloyDB закрыт, контрибьюта в исходный код PostgreSQL также не планируется.

Не могу не напомнить что совместимых с Postgres баз данных множество и многие - это весьма активные стартапы. У Hasura есть перечень таких СУБД с которыми они работают [2], например, Neon, о которых я писал в июле 2022 г. [3], но у Neon переписанный бэкэнд с открытым кодом [4] как и у ряда других Postgres совместимых СУБД.

А вот реализация колоночных таблиц очень напоминает про Clickhouse, StarRocks и др. подобным продуктам и, быть может, в этой фиче Гугл позиционируют AlloyDB как их альтернативу. Но, опять же, выбирая между близкими по производительности продуктами с открытой лицензией и открытым кодом и без оной, с vendor lock-in и без него, выбор очевиден.

Мне лично особенно не нравится облачный vendor lock-in, потому что одно дело если ты можешь купить корпоративную лицензию, но у тебя потом есть время на миграцию, и другое дело когда ты зависишь от создателя продукта не только разрешением на его использование, но и инфраструктурно.

Поэтому возвращаясь к альтернативам, напомню про Citus [5] которые также реализовали колоночное хранилище для Postgres и с открытым кодом, именно его использует Microsoft в Azure Cosmos DB [6].


Ссылки:
[1] https://cloud.google.com/blog/products/databases/run-alloydb-anywhere
[2] https://hasura.io/docs/latest/databases/postgres/index/
[3] https://t.me/begtin/4113
[4] https://github.com/neondatabase/neon
[5] https://www.citusdata.com/
[6] https://learn.microsoft.com/en-us/azure/cosmos-db/postgresql/concepts-columnar

#opensource #dbms #google
На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора данных для обучения языковой модели. Более всего там базы патентов из patents.google.com которая собрана из открытых баз патентов США и других стран, там же база публичных отчётов компаний sec.gov и ещё многие другие открытые государственные данные, в основном из США. Другой немаловажный источник - Википедия.

Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?

А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.

Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

#opendata #ai #datasets #google
В рубрике больших наборов данных Open Buildings [1] от Google. Набор данных идентификации зданий в странах Глобального Юга: Африка, Латинская Америка и Юго-Восточная Азия. Набор данных относительно велик, 178GB. Работать с ним можно в облаке Google или скачать себе локально его целиком или отдельные сегменты разделённые по геометрии S2 [2]. Кроме того каждому зданию присваиваются Plus codes [3], уникальные идентификаторы используемые в Google Maps.

Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.

А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].

Было бы интересно увидеть сравнения этих наборов данных.

Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints

#opendata #google #microsoft #earth #datasets #data
Ещё один интересный каталог с глобальными данными Awesome GEE Community catalog [1] создаваемый сообществом пользователей Google Earth Engine, я писал о нём год назад [2] и с тех пор каталог обрёл новый сайт и много больше данных.

Теперь он включает более 322 терабайт данных, около 1 миллиарда объектов и чуть менее 1 миллиона изображений.

Особенность этого каталога в том что это, по сути, коллекция страниц где могут быть или не быть ссылки на выгрузку данных, но всегда есть код для подключения выбранного слоя/данных к Google Earth Engine.

Ссылки:
[1] https://gee-community-catalog.org
[2] https://t.me/begtin/4287

#datacatalogs #opendata #datasets #geodata #google
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google