Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.24K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Важная новость для всех кто собирает данные из публичных источников. Суд в США обязал Microsoft разблокировать доступ компании HiQ Labs к открытой части социальной сети Linked In [1]

HiQ Labs занимаются анализом поведения сотрудников и занимались сбором данных (scraping) с сайта LinkedIn, после чего получили письмо предупреждение от LinkedIn и, также, LinkedIn предприняли технические меры по их блокировке [2].

После чего HiQ Labs в июне обратились в суд и суд принял решение что LinkedIn нарушает антимонопольное законодательства и не может подтвердить что именно они владеют теми данными которые находятся на их сайте.

История показательна и является примером того что не только компании владельцы соц сетей могут подавать в суд на тех кто собирает их данные, но и возможна обратная ситуация - когда их ограничения приводят к судебным разбирательствам.

Ссылки:
[1] http://www.zdnet.com/article/judge-orders-linkedin-to-unblock-startup-from-scraping-public-profile-data-report/
[2] http://jolt.law.harvard.edu/digest/hiq-labs-v-linkedin-is-scraping-public-data-protected-speech

#opendata #scraping #microsoft #linkedin
Bloomberg пишет что Microsoft может приобрести Github, крупнейший проект репозиториев исходного кода, за 5 миллиардов USD [1], однако пока не подтверждает это какими-либо ссылками на официальные источники. А в Techcrunch пишут что компания пока никак не комментирует эти слухи [2].

О переговорах между компаниями писали ещё несколько дней назад в Business Insider [3], однако Bloomberg теперь пишет всё в гораздо более уверенных тонах.

5 миллиардов USD - это значительно меньше чем, например, 26 миллиардов USD за которые Microsoft купили LinkedIn. А покупка Github'а даст Microsoft существенное преимущество при интеграции Github и облака Azure, например.

Конечно, многое в дальнейшем зависит от того насколько агрессивно они будут внедрять интеграцию с собственными продуктами. Github стал стандартом де-факто для всех проектов открывающих исходный код, но и у него есть множество альтернатив.

Ссылки:
[1] https://www.bloomberg.com/news/articles/2018-06-03/microsoft-is-said-to-have-agreed-to-acquire-coding-site-github
[2] https://techcrunch.com/2018/06/03/microsoft-is-reportedly-acquiring-github/
[3] http://www.businessinsider.fr/us/2-billion-startup-github-could-be-for-sale-microsoft-2018-5

#opensource #github #microsoft
Microsoft официально купили Github за 7.5 миллиарда USD [1] с оплатой акциями, в их пресс релизе упоминается 28 миллионов разработчиков итого получается по 267 USD за одного разработчика, не так уж много если подумать.

А тем временем с начала анонса начался массовый импорт проектов в GitLab [2], о чём активно обсуждают на YCombinator [3] и Reddit [4]

При том что я лично не разделяю таких острых опасений в адрес Microsoft, думаю что скорее они будут налаживать мостики и отношение с FOSS сообществом, тем не менее, да, много вопросов может быть у авторов большого числа проектов.

Ссылки:
[1] https://news.microsoft.com/2018/06/04/microsoft-to-acquire-github-for-7-5-billion/
[2] https://www.bleepingcomputer.com/news/technology/gitlab-sees-huge-traffic-spike-after-news-of-microsoft-buying-github/
[3] https://news.ycombinator.com/item?id=17223116
[4] https://www.reddit.com/r/Ubuntu/comments/8odwlb/gitlab_sees_huge_spike_in_project_imports_seems/

#opensource #microsoft #github
Microsoft (команда Bing) опубликовали данные по распознанным образам 124 миллионов зданий в США [1] специально для сообщества OpenStreetMap и для загрузки в OpenStreetMap под свободной лицензией ODbL [2]

Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]

Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.


Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex

#opendata #microsoft #bing
Майкрософт убрали возможность ставить Windows 10 без интернета как пишут на Reddit [1]. На самом деле это не совсем так, и теперь установка с локальным аккаунтом возможна только если у компьютера нет доступа в Интернет или если несколько раз неправильно ввести телефон. Но суть остаётся прежней, Microsoft загоняет пользователей в онлайн и завязывает в свою экосистему.

Ссылки:
[1] https://www.reddit.com/r/Windows10/comments/daim1y/ms_has_removed_the_use_offline_account_option/

#microsoft
Большая волна поднимает все корабли, но кто-то должен поднять эту большую волну.

Майкрософт объявил о старте кампании Closing the Data Divide: The Need for Open Data [1] (Закрывая неравенство в данных: Потребность в открытых данных) по популяризации открытости данных и по глобальному продвижению этой концепции. На фоне того что открытость данных, открытость государств начала отступать в мире, того что правительства стали если не отказываться, то забывать про обязательства открытости, инициатива со стороны одной из крупнейших цифровых корпораций - это, безусловно, хорошая новость.

И хороша она не только тем что именно Microsoft его запускает, а тем что Microsoft, Google, Amazon и другие цифровые лидеры умеют договариваться когда им это выгодно, и очень хочется надеяться на то что они сформируют собственное партнёрство по продвижению открытых данных.

Подробнее в блоге Microsoft [2]

Ссылки:
[1] https://news.microsoft.com/opendata/
[2] https://blogs.microsoft.com/on-the-issues/2020/04/21/open-data-campaign-divide/

#opendata #microsoft
В рубрике больших наборов данных команда Microsoft Bing опубликовала наборы данных со сведениями о зданиях [1] под открытой лицензией Open Data Commons Open Database License (ODbL) используемой в OpenStreetMap.

Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий

Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.

P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.

Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/

#opendata #microsoft
Microsoft выпустили Open Data Social Framework [1] большой документ в помощь тем кто собирается достигать общественных и социальных целей с использованием открытых данных. Авторы его Open Data Policy Lab и сам документ подготовлен в рамках вот уже 2-х летней программы.

Microsoft молодцы в последовательной политике открытости, многие опасались что Github'у сильно похужеет после покупки и что компания, в принципе, не про открытость. Но в части открытых данных они и другие BigTech компании делают много полезного. Конечно, всегда не так много как хотелось бы, но много.

Ссылки:
[1] https://news.microsoft.com/open-data-social-impact-framework/

#opendata #microsoft #data
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.

Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.

Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.

Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping

#opendata #ai #datasets #microsoft #corporateresponsibility
Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].

В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.

И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.

В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.

В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.

Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.

Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz

#ai #dataethics #aiethics #microsoft
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.

Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]

Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.

В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.

Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data

#opendata #data #cartography #microsoft #amazon #meta #tomtom
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.

Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.


Ссылки։
[1] https://microsoft.github.io/cadl/

#opensource #microsoft
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.

Но Россия есть, и обитаемая зона её не так велика как географическая.

Все данные в формате TSV, сжатый объём около 10GB.

Ссылки։
[1] https://github.com/microsoft/RoadDetections

#opendata #datasets #microsoft
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.

Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.

А вот Microsoft может получить существенную долю поискового рынка для Bing.

Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

#ai #microsoft #search