Ivan Begtin – Telegram

Ivan Begtin

8.99K subscribers

2.62K photos

5 videos

114 files

5.43K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

8.99K subscribers

Полезные ссылки про данные, технологи и не только:
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.

#opensource #tools #datatools

www.dash.builders

Dash - Data Exploration Tool

Open-source data visualization tool with DuckDB.

👍10✍7❤5

1.5K viewsIvan Begtin, 09:53

~~Британские учёные~~ Исследователи из Гарварда выяснили что ChatGPT по ценностям ближе всего к Западной Европе и конкретно к Финляндии и Нидерландам и самим США, что, впрочем, ожидаемо. Оценивали они это по ответам на World Values Survey (WVS) и сравнивая с результатами по странам.

Что тут скажешь, не достигло ли влияние западной цивилизации апогея с появлением "западноевропейского ИИ" или же компании будут делать адаптированные версии/ответы под разные страны и культуры?

#ai #worldvalues #surveys

1👍14😁7❤1

1.63K viewsIvan Begtin, 19:04

Nixiesearch любопытный поисковый движок со встроенным ИИ поиском, позиционируется как альтернатива Elasticsearch и Opensearch, внутри использует Apache Lucene, хранит индекс в S3 и индексирование через pull запросы без необходимости отправлять JSON в индекс постоянно.

Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.

Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.

Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.

Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.

Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.

Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.

Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.

#opensource #data #search #ai #vectorsearch

👍5✍3❤3

1.3K viewsIvan Begtin, edited 06:43

Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata

😢10👍3⚡1😱1💯1

3.98K viewsIvan Begtin, edited 12:48

В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году

На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.

Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.

Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.

С другой стороны небольшое число датасетов компенсируется их значимостью.

#opendata #china #datasets #data #datacatalogs

🔥4❤1

1.26K viewsIvan Begtin, 15:26

Полезные ссылки про данные, технологии и не только:
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM

#links #readings #ai #data #datatools

stackoverflow.blog

AI vs Gen Z: How AI has changed the career pathway for junior developers - Stack Overflow

✍5⚡1

1.32K viewsIvan Begtin, 18:28

Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.

- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML

А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных

И это далеко не полный список.

#opendata #specifications #datasets #standards

Хорошие и плохие практики публикации данных. Метаданные и форматы файлов

«Буду делать хорошо, и не буду — плохо». (Маяковский)

🔥2❤1🌚1

1.15K viewsIvan Begtin, 06:37

В рубрике как это устроено у них BioImage портал с ИИ моделями для анализа биоизображений, приложениями на основе этих моделей и наборами данных используемыми исследователями для разработки этих моделей. Создаётся в AI4Life consortium за счёт поддержки Евросоюза (программа Horizon). Большая часть каталога наборов данных собрана из разбросанных по сайтам исследовательских центров датасетов, порталов с данными вроде Zenodo и тд.

#opendata #datacatalogs #datasets #eu #openaccess

👍3

1.25K viewsIvan Begtin, 07:16

Элон Маск запустил Grokipedia как альтернативу Википедии проверямую и улучшаемую с помощью ИИ в виде Grok от xAI.

Многие пишут что там всего 885 тысяч статей против 7 миллионов в английской википедии, но, я бы сразу смотрел на этот вопрос шире.

У Grokipedia есть важная фишка - отсутствие необходимости привлекать редакторов людей, а это именно то что сейчас является проблемой переходящей в системный кризис для Википедии. У Википедии падает посещаемость потому что ИИ сервисы отнимают трафик и по множеству причин падает мотивация редакторов.

Одна из "фишек" Grokipedia в факт чекинге к статьям, вот пример статьи Aloha где Grok убрал или отредактировал ряд утверждений.

В каком-то смысле Grokipedia - это проект схожий с российским РуВики или Baike в Китае, но с ИИ главредом и с тем что люди если и будут участвовать в редактировании, то лишь опосредствано.

Не так важно взлетит ли конкретно Grokipedia, как то что сама концепция ИИ надстройки над Википедией и другими ресурсами может оказаться живучей и это будет далеко не последним заходом на эту задачу.

#wikipedia #ai

👍11

1.57K viewsIvan Begtin, 08:45

В силу того что можно назвать технической необходимостью пару недель назад пришлось мигрировать с W11 на Apple M4, все аналогичные виндовые ноутбуки были или тяжелее или сильно менее производительные и могу сказать объективно что плюсов и минусов примерно одинаково. Выбор был или подождать несколько месяцев Framework или брать всё таки Mac, потому что на рабочем ноутбуке начал отказывать контроллер USB и перестали считываться USB устройства, почти не работала зарядка через Type-C.

Минусы
- нехватает WSL и терминал в W10/W11, они реально хороши
- под Windows до сих больше приложений имеющих UI, а для Linux приложений есть WSL
- слегка отличная разметка клавиатуры для кириллицы, то ещё удовольствие
- некоторые недружественные привязки кнопок клавиатуры к приложениям Apple, решается через установку демона NoTunes, но сам подход у Apple весьма плох в этом
- по умолчанию текстовые редакторы не столь привычны (но можно доустановить или пользоваться облачными продуктами)
- гораздо меньше бесплатных приложений, а многие бесплатные что можно скачать в AppStore продаются за деньги даже при том что на их сайтах их можно скачать без денег

Плюсы:
- процессоры серии M - это, конечно, большой плюс
- некоторые настольные приложения по работе с данными сейчас часто делают в первую очередь под MacOS (редко, но иногда да)
- MacOS это все таки Unix-подобная операционная система, гораздо комфортнее работать с командной строки когда такая привычка сформирована
- с помощью Parallels можно работать с локальной версией Windows 11 с неплохой производительностью
- MacOS существенно комфортнее в виду отсутствия необходимости непрерывно доустанавливать обновления и перегружаться

В итоге минусы частично компенсируются использованием UTM как виртуальный сервер для Ubuntu и Parallels для W11, но проводил бы я такую миграцию повторно - совсем не уверен.

Последний раз я использовал Apple ноутбуки в виде одного из первых популярных MacBook Air, но в целом из продукцию сдержанно недолюбливаю из-за гораздо большего vendor lock-in чем для других типов устройств.

Если знаете полезные лайфхаки как облегчить себе работу на MacOS - поделитесь!

#personal #devices #macos #windows

❤6🔥4👍2

1.43K viewsIvan Begtin, 10:54

Тем временем политика добралась и до Python Software Foundation (PSF). На днях от отказались от $1.5 миллионого гранта NSF (National Science Foundation) в США поскольку по условиям NSF потребовали отказаться от любой поддержки инициатив DEI, причем не только в рамках гранта, но и в любой другой активности фонда.

Лично мне активное продвижение DEI никогда не нравилось, но тут про разные крайности этого политического маятника. При демократах в США DEI всячески поощрялось в том числе через условия в грантах, при Трампе наоботот, DEI активно неодобряется.

И промежуточных вариантов нет, или налево, или направо, и в PSF решили что идти направо для них будет слишком и лишились $1.5 миллиона на 2 года, а это немало ибо их общий годовой бюджет составляет около $5 миллионов, а грант предполагалось потратить на повышение безопасности репозитория пакетов PyPi.

Да, политика добирается до всех нас, где бы мы не находились.

#python #dei #politics

Python Software Foundation Blog

The PSF has withdrawn a $1.5 million proposal to US government grant program

In January 2025, the PSF submitted a proposal to the US government National Science Foundation under the Safety, Security, and Privacy of Op...

😢11✍3⚡2👍2😱1

1.58K viewsIvan Begtin, 16:05

Открытые данные постсоветских стран. Часть 1

Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.

- Эстония. Портал данных andmed.eesti.ee встроенный в европейские инициативы, 5651 набор данных с акцентом на статистику, но в целом довольно разнообразный. Задекларированная инициатива по наборам данных особой ценности (HVD), но сами наборы данных пока не опубликованы. Портал собственной разработки
- Латвия. Портал данных data.gov.lv также встроен в европейские инициативы, работает на базе CKAN, всего 1425 набора данных. Довольно много геоданных, не меньше трети всего опубликованного и раздел с особо ценными наборами данных, как на всех европейских порталах данных
- Литва. Портал данных data.gov.lt. Всего 2743 набора данных, портал собственной разработки, интеграция в европейские инициативы по открытым данным. Много геоданных и, также, отдельный раздел для особо ценных наборов данных
- Молдова. Портал данных dataset.gov.md содержит 1274 набора данных, преимущественно в Excel, Word и PDF форматах (не очень то и машиночитаемо) и совсем не выглядит системно организованным. Не интегрирован в европейские инициативы и выглядит скорее как плохо организованный
- Украина. Портал данных data.gov.ua включает 39 тысяч наборов данных, существенная часть которых собирается с областных и городских порталов открытых данных. Все работает на CKAN и используется харвестинг CKAN'а для агрегации на центральный портал. Большая часть данных в форматах Excel, Word, PDF, геоданных довольно мало, наборы данных особой ценности отдельно не выделены
- Казахстан. Портал данных data.egov.kz включает 3824 набора данных. создан на некой собственной платформе, важная особенность - крайне жёсткие ограничения на выгрузку данных которые доступны или только для граждан страны или с выгрузкой не более 100 записей за раз. Наборы данных особой ценности никак не обозначены, геоданные отсутствуют, работает не по принципу агрегации, а через загрузку данных органами власти (в Казахстане почти нет региональных и городских порталов с данными).
- Узбекистан. Портал data.egov.uz декларируется 10 тысяч наборов данных, но я ранее писал о том что не так с этим порталом и с тех пор ничего не изменилось. Огромное число датасетов создано через искусственное дробление наборов данных, реальный объём данных на портале очень скромный. Декларируются данные для AI, но на проверку это не датасеты для data science, а маленькие базы данных предоставляемые через API.

В следующем посте: Беларусь, Армения, Грузия, Азербайджан, Россия, Кыргызстан, Туркменистан, Таджикистан

#datacatalogs #opendata #data #datasets

1✍7❤2

1.41K viewsIvan Begtin, edited 07:13

Открытые данные постсоветских стран. Часть 2

Продолжаю обзор порталов открытых данных постсоветских стран, начало можно прочитать в части 1

- Беларусь. Портал данных в Республике Беларусь существовал только непродолжительное время в декабре 2021 года по адресу data.gov.by (сейчас недоступен) и всё что о нем осталось в сети доступно в Интернет Архиве. Поэтому можно исходить из того что портала открытых данных в стране нет.
- Армения. В Армении как и в Беларуси нет своего госпортала открытых данных, даже при том что страна имеет свой план открытости в рамках OGP, открытые данные туда не входят. Существует только негосударственный портал data.opendata.am без какой-либо господдеркжи
- Грузия. В Грузии до февраля 2025 года существовал портал открытых данных data.gov.ge (сейчас недоступен), его упоминание есть в Интернет архиве. Что с ним случилось, его причины закрытия неизвестны.
- Азербайджан. Портал открытых данных существовал до апреля 2025 года по адресу opendata.az, сейчас недоступен, информация сохранилась в Интернет архиве. В целом на портале публиковались только немногочисленные административные данные, без существенных статистических данных, без геоданных и тд.
- Россия. Портал открытых данных data.gov.ru открылся летом 2025 года и включает сейчас около 7600 наборов данных. На портале отсутствуют геоданные, отсутствуют данные высокой ценности, почти все данные можно отнести к административным данным, не имеющим прямого практического применения. Важные особенности - общий объём данных в сжатом виде около 150МБ и подавляющее число наборов данных устарели от 2 до 10 лет назад.
- Кыргызстан. Портал data.gov.kg изначально сделан на CKAN, без специальных настроек, без геоданных, без наборов данных особой ценности. Сейчас недоступен, общий объём опубликованных данных всегда был невелик качественно и количественно.
- Туркменистан. Портала открытых данных страны никогда не существовало
- Таджикистан. Портала открытых данных страны никогда не существовало

#datacatalogs #opendata #data #datasets

Открытые данные постсоветских стран. Часть 1

Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.

- Эстония. Портал данных andmed.eesti.ee…

👍5✍4❤1

1.31K viewsIvan Begtin, 09:06

Читаю новость о том что вице-премьер РФ Григоренко на Форуме в Тюмени заявил о том что будут доступны данные для обучения ИИ.

И как бы тут сказать повежливее:
1. Федеральный портал открытых данных архитектурно построен так что там не могут быть стандартным способом размещены данные для ИИ. Проще создать новый портал данных чем использовать его.
2. Региональных порталов открытых данных скорее нет чем есть, данные на них устарели или являются бесмыссленными мелкими административными датасетами
3. ЕИП НСУД - это забюрократизированная государственная инфраструктура не имеющая отношения к предоставлению наборов данных или больших баз данных, она про другое и сомневаюсь что её можно перестроить под что-либо ещё
4. То что представители бизнеса получат возможность размещать заявки с запросами на данные, это, как бы, вообще это было изначально и это просто сломали на новой версии data.gov.ru. Но это плохой механизм потому что дата бизнес, скажем так, испытывает очень серьёзные опасения что они озвучат свои пожелания на данные, а с них потом за них что-то потребуют если не деньгами то ~~потом и кровью~~ их собственными данными.

И, конечно же, дело в том что для размещения наборов данных для ИИ надо их где-то взять, а пока российскому пр-ву и законодателям лучше удаётся принуждать бизнес отдавать данные, а не убеждать внутригосударственных владельцев датасетов их публиковать в открытую или хотя бы предоставлять на понятных условиях и прозрачных процедурах.

#opendata #russia #ai #blahblahblah

🔥9❤8✍1

1.37K viewsIvan Begtin, 10:06

О сжатии данных

Вначале немного общего контекста.
Один из трендов разработки ПО, игр, сайтов, мобильных приложений последних десятилетий был и остаётся рост размера самих программ и связанных с ними цифровых артефактов. Это же относится и к данным, данных становится больше, хранить их в как-есть оказывается накладно и для передачи, и для стоимости хранения, и для обработки. Собственно одна из причин появления новых алгоритмов сжатия вроде Zstandard, Brotli и др. от бигтехов в том что внутренний и глобальный запрос на повышение эффективности хранения и передачи данных есть и он давно уже перерос специализированные и академические области применения и новые алгоритмы приходят теперь не из задач связанных с академическими проектами, вроде появления алгоритма LZO, а именно из практической массовой потребности.

А теперь немного тезисно:
- несмотря на снижение стоимости хранения данных и повышения производительности компьютеров в задачах построения любых больших систем стоимость хранения данных имеет прямую измеримость в стоимости носителей, аренды облачного хранения и стоимости передачи данных
- в большинстве случаев применение методов компрессии сейчас - это инженерная задача поскольку инструментов много, а известны они не все и применяются не все
- разные задачи требуют разные подходы - холодное хранение цифровых артефактов, хранение данных для автоматизированной обработки, оперативная доступность, критичность времени подготовки (упаковки данных) и распаковки. и так далее

Самые очевидные правила:
1. Во всём что касается хранения структурированных данных когда нужны эталонные данные то применение одного из способов сжатия: Zstandard, Xz, GZip. Zstandard как наиболее сбалансированный по скорость/уровень сжатия, Xz для долгосрочного хранения, а Gzip для работы с инструментами которые могут не поддерживать остальные способы сжатия
2. В случаях когда нет необходимости хранить оригинальные данные - сохранять их в Parquet со сжатием в Zstd. В такой конфигурации данные остаются пригодными для машинной обработки и существенно меньшего объёма

А теперь не самое известное об алгоритмах компрессии:
1. Есть много алгоритмов сжатия гораздо лучше сжимающих данные ценой длительной работы и множество ресурсов. Тем кто интересуется будет интересно почитать о Hutter Prize конкурса по сжатию данных человеческих знаний (Википедии) где можно найти множество программ дающих качественно лучшее сжатие чем общеизвестные инструменты
2. Многие популярные архиваторы дают плохое сжатие, как в угоду скорости, так и просто из-за слабой технической реализации. Есть такие экзотические инструменты как precomp которые пережимают файлы повторно находя в двоичном потоке сигнатуры сжатых потоков, расжимая их и сжимая снова улучшенными алгоритмами. Важное ограничение в том что это всё ещё не production ready инструмент и в том что сжатый файл обяззательно надо расжимать перед использованием.
3. Но есть файлы которые можно пересжимать без потери их реюзабельности. Много лет назад я делал утилиту filerepack которая пересжимала файлы в zip контейнерах. Например, у вас накопились файлы MS Office в docx, pptx, xlsx и других форматах и есть желание их уменьшить. filerepack последовательно пересжимал все файлы внутри контейнера и сам контейнер, но делал это с потерями применительно к файлам изображений. Для презентаций и документов в 99% случаев это было приемлемо, а также в ZIP контейнерах хранятся файлы из LibreOffice (OpenDocument), файлы EPUB и многие другие. Те же приложения для Android и Apple IOS.
4. Один из способов работы с архивами - это их монтирование в операционную систему. Это позволяет некоторым приложениям не работающим со сжатыми данными, тем не менее это делать. Пример, утилита mount-zip и более универсальный инструмент Archivemount

А также существует множество других подходов, инструментов и трюков. Чем больше дискового пространства ты используешь, тем больше думаешь о том как на нем экономить;)

#texts #thoughts #data #compression

✍6🔥5❤2

1.31K viewsIvan Begtin, 07:00

Свежая статья The Geopolitics of Surveillance Capitalism от исследователей из Гарварда о том что "Наблюдающий капитализм" - это целенаправленно выстроенная система геополитики где у США роль ангела хранителя следящих за гражданами в США и по всему миру компаниями. Текст, конечно же, с отсылками на книгу Шошанны Зубофф "Surveillance Capitalism" название которой присутствует в названии этой статьи.

Это большая и важная тема столь мало охваченная поскольку, ни правительствам, ни бигтехам финансировать такие работы и исследования совершенно неинтересно.

В целом же статья полезная для тех кто хочет почитать о том как устроен мир.

#ai #digital #regulation

👍7❤4🌚1

1.4K viewsIvan Begtin, 09:21

Еврокомиссия буквально вчера одобрила DC-EDIC, проект по общей цифровой инфраструктуре Евросоюза.
В коротком изложении он звучит следующим образом.

Что такое DC-EDIC
- Это объединение нескольких стран ЕС (на старте: France, Germany, Netherlands и Italy) для совместной работы по цифровой инфраструктуре.
- Официально оно будет зарегистрировано как «консорциум цифровой инфраструктуры» с юридическим лицом и собственным управлением.
- Штаб-квартира будет в Париже.

Зачем это делают

- Сейчас многие цифровые инфраструктуры и технологии — импортированы в ЕС, что делает экономику и демократию уязвимыми.
- ЕС хочет иметь открытые, совместимые (interoperable) и свои цифровые инфраструктуры — чтобы меньше зависеть от внешней инфраструктуры.

Что будет делать DC-EDIC

- Объединит заинтересованных лиц: государство, бизнес, гражданское общество.
- Сделает единую «точку входа» (one-stop shop) — от финансирования до обслуживания.
- Поможет с правовой и технической поддержкой инфраструктуры и проектов.
- Будет продвигать политику и повышение осведомлённости.
- Запустит конкретные многогосударственные цифровые проекты на базе «цифрового общего» (digital commons).

Как это будет устроено

- У будет собрание членов-государств, комитет внедрения, директор, совет консультантов.
- Доступ ко всем инфраструктурам и сервисам будет открыт, прозрачным и недискриминационным.
- Любое совместно разработанное программное обеспечение по умолчанию будет лицензировано с открытым исходным кодом (open-source).
- Политика работы с данными будет соответствовать General Data Protection Regulation (GDPR) и предусматривать расследование инцидентов безопасности.

Что ожидается и сроки

- К 2027 году: будет запущен единый портал (One-Stop-Shop), форум, премия за «цифровое общее», ежегодный отчёт.
- Консорциум планируют официально запустить в декабре 2025 года.

Почему это важно

- Потому что если ЕС зависит от инфраструктуры, технологий из-за пределов, это может создавать риски (например, если один поставщик перестанет работать или будет вмешательство).
- Такой консорциум помогает укреплять цифровой «суверенитет» — то есть способность быть независимым и контролировать ключевые цифровые ресурсы.
- Также открытый код и совместимость означают, что разные страны и организации смогут легче использовать и развивать цифровые решения вместе.
—
А если ещё короче, то это софинансирование и соразработка цифровой инфраструктуры и цифровых продуктов странами ЕС и всё это с акцентом на открытом коде и открытости в целом.

#opensource #eu #regulation

❤6✍4🌚1

1.42K viewsIvan Begtin, edited 11:09

Про разговоры про мошенников которые звонят пользователям, в американских интернетах подсмотрел как делает сервис Robinhood. Они просто... никогда не звонят пользователям. Вообще никогда.

Покажите мне банк или интернет провайдера который явно задекларирует и будет соблюдать что он не будет мне звонить и я буду пользоваться именно им. Напишите это явно в своей рекламе "Мы никогда не звоним", не присылаем рекламу по умолчанию и всё что я смогу сказать "заткнись и просто бери мои деньги". Потому что то во что сейчас предлагают ~~грёбанные олигополии~~ цифровые чемпионы - это то что на тебя вываливают кучу рекламы если ты пользуешься чем-то бесплатно и ещё больше если ты хоть за что-то платишь. А если ты ещё и за что-то платишь и у них есть твой телефон, так ещё и будут звонить.

А ведь просто. Не надо. Звонить. Никогда

P.S. А если какой-то сервис ещё и звонит роботом, то сразу в черный список.

#privacy #thoughts

1❤21💯10🤝4🔥2

1.33K viewsIvan Begtin, edited 14:14