Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
По поводу запрета звонков через Telegram и WhatsApp в России с явным продвижением мессенжера MAX я, конечно, как и многие другие недоумеваю. Всё это происходит настолько грубо что кажется особенно глупым и раздражающим. Но я хочу особенно подсветить ещё один нюанс. Мессенжеры активно используются для международных звонков и если, к примеру, Вы живёте не в России, а Ваши родители здесь, то звонить по номеру телефона не через мессенжеры влетает в копеечку, почему все и перешли стремительно в те мессенжеры которые обеспечивали лучшую связь и WhatsApp и Telegram тут лидеры.

И что, с их запретом, думаете, все пойдут в MAX ? Да вот хрена с два, MAX, помимо других технических и юридических нюансов, имеет один огромный минус - там авторизация только по номерам в РФ и в Беларуси. Всё это накладывается на ранее принятое регулирование по запрету передачи сим-карт, по продлению номеров сотовых телефонов негражданами РФ и тд.

Всё это, объективно, сильно затрудняет жизнь всем кто общается с кем-либо голосом за пределами России. Только более вероятный сценарий что будут пользоваться чем угодно но не MAX'ом. Пользоваться будут тем что будет обеспечивать лучшую связь: Google Meet, Teams, Jitsi, Zoom и далее по списку. Список длинный, вариантами будут обмениваться так же как и обмениваются лучшими VPN для обхода блокировок. А вот MAX и сотовых операторов будут откровенно ненавидеть. Зачем так делать? Я лично искренне не понимаю. Вернее понимаю и вижу что сопутствующий ущерб происходящего значительно превышает любые, предполагаемые, плюсы если бы они тут могли бы быть.

#messaging #russia
5💯92👍1913🔥5💔2🗿2❤‍🔥1😁1😱1🌚1💅1
И второе, на сей раз про конкретно про мессенжер MAX уже с точки зрения цифрового архивиста. Есть ключевая проблема большей части социальных сетей и коммуникационных сервисов в которых есть каналы/подписки на чьи-либо публикации в том что они плохо индексируются и архивируются. К примеру, в Интернет-архив попадает мало материалов из Facebook'а и LinkedIn, также как и в поисковый индекс Google или в Common Crawl. Компании владельцы соцсетей часто явно препятствуют или явно не предусматривают что их содержание может быть заархивировано и сохранено где-то ещё. Ну и коммерческий аспект отменить нельзя, на базе контента обучают ИИ и владельцы инфраструктуры не хотят отдавать пользовательский контент другим.

В этом смысле телеграм, в какой-то степени, уникален за счёт открытого API и того что большая часть контента индексируется извне. Например, команда ArchiveTeam архивирует большую часть общедоступного контента из Telegram с начала 2022 года. Там собрано более 5 петабайт данных. Плюс есть какое-то количество коммерческих сервисов которые, также, индексируют и архивируют публикуемое в телеграм каналах и общедоступных группах.

Для сравнения у MAX'а нет открытого, неавторизованного контура. Для того чтобы просмотреть содержимое любого канала в MAX нужно быть авторизованным и я напоминаю про то что это теперь возможно только через российские и беларусские сим-карты. А то есть материалы публикуемые в каналах в MAX архивироваться извне не будут. В лучшем случае их контент будет заархивирован какими-либо сервисами медиамониторинга.

Пока что в РФ не запретили вести каналы в Телеграм и маловероятно что кто-то из тех что сейчас MAX продвигает уйдёт туда и только туда, потому что аудитория то может туда и не прийти. Но важно понимание что это смена открытой экосистемы на закрытую,

Причём это парадокс для всех тех кто продвигает сейчас MAX на медиа площадках. Их русскоязычная аудитория не только в России, но и в пост-советских странах и в диаспоре рассеяной по миру. До тех пор пока MAX - это закрытая платформа и без возможности авторизации с номера телефонов других стран привлекательной она не будет. А разрешив там регистрацию с СИМ картами других стран автоматически обнуляются все разговоры про "безопасность". Это неразрешимый парадокс.

Более я на тему не вижу смысла писать. Технологическая конкуренция - хорошо, административная антиконкуренция - плохо.

#messaging #russia
1👍34🔥16💯145😁3
В качестве регулярных напоминаний, какое-то время назад я разрабатывал инструмент под названием metacrafter это специальная библиотека для Python, утилита и сервер для идентификации семантических типов данных, удобная для идентификации того что содержится к конкретном поле конкретной базы данных и вспомогательный инструмент для определения персональных данных и другого осмысленного содержания. У него есть достаточно широкий набор общедоступных правил на основе которых он работает.

В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.

Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.

Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.

Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.

Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.

Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.

Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.

#opensource #data #datatools #dataengineering
👍14
Хорошие советы от Александра, а я добавлю что сейчас мало где столько манипуляций как в любом околополитическом контенте. И мало где столько токсичности как в политике и околополитике. Особенно присоединяюсь к совету читать публикации с противоположным вашему мнению.
💯8
Цифровая гигиена

Завтра, видимо, будет много контента и совсем проигнорировать его и невозможно, и, наверное, не нужно. Но можно пытаться минимизировать его вред. Мой личный подход ниже.

– Все околополитическое лучше читать, чем смотреть. Любой продажник подтвердит, письменно фигню сложнее впарить. Заодно и время сэкономите.

– Читать лучше в изложении тех, с кем вы не согласны. Правым подойдут левые издания, левым – правые. В интерпретациях и подборе деталей врут те и другие, но вранье оппонента считывается лучше. Основные факты у хоть как-то адекватных СМИ пока одинаковы, а те, что живут в полном отрыве от объективной реальности и при этом на чужой половине спектра, вы читать все равно не сможете – стошнит. “Свои”, кстати, сможете. В этом и есть опасность.

– Если глаза и личный опыт явно противоречат тому, что пишут в газетах, то верить надо глазам, а не газетам. Проактивный гуглеж тоже обычно достовернее реактивного чтения. Если в статье пишут “упал”, а в выдаче поисковика все ссылки на “поднялся” – скорее всего, он поднялся.

#политота
1💯26🤝9😁73
Полезное чтение про данные, технологии и не только:
- Practices for Collecting, Managing, and Using Light Detection and Ranging Data (2025) хороший обзор практик сбора, обработки и публикации данных измерений LIDAR где можно узнать о том как, зачем и в каком виде эти данные собираются и где их искать.
- Enriching Unstructured Cultural Heritage Data Using NLP обогащение неструктурированных данных об объектах культурного наследия с помощью LLM.

#readings #ai #opendata #data #geodata
1👍41
Появилось настольное приложение Qwen [1] для Windows и MacOSX через которую можно работать с 5 облачными языковыми моделями этого семейства LLM. Это не local-first и не local-only, все языковые модели облачные поэтому чувствительные тексты и документы туда направлять не будет разумным, но в остальном удобно для тех кто кто не может использовать другие LLM из-за геоблокировок. Важный объявленный плюс - поддержка MCP. Мне, правда, так и не удалось подключить Qwen к локальному MCP серверу по http streaming, хотя через LM Studio всё прекрасно работало. Но, будем надеяться, что это скоро исправят.

Ссылки:
[1] https://qwen.ai/download

#llm #qwen #ai #tools
1👍10
В рубрике как это устроено у них
Государственный каталог Музейного фонда

Существует как минимум 8 лет, включает 9335 объектов.

Из плюсов:
- имеет API (недокументированное), охватывает множество музеев страны.

Из минусов:
- условия использования материалов не определены
- объекты в виде книг отсканированы только в виде обложек
- 9335 объектов это очень мало для страны в 9 миллионов человек и более 150 музеев. В одном только национальном музее Беларуси 37 тысяч единиц

Во всех таких каталогах я проверяю на наличие объектов относящихся к Армении и в белорусском каталоге их практически нет, вернее всего два.

#culturalheritage #opendata #belarus
13👍2
В дополнение к классификациям приложений https://t.me/begtin/6810 которые я ранее перечислял могу сформулировать ещё одну - local-network-first. Это почти как local-first, когда приложение выполняется локально, но получает дополнительные возможности при наличии сетевого доступа. local-network-first - это когда дополнительные сервисы для такого приложения остаются в контуре компании/проекта, но достаточно стандартизовано. Например, если приложение может использовать облачную LLM, а может использовать LLM развернутое в локальной сети (или не в локальной, но под контролем). Тем самым расширенные функции сохраняются, но взаимодействие идёт не в пределах локального устройства, а в пределах сети. При этом есть и возможность переключиться на облачное API/сервис.

Выглядит уже как архитектурный шаблон, пока не самый распространённый, но кто знает.

#itarchitecture #api #thoughts
1👍8
Хорошая картинка (источник) отображающая основные дата профессии для тех кто выбирает чему учиться и куда переквалифицироваться.

К ним можно добавить ещё 3:
- data quality engineer (спец по качеству данных, подвид дата аналитика)
- platform engineer (дата инженерия на основе облачных платформ, подвид дата инженера)
- analytics engineer (гибрид дата аналитика и дата инженера)

И более редкая карьера в ответе на вопрос "любите ли Вы программировать?". Если да, то есть ещё путь в разработчики data продуктов.

Ничего не упустил?

#data #thoughts #career
210👍31
Полезное чтение про данные, технологии и и не только:
- Traps for developers подборка советов по особенностям языков программирования и фреймворков. По Python совсем мало, видно что не сильная сторона автора, по многим другим немало, в целом выглядит полезно.
- Data quality guides подборка руководств по качеству данных, вернее по процессам организации обеспечения качества данных. Все собраны из документов руководств дата-компаний и, по сути, касаются не только качества данных, но и управления данными в целом, что затрагивает качество.
- Big Tech Is Eating Itself in Talent War статья в WSJ за пэйволом о том что главный дефицит в бигтехах сейчас - это ИИ таланты за которые идёт всё более ожесточённая война.
- Building a web search engine from scratch in two months with 3 billion neural embeddings лонгрид о том как автор пытается создать поисковую систему по веб'у. Много технических подробностей и решений, точно интересное чтение

#data #bigtech #search #readings
7👍21
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
От источника, пожелавшего остаться анонимным. Звонок с городского номера федерального госоргана:

Госорган: здравствуйте, почему вы не хотите пройти наш экспертный опрос?

Эксперт: потому что меня нет в списке экспертов на вашем сайте

Госорган: Мы скрыли список экспертов по соображениям безопасности

Эксперт: Какой безопасности?

Госорган: Нашей. А вдруг кого-то из экспертов признают иноагентами, а нам отвечать
😁37🤣106🗿4😱1💊1
О предубеждениях программистов

На днях мне довелось общаться с командой которая делает один любопытный продукт по обработке данных. В какой-то момент они решили добавить в продукт работы с данными с помощью ИИ и, поначалу, поэкспериментировали с подключением ChatGPT, а потом весь механизм полностью заменили на движок llama.cpp (не путайте с Ollama) с помощью и перевели всю работу с данными в режим local-only. Это когда через интерфейс приложения можно скачать одну из двух моделей Llama 3.2 или Qwen 2.5 и с их помощью локально с данными работать.

Надо ли объяснять что тут не так? В первом случае они сделали решение которое было cloud-only, без облачного сервиса не работало. Во втором случае они сделали решение local-only, очень приватное, и почти неработоспособное. Кроме того что оно кушает много памяти и диска, оно ещё и замораживает компьютер пользователя, а пользователи могут быть не самые продвинутые по навыкам и по технике.

Мне буквально пришлось им объяснять что для большинства пользователей нужен выбор и оба подхода некорректны по умолчанию. Кого-то не пугают облачные LLM, у кого-то есть собственная инфраструктура с развертными Ollama или LM Studio на сервере или десктопе с сетевым подключением, кто-то пользуется хостинг провайдерами - Digital Ocean, Nebius, Яндекс.Клауд и др.

Поскольку эту команду я знаю достаточно давно и они из open source мира то подозреваю что первоначальное использование ChatGPT было скорее экспериментом, а потом они стремительно переключились на local-first решение как то которое они считают наиболее приемлемым.

Я совсем не уверен что мне удастся их переубедить, потому что у них есть два мощнейших предубеждения. Это Анти бигтех и Анти ИИ (пока не могу подобрать названий получше).

Первое заключается в том чтобы не использовать никаких сервисов биг техов и других крупных облачных провайдеров. Это довольно мощная установка в большой часть европейского open source движения в том что использовать только открытые альтернативы. Не использовать хостинг биг техов, не использовать их облачные сервисы, не использовать системы звонков/коммуникации и тд. Эта предустановка распространяется и на все американские ИИ стартапы и сейчас множится на концепцию цифрового суверенитета ЕС.

Второе - Анти ИИ, происходит от Анти бигтех, но с установкой того что большие ИИ компании "сжирают Интернет" и все открытые цифровые артефакты: открытый код, открытые данные, книги, статьи, иные открытые результаты, всё идёт в их обучение. Она выражается в том что обработка данных через ИИ не реализуется чтобы "не кормить ИИ своими данными".

Всё это в дополнение другим традиционным предубеждениям программных команд: Не изобретено здесь, Пользователь всегда неправ и ещё многих других.

#opensource #programming #thoughts #data #ai
18🔥8💯71
Что-то я текст написал, а поделиться им забыл. Цифровой ящик пандоры про национальный госмессенжер, национальную википедию и национальный ИИ. Пока писал меня не покидало ощущение что записываю какие-то банальности, очевидности-высоковероятности, но решил зафиксировать текстом.

#readings #texts #writings
1👍238🔥3🤝1
Тем временем в Европе сворачивается история с раскрытием реестров конечных бенефициаров компаний. Сами данные продолжают собирать, но теперь эти реестры убирают из открытого доступа в тех странах где ранее публиковали. Свежее решение датского регулятора (на датском языке) по которому с 1 сентября 2025 г. датский реестр бенефициаров компаний публиковаться не будет. Их кейс когда-то неплохо разбирали в рамках проекта Open Ownership в 2023 году и в целом в мире всё постепенно двигалось к большей открытости бенефициаров до директивы (ЕС) 2024/1640 от 31 мая 2024 которая возникла после решения европейского суда.

История эта интересная, но у меня пока нет времени написать про неё лонгрид. Она ровно о том что защита персональных данных, а в данном случае GDPR, главный ограничитель открытости коммерческих реестров.


#opendata #europe
😢85👍4💔21🔥1
Новый протокол Agent Communication Protocol (ACP) в открытом коде от IBM Research, предполагается как альтернатива MCP.

Что тут скажешь, идея может и хорошая (надо проверять как там и что), а вот реальное применение может возникнуть только при проникновении в наиболее популярные сервисы и инструменты.

#ai #ibm #opensource
1👍53
В продолжение текста о предубеждениях программистов, команда с которой я тогда общался - это команда Open Data Editor, open source приложения от Open Knowledge Foundation для валидации данных, изначально публикуемых на порталах открытых данных вроде CKAN.

Мне вообще для многих разных задач всегда был нужен похожий инструмент который помогал бы в задачах обработки и верификации данных и изначально ребята ребята его и делали с возможностью подготовить данные для публикации в CKAN/Zenodo, почистить их и тд.

Теперь:
1. Они добавили ИИ функции исключительно через локальные LLM
2. Убрали публикацию в CKAN и Zenodo
3. Переосмыслили приложение в сторону data exploration и data validation, практически полностью убрав все функции редактирования данных.

В итоге:
- ИИ функции не работают поскольку используются самые слабые ИИ модели и всё выполняется локально
- ориентация на нетехнических пользователей
- всё сделано в виде десктопного приложения, но у разработчиков нет компьютеров с Windows поэтому на Windows они не тестируют и приложение на Windows регулярно падает, скорее всего также из-за ИИ функций
- валидация данных без последующей возможности изменения данных не приносит счастья, даже если ошибки найдены
- у пользователей постоянный вопросы "какие промпты писать?" потому что оказывается что промптинг сам по себе на бытовые вопросы - это несложно, а промптинг в отношении данных - вопросы вызывает.

По моим ощущениям всё это скорее печально, но вообще экосистема открытых данных резко контрастирует с инструментами для дата аналитиков. Есть ощущение что она очень сильно отстаёт и ориентируется на пользователей с весьма низкими навыками вместо обучения их к применению более развитых инструментов. Причём на пользователей из наименее развитых стран, при этом не учитывая что у них нет достаточно мощного оборудования для работы с LLM локально.

Другой подход есть, к примеру, у расширения ИИ для OpenRefine которое позволяет обрабатывать данные подключая разных провайдеров, Ollama или Grok или OpenRouter.

А пока получается что удобного инструмента для публикации в каталогах данных нет(

#opensource #thoughts #data #opendata #tools
🤔4👍32
В рубрике полезных инструментов для работы с данными
- Textplot DuckDB Extension расширение для DuckDB для создания симпатичных текстовых графиков. Для всех кто любит работать в консоли
- DataKit сервис и одноимённый стартап по data exploration и анализу качества данных с помощью ИИ ассистента и тетрадок + визуализация. Выглядит как удобный рабочий инструмент аналитика, по ощущениям очень похожий на Mode. Цена пока неизвестна

#data #dataquality #datatools
61