Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В блоге Cloudflare о том как Perplexity неэтично индексируют сайты закрытые robots.txt и подменяют User-Agent, с позитивной новостью что Cloudflare от этого защищают. Мне трудно понять тут отличия Perplexity от остальных глобальных ИИ продуктов/агентов которые предпочтут тяжбы, но не этичное поведение. Как пользователю Perplexity мне удобно когда я могу получить нужны ответ оперативно, как создателю контентных проектов мне совсем не хочется потерять всю их аудиторию из-за ИИ агентов.

Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.

#ai #scraping #bots #perplexity #cloudflare
👍8
Раритеты Цифрового Архива: И.С. Блиох "Финансы России XIX столетия. История-Статистика" в 4-х томах, 1882 г.

Имя Ивана Станиславовича Блиоха (1836—1901 гг.) — крупнейшего российского банкира, концессионера железных дорог в Российской империи связано с рядом крупных обобщающих научных исследований, освещающих глобальные стороны государственного управления.

Ценным вкладом в историю российских финансов является капитальный четырехтомный труд Блиоха «Финансы России XIX столетия. История - статистика». Первые два тома освещают историю финансов России с древнейших времен, третий том — это монография о доходах, а в четвертом томе дается критический разбор государственных расходов.

В коллекции Цифрового Архива представлены все тома четырехтомника:

Том 1 обращен к истории русских финансов и рассматривает положение финансового управления в государстве с допетровского периода в российской истории и до начала Крымской войны 1853—1856 гг.

Том 2 является продолжением первого тома и охватывает историю русских финансов с начала Крымской войны 1853–1856 гг. до образования Кахановской комиссии, созданной для составления проектов местного управления и работавшей с 1881 по 1885 гг.

В томе 3 рассматривается формирование государственных доходов (налогов, пошлин и прочих поступлений в казну).

В томе 4 в форме историко-статистического обзора 1866—1879 гг. рассматриваются статьи государственных расходов, в т.ч. и сверхсметных.

Следует отметить, что существуют обоснованные сомнения в том, что И.С. Блиох сам написал ряд капитальных многотомных научных работ, изданных под его фамилией. В мемуарах С.Ю. Витте отмечалось:

«Все его [Блиоха] ученые труды писались не им, а писались различными писателями и специалистами за деньги, которые он им платил. Сам же Блиох только составлял ... программу тех трудов, которые он предлагал издавать.».

#книга #финансы #история #статистика #Блиох
👍105🤩1
Тем временем мои руки добрались до экспериментов с MCP серверами для разных сервисов. В качестве эксперимента я сейчас взял сервис оценки простоты русского языка PlainRussian.ru который я когда-то очень-очень давно создавал и передал в Инфокультуру. У сервиса есть немало лояльных пользователей, при том что он не менялся уже больше 10 лет, есть API и вообще он просто устроен. Сейчас я на его основе сделал простейший MCP сервер который проверил через AnythingLLM и одну из последних открытых моделей от OpenAI.

Хорошая новость - всё быстро завелось и заработало, LLM достаточно корректно интерпретирует результаты.

Это значит что для других продуктов, более серьёзных и коммерческих, таких как Dateno.io можно сделать MCP сервер в довольно короткие сроки.

Не так очевидно потенциальная нагрузка на такое API если его выставить наружу без авторизации. Не сожрёт ли оно слишком много ресурсов. Нужен бенчмарк и нагрузочное тестирование, возможно достаточно интенсивное.

Поэтому тут развилка, сделать ли общедоступный MCP сервер для подключения кого угодно, и делать ли тогда авторизацию? Или сделать открытый репозиторий чтобы каждый мог поднять собственный MCP сервер, тогда надо больше усилий потратить на хорошее документирование.

P.S. Одна из причин почему я когда-то перестал развивать PlainRussian была в том что как раз с помощью LLM его функции можно заменить достаточно неплохо и с тем что полноценный анализатор сложности текста требует гораздо больше инвестиций, непонятно возвратных ли. Но как общественное благо в простом варианте, несомненно, польза от такого сервиса есть.

Пока всё это в рамках экспериментов с MCP протоколом, чуть позже я точно поделюсь кодом/доступом к сервису для тех кому это нужно на практике.

#plainlanguage #plainrussian
👍85🔥5
Что-то я совсем забыл написать, а тема важная. 1-го августа в США Трамп отправил в отставку Erika McEntarfer главу BLS (Bureau of Labor Statistics) за публикацию уточнённых цифр о безработице которые ему не понравились. Решение тревожное по причине того что в США официальная статистика активно используется на фондовом рынке, бизнесом и аналитиками и её закрыть как в России практически невозможно, а вот обвинения в манипуляции, как в данном случае Трамп обвинил главу BLS возможны. Впрочем и утверждения Трампа что цифры должны быть иными - это тоже, сомнительный вопрос.

Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.

#opendata #closeddata #usa #trump
431🤔1
Специально для тех кто любит исторические данные
Из коллекции Цифрового архива: 20 лет советской власти. Статистический сборник (цифровой материал для пропагандистов) под общей редакцией А. Лалаевай, 1937, 114 стр.

В АНО "Инфокультура" оцифровали статистический сборник, опубликованный в 1937 году к 20-летию Октябрьской революции. В него вошли статистические данные, отражающие изменения в экономике, социальной сфере, культуре и государственном строительстве Советского Союза с 1917 по 1937 год. Материалы оформлены в виде таблиц, диаграмм и кратких пояснительных текстов и являются важным источником по истории раннесоветской статистики и идеологической риторики 1930-х годов.

Вот что авторы отмечают о производительности труда в крупной промышленности и сопровождают наблюдения соответствующими таблицами:

"За один лишь 1936 год — первый год стахановского движения — производительность труда в крупной промышленности повысилась на 21%, а в тяжелой промышленности, в недрах которой зародилось стахановское движение, — на 26%".


Книга на сайте Цифрового архива
, 18,6 Мб

#книга #СССР #ЦАГГ
👍7🤣65
Полезные ссылки про технологии, данные и не только:
- vectorless - браузерное приложение (privacy-first) для общения с PDF документами без серверной обработки и векторных баз данных. Хорошая штука, как скоро это станет трендом?
- Vibe Analysis - ещё один автор рассуждает о применении ИИ для дата анализа. Слишком оптимистично, как по мне. Но много ссылок на продукты в этой области и, в принципе, небесполезно
- AGENT.md: The Universal Agent Configuration File попытка стандартизации описания ИИ агентов, не очень сложное, непонятно насколько будет поддержано кем-то
- POML: Prompt Orchestration Markup Language а тут попытка стандартизации промпт-инженерии, но от Microsoft. Ориентировано на систематизацию и на данные
- EnrichMCP ещё один инструмент для превращения баз данных в MCP API. Насколько лучше других сказать не берусь.

#ai #opensource #standards
4👍4
Аналитическая записка стат сообщества США о текущем состоянии статслужб страны. Там про многое:
- сокращение финансирования
- отмена многих опросов и наблюдений
- запланированные задержки в публикациях

В целом полный комплект проблем... успешных людей стран.

Во многих странах адекватной статистики просто нет и идет куда более быстрая деградация стат служб. Не будем показывать пальцем в каких.

А в США сложилась сложная децентрализованная система федеральной статистики, доступная в хорошем машиночитаемом виде, почти во всех разрезах. Неидеальная, конечно, но все же.

#data #USA #statistics
1👍52😢2
Разные мысли на разные темы:
1. Всё больше вижу инструментов включающих встроенные MCP сервера. Например, утилиты командной строки к которым добавляют новые команды "mcp" или "mcp-server" и которые предоставляют свои функции как MCP API. В какой-то момент должен появится MCP validated реестр или что-то вроде или альтернатива MCP или одно из двух.

2. По ощущениям уже под 99% происходящего сейчас в работе с данными и в ИТ в целом сводится к применению ИИ. Открытые данные не исключение, всё что на ИИ не завязано выглядит как затухающие маргинализованные инициативы Нельзя сказать что это хорошо но это, на сегодняшний день, данность. Причём "идеологический заряд" в международной тусовке этому сильно мешает, поскольку она очень анти-бигтеховая с почти категоричным неприятием облачных ИИ ассистентов.

3. Какая-то степень открытости в Россию вернётся только в случае "появления жизни" в экономике. В первую очередь потому что экономические индикаторы нужны для инвестиционных аналитиков и их не получится не публиковать в открытую. Но в целом надо понимать что тенденция на закрытость существует не сама по себе, а как часть тенденции усиления контроля. Контроль - это основная религия российского гос-ва и фундамент всего регулирования, текущего и ожидаемого.

4. Возвращаясь к MCP, не хватает простого и понятного механизма предоставления ИИ агентам доступа к данным. Это не модель ресурсов - это стандартизация предоставления данных и всё та же ИИ автоматизация анализа данных. Почти наверняка тут начнётся стандартизация (уже началась так или иначе) и ускорится.

5. На самом деле ни у кого нет точного ответа того что будет происходить с рынком труда в ближайшие годы. Пессимистичные ожидания что ИИ и основанные на ИИ технологии будут заменять существенную часть рутины и создавать новые контуры контроля для задач которые пока могут выполняться только вручную. Оптимистичные в формировании новых профессий.

6. Вопрос в том вступили ли мы в эпоху вторичной креативности когда настоящему нового ничего не создаётся. Если бы на Землю сейчас прилетели бы инопланетяне-археологи то весь культурный слой начиная с какого года был бы вторичным (читай - малоценным)? С 2020 или раньше?

#thoughts #opendata #ai
🤔87🔥322
По поводу запрета звонков через Telegram и WhatsApp в России с явным продвижением мессенжера MAX я, конечно, как и многие другие недоумеваю. Всё это происходит настолько грубо что кажется особенно глупым и раздражающим. Но я хочу особенно подсветить ещё один нюанс. Мессенжеры активно используются для международных звонков и если, к примеру, Вы живёте не в России, а Ваши родители здесь, то звонить по номеру телефона не через мессенжеры влетает в копеечку, почему все и перешли стремительно в те мессенжеры которые обеспечивали лучшую связь и WhatsApp и Telegram тут лидеры.

И что, с их запретом, думаете, все пойдут в MAX ? Да вот хрена с два, MAX, помимо других технических и юридических нюансов, имеет один огромный минус - там авторизация только по номерам в РФ и в Беларуси. Всё это накладывается на ранее принятое регулирование по запрету передачи сим-карт, по продлению номеров сотовых телефонов негражданами РФ и тд.

Всё это, объективно, сильно затрудняет жизнь всем кто общается с кем-либо голосом за пределами России. Только более вероятный сценарий что будут пользоваться чем угодно но не MAX'ом. Пользоваться будут тем что будет обеспечивать лучшую связь: Google Meet, Teams, Jitsi, Zoom и далее по списку. Список длинный, вариантами будут обмениваться так же как и обмениваются лучшими VPN для обхода блокировок. А вот MAX и сотовых операторов будут откровенно ненавидеть. Зачем так делать? Я лично искренне не понимаю. Вернее понимаю и вижу что сопутствующий ущерб происходящего значительно превышает любые, предполагаемые, плюсы если бы они тут могли бы быть.

#messaging #russia
5💯92👍1913🔥5💔2🗿2❤‍🔥1😁1😱1🌚1💅1
И второе, на сей раз про конкретно про мессенжер MAX уже с точки зрения цифрового архивиста. Есть ключевая проблема большей части социальных сетей и коммуникационных сервисов в которых есть каналы/подписки на чьи-либо публикации в том что они плохо индексируются и архивируются. К примеру, в Интернет-архив попадает мало материалов из Facebook'а и LinkedIn, также как и в поисковый индекс Google или в Common Crawl. Компании владельцы соцсетей часто явно препятствуют или явно не предусматривают что их содержание может быть заархивировано и сохранено где-то ещё. Ну и коммерческий аспект отменить нельзя, на базе контента обучают ИИ и владельцы инфраструктуры не хотят отдавать пользовательский контент другим.

В этом смысле телеграм, в какой-то степени, уникален за счёт открытого API и того что большая часть контента индексируется извне. Например, команда ArchiveTeam архивирует большую часть общедоступного контента из Telegram с начала 2022 года. Там собрано более 5 петабайт данных. Плюс есть какое-то количество коммерческих сервисов которые, также, индексируют и архивируют публикуемое в телеграм каналах и общедоступных группах.

Для сравнения у MAX'а нет открытого, неавторизованного контура. Для того чтобы просмотреть содержимое любого канала в MAX нужно быть авторизованным и я напоминаю про то что это теперь возможно только через российские и беларусские сим-карты. А то есть материалы публикуемые в каналах в MAX архивироваться извне не будут. В лучшем случае их контент будет заархивирован какими-либо сервисами медиамониторинга.

Пока что в РФ не запретили вести каналы в Телеграм и маловероятно что кто-то из тех что сейчас MAX продвигает уйдёт туда и только туда, потому что аудитория то может туда и не прийти. Но важно понимание что это смена открытой экосистемы на закрытую,

Причём это парадокс для всех тех кто продвигает сейчас MAX на медиа площадках. Их русскоязычная аудитория не только в России, но и в пост-советских странах и в диаспоре рассеяной по миру. До тех пор пока MAX - это закрытая платформа и без возможности авторизации с номера телефонов других стран привлекательной она не будет. А разрешив там регистрацию с СИМ картами других стран автоматически обнуляются все разговоры про "безопасность". Это неразрешимый парадокс.

Более я на тему не вижу смысла писать. Технологическая конкуренция - хорошо, административная антиконкуренция - плохо.

#messaging #russia
1👍34🔥16💯145😁3
В качестве регулярных напоминаний, какое-то время назад я разрабатывал инструмент под названием metacrafter это специальная библиотека для Python, утилита и сервер для идентификации семантических типов данных, удобная для идентификации того что содержится к конкретном поле конкретной базы данных и вспомогательный инструмент для определения персональных данных и другого осмысленного содержания. У него есть достаточно широкий набор общедоступных правил на основе которых он работает.

В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.

Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.

Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.

Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.

Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.

Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.

Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.

#opensource #data #datatools #dataengineering
👍14
Хорошие советы от Александра, а я добавлю что сейчас мало где столько манипуляций как в любом околополитическом контенте. И мало где столько токсичности как в политике и околополитике. Особенно присоединяюсь к совету читать публикации с противоположным вашему мнению.
💯8
Цифровая гигиена

Завтра, видимо, будет много контента и совсем проигнорировать его и невозможно, и, наверное, не нужно. Но можно пытаться минимизировать его вред. Мой личный подход ниже.

– Все околополитическое лучше читать, чем смотреть. Любой продажник подтвердит, письменно фигню сложнее впарить. Заодно и время сэкономите.

– Читать лучше в изложении тех, с кем вы не согласны. Правым подойдут левые издания, левым – правые. В интерпретациях и подборе деталей врут те и другие, но вранье оппонента считывается лучше. Основные факты у хоть как-то адекватных СМИ пока одинаковы, а те, что живут в полном отрыве от объективной реальности и при этом на чужой половине спектра, вы читать все равно не сможете – стошнит. “Свои”, кстати, сможете. В этом и есть опасность.

– Если глаза и личный опыт явно противоречат тому, что пишут в газетах, то верить надо глазам, а не газетам. Проактивный гуглеж тоже обычно достовернее реактивного чтения. Если в статье пишут “упал”, а в выдаче поисковика все ссылки на “поднялся” – скорее всего, он поднялся.

#политота
1💯26🤝9😁73
Полезное чтение про данные, технологии и не только:
- Practices for Collecting, Managing, and Using Light Detection and Ranging Data (2025) хороший обзор практик сбора, обработки и публикации данных измерений LIDAR где можно узнать о том как, зачем и в каком виде эти данные собираются и где их искать.
- Enriching Unstructured Cultural Heritage Data Using NLP обогащение неструктурированных данных об объектах культурного наследия с помощью LLM.

#readings #ai #opendata #data #geodata
1👍41
Появилось настольное приложение Qwen [1] для Windows и MacOSX через которую можно работать с 5 облачными языковыми моделями этого семейства LLM. Это не local-first и не local-only, все языковые модели облачные поэтому чувствительные тексты и документы туда направлять не будет разумным, но в остальном удобно для тех кто кто не может использовать другие LLM из-за геоблокировок. Важный объявленный плюс - поддержка MCP. Мне, правда, так и не удалось подключить Qwen к локальному MCP серверу по http streaming, хотя через LM Studio всё прекрасно работало. Но, будем надеяться, что это скоро исправят.

Ссылки:
[1] https://qwen.ai/download

#llm #qwen #ai #tools
1👍10