Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Результаты Stack Overflow Annual Developer Survey за 2025 год.

Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.

Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.


#it #surveys
👍6🔥31
Spatial Desktop свежий инструмент с от Foursquare для визуализации геоданных. Основан на их другом open source продукте SQLRooms и стоит от $25 в месяц.

Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.

Главный недостаток - пока есть версия только для Mac.

#data #datatools #geodata
🔥9🌚1💅1
AI Safety Index от Future of Life Institute. По сути оценивали они не столько ИИ модели, сколько корп. культуру, планы, обещания, юр. статус, публичные декларации и тд. основных провайдеров облачных LLM. Поэтому DeepSeek на последнем месте, о чём в тексте индекса тоже есть, о том что китайская корпоративная культура устроена иначе.

А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.

Документ полезный, много сопроводительных ссылок на другие схожие работы.

#ai #readings #ratings
🔥8😁4
Google анонсировали AlphaEarth ИИ модель для работы с петабайтами данных наблюдения за Землей.

Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.

В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth

#geodata #opendata #ai
6👍5🔥4
Хороший текст Hyparquet: The Quest for Instant Data от команды Hyperparam о специфике parquet файлов которой они воспользовались для оптимизации их отображения в браузере, как они сами называют browser-first подход к отображению данных и работы с ними с помощью WASM. Видно что автор и сама команда хорошо понимают и структуру parquet файлов (там метаданные записаны в конце файла), и то как работает сжатие и то как оптимизируется код для WASM.

Тот случай когда множество технологических оптимизаций дают хороший результат. Ну и большим плюсом является наличие открытого кода и дизайн local-first

#opensource #data #datatools
👍6
Поделюсь личной болью отсутствия на русском языке книг о метаданных, на английском их есть в каком-то количестве, чаще со взглядом со стороны каталогизации библиотечных объектов, реже любых цифровых объектов, ещё реже о каталогизации данных, но на русском практически ничего нет.

А это как минимум описание основы природы метаданных, основных областей применения, принципов разработки стандартов и обзор самих стандартов которые после Dublin Core сильно расширились и имеют очень много разных отражений, как в управлении цифровыми объектами/имуществом так и в части в более узких, каталогизации данных, архивов, ML артефактов и так далее.

Буквально хоть сам пиши, но и себя ловлю на мысли что возможно русскоязычная аудитория для таких книг невелика и если писать самому то тоже на английском языке. Почти шутка.

Метаданные - это важное явление и взгляд на жизнь, тесно переплетённое с техническим долгом и документацией. Я регулярно наблюдаю как создаётся огромное число цифровых объектов, тех же данных, без полноценного заполнения сопутствующих метаданных, даже наиболее значимых: название, описание, права. Не спроста оценка качества данных начинается с полноты метаданных их описывающих.

И наоборот есть немало случаев когда метаданные заполняются в отношении объектов которые и каталогизировать то не надо в виду их малозначимости.

#metadata #data #thoughts
👍14💯105💊1
Полезное чтение про данные, технологии и не только:
- Will data centers crash the economy? о том может ли переток денег на финансирование дата центров в США привести к финансовому кризису. Не смотрел на происходящее этим взглядом, размышления весьма любопытные и тесно связанные в ИИ хайпом
- langextract инструмент/библиотека на Python по извлечению именованных сущностей из текстов. В качестве примера разбор текста Ромео и Джульеты. Полезно для многих задач. Открытый код, лицензия Apache 2.0
- Can analysis ever be automated? Бенн Стансил рассуждает об автоматизации аналитики и то что важное отличие ИИ аналитики от ИИ кодинга в том что нет бенчмарков проверяющих верность аналитики. В итоге нельзя определить автоматически правильно ли ИИ построил график или нет.
- mcp-use интегрирует любую LLM с любыми MCP серверами. Важный компонент в экосистему, надо пробовать.
- DesignVision ИИ поисковик по изображениям патентов от Патентной службы США. Есть пока только анонс, живой интерфейс ещё не публиковали. Идея интересная, надо посмотреть

#ai #data #analytics
6
В блоге Cloudflare о том как Perplexity неэтично индексируют сайты закрытые robots.txt и подменяют User-Agent, с позитивной новостью что Cloudflare от этого защищают. Мне трудно понять тут отличия Perplexity от остальных глобальных ИИ продуктов/агентов которые предпочтут тяжбы, но не этичное поведение. Как пользователю Perplexity мне удобно когда я могу получить нужны ответ оперативно, как создателю контентных проектов мне совсем не хочется потерять всю их аудиторию из-за ИИ агентов.

Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.

#ai #scraping #bots #perplexity #cloudflare
👍8
Раритеты Цифрового Архива: И.С. Блиох "Финансы России XIX столетия. История-Статистика" в 4-х томах, 1882 г.

Имя Ивана Станиславовича Блиоха (1836—1901 гг.) — крупнейшего российского банкира, концессионера железных дорог в Российской империи связано с рядом крупных обобщающих научных исследований, освещающих глобальные стороны государственного управления.

Ценным вкладом в историю российских финансов является капитальный четырехтомный труд Блиоха «Финансы России XIX столетия. История - статистика». Первые два тома освещают историю финансов России с древнейших времен, третий том — это монография о доходах, а в четвертом томе дается критический разбор государственных расходов.

В коллекции Цифрового Архива представлены все тома четырехтомника:

Том 1 обращен к истории русских финансов и рассматривает положение финансового управления в государстве с допетровского периода в российской истории и до начала Крымской войны 1853—1856 гг.

Том 2 является продолжением первого тома и охватывает историю русских финансов с начала Крымской войны 1853–1856 гг. до образования Кахановской комиссии, созданной для составления проектов местного управления и работавшей с 1881 по 1885 гг.

В томе 3 рассматривается формирование государственных доходов (налогов, пошлин и прочих поступлений в казну).

В томе 4 в форме историко-статистического обзора 1866—1879 гг. рассматриваются статьи государственных расходов, в т.ч. и сверхсметных.

Следует отметить, что существуют обоснованные сомнения в том, что И.С. Блиох сам написал ряд капитальных многотомных научных работ, изданных под его фамилией. В мемуарах С.Ю. Витте отмечалось:

«Все его [Блиоха] ученые труды писались не им, а писались различными писателями и специалистами за деньги, которые он им платил. Сам же Блиох только составлял ... программу тех трудов, которые он предлагал издавать.».

#книга #финансы #история #статистика #Блиох
👍105🤩1
Тем временем мои руки добрались до экспериментов с MCP серверами для разных сервисов. В качестве эксперимента я сейчас взял сервис оценки простоты русского языка PlainRussian.ru который я когда-то очень-очень давно создавал и передал в Инфокультуру. У сервиса есть немало лояльных пользователей, при том что он не менялся уже больше 10 лет, есть API и вообще он просто устроен. Сейчас я на его основе сделал простейший MCP сервер который проверил через AnythingLLM и одну из последних открытых моделей от OpenAI.

Хорошая новость - всё быстро завелось и заработало, LLM достаточно корректно интерпретирует результаты.

Это значит что для других продуктов, более серьёзных и коммерческих, таких как Dateno.io можно сделать MCP сервер в довольно короткие сроки.

Не так очевидно потенциальная нагрузка на такое API если его выставить наружу без авторизации. Не сожрёт ли оно слишком много ресурсов. Нужен бенчмарк и нагрузочное тестирование, возможно достаточно интенсивное.

Поэтому тут развилка, сделать ли общедоступный MCP сервер для подключения кого угодно, и делать ли тогда авторизацию? Или сделать открытый репозиторий чтобы каждый мог поднять собственный MCP сервер, тогда надо больше усилий потратить на хорошее документирование.

P.S. Одна из причин почему я когда-то перестал развивать PlainRussian была в том что как раз с помощью LLM его функции можно заменить достаточно неплохо и с тем что полноценный анализатор сложности текста требует гораздо больше инвестиций, непонятно возвратных ли. Но как общественное благо в простом варианте, несомненно, польза от такого сервиса есть.

Пока всё это в рамках экспериментов с MCP протоколом, чуть позже я точно поделюсь кодом/доступом к сервису для тех кому это нужно на практике.

#plainlanguage #plainrussian
👍85🔥5
Что-то я совсем забыл написать, а тема важная. 1-го августа в США Трамп отправил в отставку Erika McEntarfer главу BLS (Bureau of Labor Statistics) за публикацию уточнённых цифр о безработице которые ему не понравились. Решение тревожное по причине того что в США официальная статистика активно используется на фондовом рынке, бизнесом и аналитиками и её закрыть как в России практически невозможно, а вот обвинения в манипуляции, как в данном случае Трамп обвинил главу BLS возможны. Впрочем и утверждения Трампа что цифры должны быть иными - это тоже, сомнительный вопрос.

Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.

#opendata #closeddata #usa #trump
431🤔1
Специально для тех кто любит исторические данные
Из коллекции Цифрового архива: 20 лет советской власти. Статистический сборник (цифровой материал для пропагандистов) под общей редакцией А. Лалаевай, 1937, 114 стр.

В АНО "Инфокультура" оцифровали статистический сборник, опубликованный в 1937 году к 20-летию Октябрьской революции. В него вошли статистические данные, отражающие изменения в экономике, социальной сфере, культуре и государственном строительстве Советского Союза с 1917 по 1937 год. Материалы оформлены в виде таблиц, диаграмм и кратких пояснительных текстов и являются важным источником по истории раннесоветской статистики и идеологической риторики 1930-х годов.

Вот что авторы отмечают о производительности труда в крупной промышленности и сопровождают наблюдения соответствующими таблицами:

"За один лишь 1936 год — первый год стахановского движения — производительность труда в крупной промышленности повысилась на 21%, а в тяжелой промышленности, в недрах которой зародилось стахановское движение, — на 26%".


Книга на сайте Цифрового архива
, 18,6 Мб

#книга #СССР #ЦАГГ
👍7🤣65