Ivan Begtin
9.07K subscribers
2.55K photos
5 videos
114 files
5.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них национальный портал открытых данных Литвы data.gov.lt

Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.

111 наборов данных - это данные высокой ценности в определении Евросоюза.

Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности

Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.

У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.

#opendata #datasets #lithuania
5
begtin_inventory_v03.pdf
1.1 MB
Для тех кто интересуется инвентаризацией именно открытых данных вот тут моя презентация от 2020 года. Это облегчённая версия для обучения госслужащих этой работе, полную версию, увы, я опубликовать не могу, ибо она делалась для конкретной академической структуры (там это больше не преподаю, если что), а с этой версией я даже выступал на каких-то мероприятиях

По большей части она актуально, хотя какое-то количество изменений уже накопилось.

#data #presentations #datainventory #opendata
65👍1
Ни к чему не призываю, ничего не предлагаю, просто интересуюсь (с)

Исключительно в познавательных целях вопрос, РКН ведь ещё не начали блокировать протокол SSH и SSH туннели? И заблокировать не смогут поскольку полностью похоронят всю разработку и системное администрирование в Рунете?

#ятолькоспросить
😁12😐5👍21
На национальном портале открытых данных Норвегии заменили строку поиска на запросы к ИИ где можно написать что ищете и получить подборку ссылок. Внутри там pgvector + LangChain + Google Vertex AI. Выглядит неплохо, но и не хорошо, люди чаще ищут конкретные данные (значений), а не датасеты и от ИИ поиска ожидают именно этого. В любом случае это какая-никакая инновация, уж точно значимее чем "хихикающий ИИ помощник" на портале data.gov.ru.

#opendata #ai #search
👍10🗿31
Результаты Stack Overflow Annual Developer Survey за 2025 год.

Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.

Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.


#it #surveys
👍6🔥31
Spatial Desktop свежий инструмент с от Foursquare для визуализации геоданных. Основан на их другом open source продукте SQLRooms и стоит от $25 в месяц.

Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.

Главный недостаток - пока есть версия только для Mac.

#data #datatools #geodata
🔥9🌚1💅1
AI Safety Index от Future of Life Institute. По сути оценивали они не столько ИИ модели, сколько корп. культуру, планы, обещания, юр. статус, публичные декларации и тд. основных провайдеров облачных LLM. Поэтому DeepSeek на последнем месте, о чём в тексте индекса тоже есть, о том что китайская корпоративная культура устроена иначе.

А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.

Документ полезный, много сопроводительных ссылок на другие схожие работы.

#ai #readings #ratings
🔥8😁4
Google анонсировали AlphaEarth ИИ модель для работы с петабайтами данных наблюдения за Землей.

Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.

В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth

#geodata #opendata #ai
6👍5🔥4
Хороший текст Hyparquet: The Quest for Instant Data от команды Hyperparam о специфике parquet файлов которой они воспользовались для оптимизации их отображения в браузере, как они сами называют browser-first подход к отображению данных и работы с ними с помощью WASM. Видно что автор и сама команда хорошо понимают и структуру parquet файлов (там метаданные записаны в конце файла), и то как работает сжатие и то как оптимизируется код для WASM.

Тот случай когда множество технологических оптимизаций дают хороший результат. Ну и большим плюсом является наличие открытого кода и дизайн local-first

#opensource #data #datatools
👍6
Поделюсь личной болью отсутствия на русском языке книг о метаданных, на английском их есть в каком-то количестве, чаще со взглядом со стороны каталогизации библиотечных объектов, реже любых цифровых объектов, ещё реже о каталогизации данных, но на русском практически ничего нет.

А это как минимум описание основы природы метаданных, основных областей применения, принципов разработки стандартов и обзор самих стандартов которые после Dublin Core сильно расширились и имеют очень много разных отражений, как в управлении цифровыми объектами/имуществом так и в части в более узких, каталогизации данных, архивов, ML артефактов и так далее.

Буквально хоть сам пиши, но и себя ловлю на мысли что возможно русскоязычная аудитория для таких книг невелика и если писать самому то тоже на английском языке. Почти шутка.

Метаданные - это важное явление и взгляд на жизнь, тесно переплетённое с техническим долгом и документацией. Я регулярно наблюдаю как создаётся огромное число цифровых объектов, тех же данных, без полноценного заполнения сопутствующих метаданных, даже наиболее значимых: название, описание, права. Не спроста оценка качества данных начинается с полноты метаданных их описывающих.

И наоборот есть немало случаев когда метаданные заполняются в отношении объектов которые и каталогизировать то не надо в виду их малозначимости.

#metadata #data #thoughts
👍14💯105💊1
Полезное чтение про данные, технологии и не только:
- Will data centers crash the economy? о том может ли переток денег на финансирование дата центров в США привести к финансовому кризису. Не смотрел на происходящее этим взглядом, размышления весьма любопытные и тесно связанные в ИИ хайпом
- langextract инструмент/библиотека на Python по извлечению именованных сущностей из текстов. В качестве примера разбор текста Ромео и Джульеты. Полезно для многих задач. Открытый код, лицензия Apache 2.0
- Can analysis ever be automated? Бенн Стансил рассуждает об автоматизации аналитики и то что важное отличие ИИ аналитики от ИИ кодинга в том что нет бенчмарков проверяющих верность аналитики. В итоге нельзя определить автоматически правильно ли ИИ построил график или нет.
- mcp-use интегрирует любую LLM с любыми MCP серверами. Важный компонент в экосистему, надо пробовать.
- DesignVision ИИ поисковик по изображениям патентов от Патентной службы США. Есть пока только анонс, живой интерфейс ещё не публиковали. Идея интересная, надо посмотреть

#ai #data #analytics
6
В блоге Cloudflare о том как Perplexity неэтично индексируют сайты закрытые robots.txt и подменяют User-Agent, с позитивной новостью что Cloudflare от этого защищают. Мне трудно понять тут отличия Perplexity от остальных глобальных ИИ продуктов/агентов которые предпочтут тяжбы, но не этичное поведение. Как пользователю Perplexity мне удобно когда я могу получить нужны ответ оперативно, как создателю контентных проектов мне совсем не хочется потерять всю их аудиторию из-за ИИ агентов.

Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.

#ai #scraping #bots #perplexity #cloudflare
👍8
Раритеты Цифрового Архива: И.С. Блиох "Финансы России XIX столетия. История-Статистика" в 4-х томах, 1882 г.

Имя Ивана Станиславовича Блиоха (1836—1901 гг.) — крупнейшего российского банкира, концессионера железных дорог в Российской империи связано с рядом крупных обобщающих научных исследований, освещающих глобальные стороны государственного управления.

Ценным вкладом в историю российских финансов является капитальный четырехтомный труд Блиоха «Финансы России XIX столетия. История - статистика». Первые два тома освещают историю финансов России с древнейших времен, третий том — это монография о доходах, а в четвертом томе дается критический разбор государственных расходов.

В коллекции Цифрового Архива представлены все тома четырехтомника:

Том 1 обращен к истории русских финансов и рассматривает положение финансового управления в государстве с допетровского периода в российской истории и до начала Крымской войны 1853—1856 гг.

Том 2 является продолжением первого тома и охватывает историю русских финансов с начала Крымской войны 1853–1856 гг. до образования Кахановской комиссии, созданной для составления проектов местного управления и работавшей с 1881 по 1885 гг.

В томе 3 рассматривается формирование государственных доходов (налогов, пошлин и прочих поступлений в казну).

В томе 4 в форме историко-статистического обзора 1866—1879 гг. рассматриваются статьи государственных расходов, в т.ч. и сверхсметных.

Следует отметить, что существуют обоснованные сомнения в том, что И.С. Блиох сам написал ряд капитальных многотомных научных работ, изданных под его фамилией. В мемуарах С.Ю. Витте отмечалось:

«Все его [Блиоха] ученые труды писались не им, а писались различными писателями и специалистами за деньги, которые он им платил. Сам же Блиох только составлял ... программу тех трудов, которые он предлагал издавать.».

#книга #финансы #история #статистика #Блиох
👍105🤩1
Тем временем мои руки добрались до экспериментов с MCP серверами для разных сервисов. В качестве эксперимента я сейчас взял сервис оценки простоты русского языка PlainRussian.ru который я когда-то очень-очень давно создавал и передал в Инфокультуру. У сервиса есть немало лояльных пользователей, при том что он не менялся уже больше 10 лет, есть API и вообще он просто устроен. Сейчас я на его основе сделал простейший MCP сервер который проверил через AnythingLLM и одну из последних открытых моделей от OpenAI.

Хорошая новость - всё быстро завелось и заработало, LLM достаточно корректно интерпретирует результаты.

Это значит что для других продуктов, более серьёзных и коммерческих, таких как Dateno.io можно сделать MCP сервер в довольно короткие сроки.

Не так очевидно потенциальная нагрузка на такое API если его выставить наружу без авторизации. Не сожрёт ли оно слишком много ресурсов. Нужен бенчмарк и нагрузочное тестирование, возможно достаточно интенсивное.

Поэтому тут развилка, сделать ли общедоступный MCP сервер для подключения кого угодно, и делать ли тогда авторизацию? Или сделать открытый репозиторий чтобы каждый мог поднять собственный MCP сервер, тогда надо больше усилий потратить на хорошее документирование.

P.S. Одна из причин почему я когда-то перестал развивать PlainRussian была в том что как раз с помощью LLM его функции можно заменить достаточно неплохо и с тем что полноценный анализатор сложности текста требует гораздо больше инвестиций, непонятно возвратных ли. Но как общественное благо в простом варианте, несомненно, польза от такого сервиса есть.

Пока всё это в рамках экспериментов с MCP протоколом, чуть позже я точно поделюсь кодом/доступом к сервису для тех кому это нужно на практике.

#plainlanguage #plainrussian
👍85🔥5