Ivan Begtin

Периодически посматриваю видео с семинаров Future Data Systems Seminar Series — Fall 2025 которые проводят CMU Database Group и там выступают фаундеры и ключевые разработчики многих современных дата продуктов и технологий работы с данными, вроде Russel Spitzer, руководителя проекта Apache Iceberg и др.

А из последнего интересного это выступление Уилла Маннинга Vortex: LLVM for File Formats где он рассказывает про формат хранения данных Vortex, чем он отличается от Parquet и он очень структурировано рассказывает эволюцию современных СУБД, использование современного железа включая GPU в контексте данных и появление множества более современных чем Parquet форматов файлов для хранения данных. А их много, кроме Vortex ещё есть f3, FastLanes, Nimble, AnyBlox

У vortex'а есть расширение для DuckDB и его можно попробовать на своих данных.

Лично я жду когда в DuckDB появится поддержка большего числа новых форматов, как минимум Fastlane и бенчмарков на их сравнение.

#rdbms #opensource #databases

❤8

1.25K viewsIvan Begtin, edited 07:34

Ivan Begtin

The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.

Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.

При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.

#webarchives #digitalpreservation #data

Nieman Lab

The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects

Between May and October 2025, homepage snapshots fell by 87% across 100 news publications.

👍7😢2✍1🤔1

2.11K viewsIvan Begtin, 11:11

Ivan Begtin

Я за последние несколько дней несколько раз от разных людей слышал тезис о том что Python медленный язык программирования и скажу по собственному опыту что это и правда и неправда одновременно. Важнее то что Python - это язык в котором производительность приложения значительно зависит от квалификации разработчика. Многие решения по оптимизации кода, скажем так, не на поверхности да и ИИ агенты чаще не создают оптимальный код потому оптимизации могут быть за пределами Python, но быть с Python связанными.

Приведу несколько примеров:
1. Начну с самого очевидного, обработки данных. Какое-то время назад я писал инструменты и отдельные скрипты для обработки данных в достаточно больших объёмах используя как стандартные библиотеки Python так и pandas. Производительность была неоптимальной, сотни миллионов записей на настольном компьютере могли обрабатываться часами. Решение резко ускоряющее работу было в переходе на DuckDB и Polars, а это не оптимизация кода, а зачастую его переписывание. Это, действительно, самое очевидное, настолько что даже рассказывать о таком неловко😉

2. Оптимизация регулярных выражений. Какое-то время назад я создавал библиотеку qddate для парсинга дат в условно любом формате. qddate сейчас поддерживает множество шаблонов написания дат и работает достаточно быстро, а по началу скорость работы была ужаснейшей. Потому что я вначале воспользовался стандартной библиотекой для регулярных выражений в Python и столкнулся с её, мягко говоря, неоптимальностью. У меня даже были мысли написать свой движок или сделать обертку для работы с более производительными версиями. И даже создать свой собственный язык правил для упрощения парсинга дат, он был бы сильно проще чем использовать полный набор возможностей регулярных выражений. В итоге оказалось что все решилось через написания правил на PyParsing. Этот же подход я применял далее для инструментов вроде metacrafter'а по идентификации семантических типов данных. Там не просто так всё на прямом мэтчинге строк и PyParsing.

3. RoundRobin к серверу на Python. Больше 24 лет назад я совмещал работу спеца по автоматизации тестирования и программиста. В основном я занимался автоматизацией тестирования, но там когда всё настроишь то оказывалось что остается время для других задач (шутка). Однажды мне на тестирование передали здоровенную расчетную машинку набитую процессорами и способную сравнивать до нескольких миллионов отпечатков пальцев в секунду. Уникальная штука по тем временам и адски недоделанная. У неё отсутствовал управляющий контур, процессоры периодически переставали реагировать на команды и им был нужен мягкий сброс, а самое главное что эта штука была одна и работать с ней разработчиками клиентского приложения и тестировать её мне было сложно одновременно. Опущу историю как я приделывал на ходу управляющий контур и расскажу что для тестирования мне, фактически пришлось, реконструировать бинарный протокол работы с этим сервером и сделать эмулятор на Python который, конечно же, безбожно тормозил, особенно после того как он не просто эмулировал и давал тестовую выдачу, а когда к нему удалось прикрутить неоптимизированную DLL библиотеку и реально матчить отпечатки пальцев, но ооочень медленно. Библиотека была однопоточной и любые оптимизации на Python упирались в это до 100% загрузки процессора. Решением было в в том чтобы форкать до десятков экземпляров эмуляторов и универсального пакета для запуска на множестве серверов и рабочих станций, а разработчики клиентского приложения добавили опцию загрузки во множество серверов сразу. Это и так было запланировано, но тут было уже просто нужно иначе ПО было не проверить.

🔥10👏9❤3

1.24K viewsIvan Begtin, 13:19

Ivan Begtin

Возвращаюсь к взгляду на Python как на медленный язык уже взглядом технического директора и человека формирующего технические команды я бы сказал так что специалисты способные писать на нём оптимизированный код стоят столько же сколько специалисты владеющие Rust и другими оптимизированными языками разработки, более заточенными на высокопроизводительные решения.
Для обработки данных сейчас Python совсем не медленный язык, он становится гораздо быстрее в связке с библиотеками на Rust и знанием некоторых архитектурных подходов которые помогают в работе.

Python сейчас - это основной язык работы для дата инженеров и дата аналитиков, знание способов его оптимизации даёт много возможностей по его ускорению.

#python #thoughts #memories

2✍17👍4👏4⚡3❤2

1.56K viewsIvan Begtin, edited 13:19

Ivan Begtin

Полезные ссылки про данные, технологи и не только:
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.

#opensource #tools #datatools

www.dash.builders

Dash - Data Exploration Tool

Open-source data visualization tool with DuckDB.

👍10✍7❤5

1.48K viewsIvan Begtin, 09:53

Ivan Begtin

~~Британские учёные~~ Исследователи из Гарварда выяснили что ChatGPT по ценностям ближе всего к Западной Европе и конкретно к Финляндии и Нидерландам и самим США, что, впрочем, ожидаемо. Оценивали они это по ответам на World Values Survey (WVS) и сравнивая с результатами по странам.

Что тут скажешь, не достигло ли влияние западной цивилизации апогея с появлением "западноевропейского ИИ" или же компании будут делать адаптированные версии/ответы под разные страны и культуры?

#ai #worldvalues #surveys

1👍14😁7❤1

1.6K viewsIvan Begtin, 19:04

Ivan Begtin

Nixiesearch любопытный поисковый движок со встроенным ИИ поиском, позиционируется как альтернатива Elasticsearch и Opensearch, внутри использует Apache Lucene, хранит индекс в S3 и индексирование через pull запросы без необходимости отправлять JSON в индекс постоянно.

Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.

Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.

Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.

Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.

Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.

Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.

Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.

#opensource #data #search #ai #vectorsearch

👍5✍3❤3

1.27K viewsIvan Begtin, edited 06:43

Ivan Begtin

Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata

😢10👍3⚡1😱1💯1

3.81K viewsIvan Begtin, edited 12:48

Ivan Begtin

В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году

На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.

Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.

Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.

С другой стороны небольшое число датасетов компенсируется их значимостью.

#opendata #china #datasets #data #datacatalogs

🔥4❤1

1.24K viewsIvan Begtin, 15:26

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM

#links #readings #ai #data #datatools

stackoverflow.blog

AI vs Gen Z: How AI has changed the career pathway for junior developers - Stack Overflow

✍5⚡1

1.3K viewsIvan Begtin, 18:28

Ivan Begtin

Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.

- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML

А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных

И это далеко не полный список.

#opendata #specifications #datasets #standards

Substack

Хорошие и плохие практики публикации данных. Метаданные и форматы файлов

«Буду делать хорошо, и не буду — плохо». (Маяковский)

🔥2❤1🌚1

1.12K viewsIvan Begtin, 06:37

Ivan Begtin

В рубрике как это устроено у них BioImage портал с ИИ моделями для анализа биоизображений, приложениями на основе этих моделей и наборами данных используемыми исследователями для разработки этих моделей. Создаётся в AI4Life consortium за счёт поддержки Евросоюза (программа Horizon). Большая часть каталога наборов данных собрана из разбросанных по сайтам исследовательских центров датасетов, порталов с данными вроде Zenodo и тд.

#opendata #datacatalogs #datasets #eu #openaccess

👍3

1.23K viewsIvan Begtin, 07:16

Ivan Begtin

Элон Маск запустил Grokipedia как альтернативу Википедии проверямую и улучшаемую с помощью ИИ в виде Grok от xAI.

Многие пишут что там всего 885 тысяч статей против 7 миллионов в английской википедии, но, я бы сразу смотрел на этот вопрос шире.

У Grokipedia есть важная фишка - отсутствие необходимости привлекать редакторов людей, а это именно то что сейчас является проблемой переходящей в системный кризис для Википедии. У Википедии падает посещаемость потому что ИИ сервисы отнимают трафик и по множеству причин падает мотивация редакторов.

Одна из "фишек" Grokipedia в факт чекинге к статьям, вот пример статьи Aloha где Grok убрал или отредактировал ряд утверждений.

В каком-то смысле Grokipedia - это проект схожий с российским РуВики или Baike в Китае, но с ИИ главредом и с тем что люди если и будут участвовать в редактировании, то лишь опосредствано.

Не так важно взлетит ли конкретно Grokipedia, как то что сама концепция ИИ надстройки над Википедией и другими ресурсами может оказаться живучей и это будет далеко не последним заходом на эту задачу.

#wikipedia #ai

👍11

1.54K viewsIvan Begtin, 08:45

Ivan Begtin

В силу того что можно назвать технической необходимостью пару недель назад пришлось мигрировать с W11 на Apple M4, все аналогичные виндовые ноутбуки были или тяжелее или сильно менее производительные и могу сказать объективно что плюсов и минусов примерно одинаково. Выбор был или подождать несколько месяцев Framework или брать всё таки Mac, потому что на рабочем ноутбуке начал отказывать контроллер USB и перестали считываться USB устройства, почти не работала зарядка через Type-C.

Минусы
- нехватает WSL и терминал в W10/W11, они реально хороши
- под Windows до сих больше приложений имеющих UI, а для Linux приложений есть WSL
- слегка отличная разметка клавиатуры для кириллицы, то ещё удовольствие
- некоторые недружественные привязки кнопок клавиатуры к приложениям Apple, решается через установку демона NoTunes, но сам подход у Apple весьма плох в этом
- по умолчанию текстовые редакторы не столь привычны (но можно доустановить или пользоваться облачными продуктами)
- гораздо меньше бесплатных приложений, а многие бесплатные что можно скачать в AppStore продаются за деньги даже при том что на их сайтах их можно скачать без денег

Плюсы:
- процессоры серии M - это, конечно, большой плюс
- некоторые настольные приложения по работе с данными сейчас часто делают в первую очередь под MacOS (редко, но иногда да)
- MacOS это все таки Unix-подобная операционная система, гораздо комфортнее работать с командной строки когда такая привычка сформирована
- с помощью Parallels можно работать с локальной версией Windows 11 с неплохой производительностью
- MacOS существенно комфортнее в виду отсутствия необходимости непрерывно доустанавливать обновления и перегружаться

В итоге минусы частично компенсируются использованием UTM как виртуальный сервер для Ubuntu и Parallels для W11, но проводил бы я такую миграцию повторно - совсем не уверен.

Последний раз я использовал Apple ноутбуки в виде одного из первых популярных MacBook Air, но в целом из продукцию сдержанно недолюбливаю из-за гораздо большего vendor lock-in чем для других типов устройств.

Если знаете полезные лайфхаки как облегчить себе работу на MacOS - поделитесь!

#personal #devices #macos #windows

❤6🔥4👍2

1.41K viewsIvan Begtin, 10:54

Ivan Begtin

Тем временем политика добралась и до Python Software Foundation (PSF). На днях от отказались от $1.5 миллионого гранта NSF (National Science Foundation) в США поскольку по условиям NSF потребовали отказаться от любой поддержки инициатив DEI, причем не только в рамках гранта, но и в любой другой активности фонда.

Лично мне активное продвижение DEI никогда не нравилось, но тут про разные крайности этого политического маятника. При демократах в США DEI всячески поощрялось в том числе через условия в грантах, при Трампе наоботот, DEI активно неодобряется.

И промежуточных вариантов нет, или налево, или направо, и в PSF решили что идти направо для них будет слишком и лишились $1.5 миллиона на 2 года, а это немало ибо их общий годовой бюджет составляет около $5 миллионов, а грант предполагалось потратить на повышение безопасности репозитория пакетов PyPi.

Да, политика добирается до всех нас, где бы мы не находились.

#python #dei #politics

Python Software Foundation Blog

The PSF has withdrawn a $1.5 million proposal to US government grant program

In January 2025, the PSF submitted a proposal to the US government National Science Foundation under the Safety, Security, and Privacy of Op...

😢11✍3⚡2👍2😱1

1.56K viewsIvan Begtin, 16:05

Ivan Begtin

Открытые данные постсоветских стран. Часть 1

Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.

- Эстония. Портал данных andmed.eesti.ee встроенный в европейские инициативы, 5651 набор данных с акцентом на статистику, но в целом довольно разнообразный. Задекларированная инициатива по наборам данных особой ценности (HVD), но сами наборы данных пока не опубликованы. Портал собственной разработки
- Латвия. Портал данных data.gov.lv также встроен в европейские инициативы, работает на базе CKAN, всего 1425 набора данных. Довольно много геоданных, не меньше трети всего опубликованного и раздел с особо ценными наборами данных, как на всех европейских порталах данных
- Литва. Портал данных data.gov.lt. Всего 2743 набора данных, портал собственной разработки, интеграция в европейские инициативы по открытым данным. Много геоданных и, также, отдельный раздел для особо ценных наборов данных
- Молдова. Портал данных dataset.gov.md содержит 1274 набора данных, преимущественно в Excel, Word и PDF форматах (не очень то и машиночитаемо) и совсем не выглядит системно организованным. Не интегрирован в европейские инициативы и выглядит скорее как плохо организованный
- Украина. Портал данных data.gov.ua включает 39 тысяч наборов данных, существенная часть которых собирается с областных и городских порталов открытых данных. Все работает на CKAN и используется харвестинг CKAN'а для агрегации на центральный портал. Большая часть данных в форматах Excel, Word, PDF, геоданных довольно мало, наборы данных особой ценности отдельно не выделены
- Казахстан. Портал данных data.egov.kz включает 3824 набора данных. создан на некой собственной платформе, важная особенность - крайне жёсткие ограничения на выгрузку данных которые доступны или только для граждан страны или с выгрузкой не более 100 записей за раз. Наборы данных особой ценности никак не обозначены, геоданные отсутствуют, работает не по принципу агрегации, а через загрузку данных органами власти (в Казахстане почти нет региональных и городских порталов с данными).
- Узбекистан. Портал data.egov.uz декларируется 10 тысяч наборов данных, но я ранее писал о том что не так с этим порталом и с тех пор ничего не изменилось. Огромное число датасетов создано через искусственное дробление наборов данных, реальный объём данных на портале очень скромный. Декларируются данные для AI, но на проверку это не датасеты для data science, а маленькие базы данных предоставляемые через API.

В следующем посте: Беларусь, Армения, Грузия, Азербайджан, Россия, Кыргызстан, Туркменистан, Таджикистан

#datacatalogs #opendata #data #datasets

1✍7❤2

1.39K viewsIvan Begtin, edited 07:13

Ivan Begtin

Открытые данные постсоветских стран. Часть 2

Продолжаю обзор порталов открытых данных постсоветских стран, начало можно прочитать в части 1

- Беларусь. Портал данных в Республике Беларусь существовал только непродолжительное время в декабре 2021 года по адресу data.gov.by (сейчас недоступен) и всё что о нем осталось в сети доступно в Интернет Архиве. Поэтому можно исходить из того что портала открытых данных в стране нет.
- Армения. В Армении как и в Беларуси нет своего госпортала открытых данных, даже при том что страна имеет свой план открытости в рамках OGP, открытые данные туда не входят. Существует только негосударственный портал data.opendata.am без какой-либо господдеркжи
- Грузия. В Грузии до февраля 2025 года существовал портал открытых данных data.gov.ge (сейчас недоступен), его упоминание есть в Интернет архиве. Что с ним случилось, его причины закрытия неизвестны.
- Азербайджан. Портал открытых данных существовал до апреля 2025 года по адресу opendata.az, сейчас недоступен, информация сохранилась в Интернет архиве. В целом на портале публиковались только немногочисленные административные данные, без существенных статистических данных, без геоданных и тд.
- Россия. Портал открытых данных data.gov.ru открылся летом 2025 года и включает сейчас около 7600 наборов данных. На портале отсутствуют геоданные, отсутствуют данные высокой ценности, почти все данные можно отнести к административным данным, не имеющим прямого практического применения. Важные особенности - общий объём данных в сжатом виде около 150МБ и подавляющее число наборов данных устарели от 2 до 10 лет назад.
- Кыргызстан. Портал data.gov.kg изначально сделан на CKAN, без специальных настроек, без геоданных, без наборов данных особой ценности. Сейчас недоступен, общий объём опубликованных данных всегда был невелик качественно и количественно.
- Туркменистан. Портала открытых данных страны никогда не существовало
- Таджикистан. Портала открытых данных страны никогда не существовало

#datacatalogs #opendata #data #datasets

Ivan Begtin

Открытые данные постсоветских стран. Часть 1

Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.

- Эстония. Портал данных andmed.eesti.ee…

👍5✍4❤1

1.3K viewsIvan Begtin, 09:06

Ivan Begtin

Читаю новость о том что вице-премьер РФ Григоренко на Форуме в Тюмени заявил о том что будут доступны данные для обучения ИИ.

И как бы тут сказать повежливее:
1. Федеральный портал открытых данных архитектурно построен так что там не могут быть стандартным способом размещены данные для ИИ. Проще создать новый портал данных чем использовать его.
2. Региональных порталов открытых данных скорее нет чем есть, данные на них устарели или являются бесмыссленными мелкими административными датасетами
3. ЕИП НСУД - это забюрократизированная государственная инфраструктура не имеющая отношения к предоставлению наборов данных или больших баз данных, она про другое и сомневаюсь что её можно перестроить под что-либо ещё
4. То что представители бизнеса получат возможность размещать заявки с запросами на данные, это, как бы, вообще это было изначально и это просто сломали на новой версии data.gov.ru. Но это плохой механизм потому что дата бизнес, скажем так, испытывает очень серьёзные опасения что они озвучат свои пожелания на данные, а с них потом за них что-то потребуют если не деньгами то ~~потом и кровью~~ их собственными данными.

И, конечно же, дело в том что для размещения наборов данных для ИИ надо их где-то взять, а пока российскому пр-ву и законодателям лучше удаётся принуждать бизнес отдавать данные, а не убеждать внутригосударственных владельцев датасетов их публиковать в открытую или хотя бы предоставлять на понятных условиях и прозрачных процедурах.

#opendata #russia #ai #blahblahblah

🔥9❤8✍1

1.35K viewsIvan Begtin, 10:06

About

Blog

Apps

Platform