Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них Underground Asset Registry реестр подземных коммуникаций и объектов Новой Зеландии, сейчас покрывает город Веллингтон и включает данные собранные с помощью LIDAR'ов, GPR и других технологий автоматической идентификации инфраструктуры и аномалий. В 2020 году они таким образом оцифровали 16 километров города и приступили к починке найденных аномалий. Особенность в том что данные доступны для строительных компаний, они не в открытом доступе и предоставляются только после регистрации.

Внутри централизованный каталог данных с возможностью их выгрузки и отображением в ГИС системе.

Все данные разделены на 4 уровня безопасности из которых все данные 1-го уровня S0 доступны без ограничений после авторизации

#data #newzealand #geodata
👍113🔥2
Fivetran официально объединились с dbt Labs, а до этого они поглотили Tobiko Data, создателей SQLMesh. У них теперь под контролем аж две команды создававшие продукты номер 1 и номер 2 по корпоративной обработке данных, что чертовски похоже на монополию (на самом деле нет) и вызывает вопросы по перспективам открытых версий dbt и SQLMesh потому что два конкурирующих продукта под одной крышей.

К тому же и крыша такая что не всем нравится Fivetran из-за его новой ценовой политики основанной на числе обрабатываемых строк.

Поэтому новость не могу отнести к хорошим, но будем ждать новых свежих открытых продуктов в этой области если dbt протухнут.

#dataengineering #data #datatools
🔥42
Полезные ссылки про данные, технологии и не только
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.

#readings #ai #data #it #digitalpreservation
5🔥52😁2👌1
Полезные ссылки про данные, технологии и не только
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом

#opendata #geodata #data #opensource #datatools #ai #readings
33
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.

Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.

При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.

#webarchives #digitalpreservation #data
👍7😢21🤔1
Nixiesearch любопытный поисковый движок со встроенным ИИ поиском, позиционируется как альтернатива Elasticsearch и Opensearch, внутри использует Apache Lucene, хранит индекс в S3 и индексирование через pull запросы без необходимости отправлять JSON в индекс постоянно.

Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.

Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.

Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.

Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.

Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.

Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.

Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.

#opensource #data #search #ai #vectorsearch
👍533
В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году

На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.

Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.

Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.

С другой стороны небольшое число датасетов компенсируется их значимостью.

#opendata #china #datasets #data #datacatalogs
🔥41
Полезные ссылки про данные, технологии и не только:
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM

#links #readings #ai #data #datatools
51
Открытые данные постсоветских стран. Часть 1

Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.

- Эстония. Портал данных andmed.eesti.ee встроенный в европейские инициативы, 5651 набор данных с акцентом на статистику, но в целом довольно разнообразный. Задекларированная инициатива по наборам данных особой ценности (HVD), но сами наборы данных пока не опубликованы. Портал собственной разработки
- Латвия. Портал данных data.gov.lv также встроен в европейские инициативы, работает на базе CKAN, всего 1425 набора данных. Довольно много геоданных, не меньше трети всего опубликованного и раздел с особо ценными наборами данных, как на всех европейских порталах данных
- Литва. Портал данных data.gov.lt. Всего 2743 набора данных, портал собственной разработки, интеграция в европейские инициативы по открытым данным. Много геоданных и, также, отдельный раздел для особо ценных наборов данных
- Молдова. Портал данных dataset.gov.md содержит 1274 набора данных, преимущественно в Excel, Word и PDF форматах (не очень то и машиночитаемо) и совсем не выглядит системно организованным. Не интегрирован в европейские инициативы и выглядит скорее как плохо организованный
- Украина. Портал данных data.gov.ua включает 39 тысяч наборов данных, существенная часть которых собирается с областных и городских порталов открытых данных. Все работает на CKAN и используется харвестинг CKAN'а для агрегации на центральный портал. Большая часть данных в форматах Excel, Word, PDF, геоданных довольно мало, наборы данных особой ценности отдельно не выделены
- Казахстан. Портал данных data.egov.kz включает 3824 набора данных. создан на некой собственной платформе, важная особенность - крайне жёсткие ограничения на выгрузку данных которые доступны или только для граждан страны или с выгрузкой не более 100 записей за раз. Наборы данных особой ценности никак не обозначены, геоданные отсутствуют, работает не по принципу агрегации, а через загрузку данных органами власти (в Казахстане почти нет региональных и городских порталов с данными).
- Узбекистан. Портал data.egov.uz декларируется 10 тысяч наборов данных, но я ранее писал о том что не так с этим порталом и с тех пор ничего не изменилось. Огромное число датасетов создано через искусственное дробление наборов данных, реальный объём данных на портале очень скромный. Декларируются данные для AI, но на проверку это не датасеты для data science, а маленькие базы данных предоставляемые через API.

В следующем посте: Беларусь, Армения, Грузия, Азербайджан, Россия, Кыргызстан, Туркменистан, Таджикистан

#datacatalogs #opendata #data #datasets
172
Открытые данные постсоветских стран. Часть 2

Продолжаю обзор порталов открытых данных постсоветских стран, начало можно прочитать в части 1

- Беларусь. Портал данных в Республике Беларусь существовал только непродолжительное время в декабре 2021 года по адресу data.gov.by (сейчас недоступен) и всё что о нем осталось в сети доступно в Интернет Архиве. Поэтому можно исходить из того что портала открытых данных в стране нет.
- Армения. В Армении как и в Беларуси нет своего госпортала открытых данных, даже при том что страна имеет свой план открытости в рамках OGP, открытые данные туда не входят. Существует только негосударственный портал data.opendata.am без какой-либо господдеркжи
- Грузия. В Грузии до февраля 2025 года существовал портал открытых данных data.gov.ge (сейчас недоступен), его упоминание есть в Интернет архиве. Что с ним случилось, его причины закрытия неизвестны.
- Азербайджан. Портал открытых данных существовал до апреля 2025 года по адресу opendata.az, сейчас недоступен, информация сохранилась в Интернет архиве. В целом на портале публиковались только немногочисленные административные данные, без существенных статистических данных, без геоданных и тд.
- Россия. Портал открытых данных data.gov.ru открылся летом 2025 года и включает сейчас около 7600 наборов данных. На портале отсутствуют геоданные, отсутствуют данные высокой ценности, почти все данные можно отнести к административным данным, не имеющим прямого практического применения. Важные особенности - общий объём данных в сжатом виде около 150МБ и подавляющее число наборов данных устарели от 2 до 10 лет назад.
- Кыргызстан. Портал data.gov.kg изначально сделан на CKAN, без специальных настроек, без геоданных, без наборов данных особой ценности. Сейчас недоступен, общий объём опубликованных данных всегда был невелик качественно и количественно.
- Туркменистан. Портала открытых данных страны никогда не существовало
- Таджикистан. Портала открытых данных страны никогда не существовало

#datacatalogs #opendata #data #datasets
👍541