Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.

В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.

Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.

Ссылки:
[1] https://plutof.ut.ee/en

#opendata #datacatalogs #biodiversity #datasets
52
В рубрике как это устроено у них в США существует Research Data Alliance (Альянс исследовательских данных) и они, в том числе, занимаются тем что архивируют данные ликвидируемых госагенств США и их дочерних структур.

Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.

Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.

Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.

Ссылки:
[1] https://rdapassociation.org/event-6266055

#opendata #digitalpreservation #events
👍62🔥2
В США опубликовали AI Action plan документ стратегии ИИ который выглядит на удивление разумным и продуманным.

Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security
, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.

Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.


#data #ai #regulation
🔥132👍1
Полезное чтение про данные, технологии и не только:
- DuckLake standard 0.2 обновлённая спецификация озера данных на базе DuckDB, любопытно, всё жду обзоров сравнения нескольких технологий построения подобных озер. Они больше для корпоративной аналитики чем для работы со статическими данными, но тем не менее.
- What CoPilot Won’t Teach You About Python (Part 1) полезные трюки для тех кто программирует на Python и хочет знать новые лайфхаки. Заголовок, конечно, так себе ибо LLM многое из этого умеют
- Finding a job as a product engineer про культуру работы продуктовых инженеров и компании которые продвигают и реализуют такой подход. Если кратко то это совмещение ролей product owner'а и developer'а. Идея мне нравится, вот только найти таких людей непросто
- Notate.so ИИ помощник для рассуждений над любым текстом в сети, работает как расширение для браузера и интегрирован с Obsidian. Идея любопытная, в идеале бы local first версию интегрированную с локальной версией Obisidian

#python #readings #daata #datalake #products #notes
71🤔1
С 25 августа перестанут работать короткие ссылки в сокращателе ссылок от Google, сам сервис перестал работать с 2019 года, но ранее созданные ссылки действовали, теперь же и ссылки действовать перестанут. Чем вызвана такая срочность и закрытие непонятно, у корпорации однозначно были и есть ресурсы сервис поддерживать.

Команда ArchiveTeam занимается архивацией этих ссылок и всего собрано 84ТБ данных. Прогресс архивации можно отследить в трекере и там же присоединиться к архивации развернув собственный экземпляр ArchiveTeam Warrior, специальной виртуальной машины для выполнения задач в рамках проектов с распределенной архивацией цифровых материалов.

#opendata #digitalpreservation #webarchive
🔥7🤨6🌚1
Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.

Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]

Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.

А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.

Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf

#dataengineering #data #opensource
8
Подборка ссылок про данные, технологии и не только:
- FastLanes новый формат для хранения данных, обещают что на 40% лучше сжатие и на 40% быстрее декодирование чем в Parquet. Доступны реализации на Python, C++ и Rust. Лицензия MIT. Вместе с кодом ссылки на 4 научные работы и пример по преобразованию CSV. Нехватает только интеграции в какой-либо движок для датафреймов или в DuckDB. Происходит из команды CWIDA которые много что интересного про базы данных делали и делают. В частности DuckDB Lab - это их спинофф, так что выглядит любопытно и, скорее всего, поддержка внутри DuckDB ожидаема.
- Parquet Content-Defined Chunking обновления в Pandas и Pyarrow для поддержки точечных изменений в Parquet файлах благодаря которым можно безболезненно дописывать данные в Parquet файлы. Перспективно в задачах преобразования данных в Parquet которые, внезапно, удешевились и вообще для использования Parquet в озерах данных. Текст в блоге Hugging Face, технический, но важный
- Three TigerData Engineers Told Us the Truth About MCP – Security Is Its Achilles Heel анализ работы MCP серверов и их высокой небезопасности в большинстве реализаций. Стоит почитать прежде чем делать свой MCP экспорт
- How to build data platforms электронная книга от команды Dagster'а о том как строить свои дата платформы. Высылают если заполнить форму. Документ полезный для всех кто планирует делать свою инфраструктуру данных, условно, с нуля.

P.S. Напоминаю что мы ищем ещё одного дата инженера в команду Dateno https://t.me/datenosearch/13, писать можно и нужно на dateno@dateno.io
🔥6👍211
В качестве регулярных напоминаний, несколько лет назад я делал библиотеку для Python под названием newsworker по автоматическому извлечению новостей из веб-страниц вместо RSS лент, она всё ещё работает и актуальна.

Когда я её создавал у меня была большая идея в создания новостного агрегатора с сайтов которые RSS ленты не экспортировали, к примеру, это более половины сайтов госорганов и госучреждений. Ключевое было в том чтобы не писать парсеры для каждого сайта, а чтобы было достаточно скормить анализатору ссылку и он уже сам бы нашёл блоки с новостями, понял бы какие ссылки там есть, идентифицировал бы даты и новостные блоки и создавал бы новостную ленту из которой можно было бы сконструировать RSS/ATOM ленту что называется low code, без усилий.

Для той же цели я создавал ещё одну библиотеку qddate которая умеет определять даты написанные 300+ способами, на разных языках и форматах. Собственно newsworker извлекал из веб страницы тексты, находил даты, анализировал компоновку веб страницы, идентифицировал заголовок, текст, ссылки, дату и сохранял результаты. qddate писалась довольно нестандартно, вместо регулярных выражений там применялись шаблоны pyparsing и жёстко вкодированные якоря для быстрого отсева нерелевантных текстов. Самое трудоёмкое, собственно, было именно в идентификации дат.

Хотя я давно эту библиотеку newsworker не обновлял, задачи по созданию агрегатора давно отпали, но код всё ещё работает и для тех кто решает подобные задачи она может пригодится.

Возможно, сейчас можно было бы пойти путём автоматизированного вайб кодинга и натравливать LLM на каждую такую страницу, и LLM может сделать индивидуальные парсеры, но... старые подходы тоже работают и, возможно, не хуже, а то и лучше. это

Общая концепция вокруг этого всего у меня была в восприятии любого веб-ресурса как базы данных. Автоматический интеллектуальный скрейпинг условно любого контента. С новостями это было проще всего, это было, в принципе, решаемо.

#opensource #data #datatools
🔥11💯1
А вот вам ещё цифры про портал открытых данных РФ data.gov.ru, вернее цифры про то чего там нет
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.

Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные

И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.

Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉

#opendata #digitalpreservation
9🤔1🌚1
Свежий план Правительства Китая по развитию ИИ, для тех кому лень читать его на китайском языке, вот краткие тезисы

1️⃣ ИИ — для всех:
Развиваем технологии вместе — от государств до граждан. В фокусе — устойчивое развитие и решение глобальных задач.

2️⃣ Поддержка инноваций:
Создаём международные платформы, снижаем барьеры, делимся опытом и находим прорывы вместе.

3️⃣ ИИ в каждую отрасль:
Промышленность, медицина, образование, агро — ИИ должен приносить пользу повсюду.

4️⃣ Цифровая инфраструктура:
Сети, дата-центры, вычислительные мощности — особенно для стран Глобального Юга. Без базы — нет прогресса.

5️⃣ Открытая экосистема:
Поддержка open source, совместимость систем, доступ к разработкам для всех. Без монополий.

6️⃣ Данные — топливо ИИ:
Безопасный и законный обмен данными. Качество, разнообразие, защита приватности.

7️⃣ Зелёный ИИ:
Энергоэффективные алгоритмы и оборудование. ИИ не должен вредить планете.

8️⃣ Общие стандарты:
Согласованные международные нормы: безопасность, этика, прозрачность.

9️⃣ Государства — пример:
Госуслуги с ИИ — быстрее, точнее, прозрачнее. Но с уважением к правам и приватности.

🔟 Безопасность прежде всего:
Анализ рисков, защита от злоупотреблений, объяснимость и контроль.

1️⃣1️⃣ Выполнение цифрового договора ООН:
Справедливое цифровое будущее — без цифрового неравенства.

1️⃣2️⃣ Образование и потенциал:
Учимся и учим: от лабораторий до курсов для всех. Особое внимание — женщинам и детям.

1️⃣3️⃣ Управление для всех:
ИИ — это не только дело корпораций. Все голоса должны быть услышаны: учёные, госслужбы, бизнес, общество.

В целом же что план Китая, что план США, оба про глобальную экспансию нынешних "ИИ сверхдержав".
Можно обратить внимание что все стратегии упоминают открытый код

#ai #china #data
🔥10👍31👏1
В продолжение про Китай и про данные в Китае

📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:

📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB

🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)

⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза

🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление

🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%

🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика

🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть

Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.

#opendata #data #china #ai #regulation
👍113
В рубрике как это устроено у них портал открытых данных провинции Гуандоу (Китай) gddata.gd.gov.cn содержит более 98 тысяч наборов данных и более 6700 API для доступа к данным провинции, всех государственных департаментов и всех муниципалитетов. Портал позиционируется скорее не как портал открытых данных, а как "открытая платформа индустриальных данных". В отличие от порталов и каталогов данных в других странах здесь нет открытых лицензий и данные доступны только после регистрации и верификации пользователей (нужен аккаунт WeChat или другой способ идентификации и подтверждения жизни в Китае или связи с ним).

На самом деле там, конечно же, есть недокументированное API и эти требования условны, но тем не менее.

Данные опубликованы в форматах CSV, RDF, JSON, XML, XLSX, XLS. Часто в один набор данных входят файлы в разных форматах с одним содержанием.

Население провинции Гуандоу более 120 миллионов человек что позволяет сранивать её в с РФ, её номинальный ВВП и ППС тоже сравнимы с РФ, так что можно увидеть как публикуют данные на территории сравнимой по населению и экономике (не по размеру, конечно).

Всё это помимо других проектов в Гуандоу, таких как Shenzhen Data Exchange и Canton Data Exchange которые не про открытые данные, а про рынок данных и торговлю ими.

Несмотря на отсутствие центрального портала открытых данных в Китае порталы данных есть у почти каждой провинции и у них сильный уклон на API доступа к данным реального времени и данных о городской инфраструктуре.

#opendata #china #datasets
632❤‍🔥1
В рубрике как это устроено у них национальный портал открытых данных Литвы data.gov.lt

Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.

111 наборов данных - это данные высокой ценности в определении Евросоюза.

Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности

Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.

У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.

#opendata #datasets #lithuania
5
begtin_inventory_v03.pdf
1.1 MB
Для тех кто интересуется инвентаризацией именно открытых данных вот тут моя презентация от 2020 года. Это облегчённая версия для обучения госслужащих этой работе, полную версию, увы, я опубликовать не могу, ибо она делалась для конкретной академической структуры (там это больше не преподаю, если что), а с этой версией я даже выступал на каких-то мероприятиях

По большей части она актуально, хотя какое-то количество изменений уже накопилось.

#data #presentations #datainventory #opendata
65👍1
Ни к чему не призываю, ничего не предлагаю, просто интересуюсь (с)

Исключительно в познавательных целях вопрос, РКН ведь ещё не начали блокировать протокол SSH и SSH туннели? И заблокировать не смогут поскольку полностью похоронят всю разработку и системное администрирование в Рунете?

#ятолькоспросить
😁12😐5👍21
На национальном портале открытых данных Норвегии заменили строку поиска на запросы к ИИ где можно написать что ищете и получить подборку ссылок. Внутри там pgvector + LangChain + Google Vertex AI. Выглядит неплохо, но и не хорошо, люди чаще ищут конкретные данные (значений), а не датасеты и от ИИ поиска ожидают именно этого. В любом случае это какая-никакая инновация, уж точно значимее чем "хихикающий ИИ помощник" на портале data.gov.ru.

#opendata #ai #search
👍10🗿31