Ivan Begtin – Telegram

Ivan Begtin

9.15K subscribers

2.66K photos

5 videos

114 files

5.48K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.15K subscribers

Интересные международные базы данных охватывающие почти все или многие страны мира:
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо

#opendata #data #datasets #statistics #transport #energy #climate #aviation

Ember is a global energy think tank that aims to accelerate the clean energy transition with data and policy.

✍5⚡3🔥3

1.39K viewsIvan Begtin, 12:46

Мысли вслух по поводу применения ИИ для создания наборов данных. Многие российские ведомства за последние годы удалили немало статистических данных и других датасетов, отчетов и докладов со своих сайтов, но, на самом деле, произошло примерно следующее. Данные пропали в структурированном виде, но фрагментарно публикуются их пресс-службами в виде агргеированных цифр и, реже, публикуются разного рода отраслевыми изданиями.

Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".

Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.

Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.

Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.

А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.

В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.

#opendata #data #thoughts

✍8👍6❤5😁1

2.31K viewsIvan Begtin, 15:10

Я как-то уже делал заметку про публикацию статистики статкомитетом СНГ и вот сейчас изучая их ресурсы обнаружил что это чуть ли не один из немногих системно организованных ресурсов статистики на постсоветском пространстве (не считая стран Балтии интегрированных в Евростат).

Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI

Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.

Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).

Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.

Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.

Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.

#opendata #datasets #data #datacatalogs #statistics

👍6❤4✍3⚡1

1.46K viewsIvan Begtin, 10:05

В рубрике как это устроено у них каталог открытых данных платформы SENSE в Великобритании data.sdr-sense.org.uk включает данные энергетического сектора страны. Его особенность в том что он включает как открытые данные и регламентированные (safeguarded) данные доступ к которым можно получить только по запросу. При этом подробные метаданные доступны к каждому датасету и можно заранее понять какие именно данные там доступны.

Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.

Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.

Наборов данных там немного, так что массовым явлением называть это нельзя.

Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.

Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.

#opendata #datacatalogs #datasets #data

👍5⚡1

1.41K viewsIvan Begtin, 16:58

Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT

#opendata #opensource #ai

www.federaldatafieldguide.us

The Federal Data Field Guide

👍5🔥5

1.37K viewsIvan Begtin, 08:45

Подборка ссылок про данные, технологии и не только:
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.

#opendata #datasets #readings #ai

Dead on Arrival: The AI Dashboard Problem

Three prompts, three dashboards, and what the analytics practitioner still has to bring to the table in the age of AI-driven visual analytics.

❤4👍4

1.38K viewsIvan Begtin, 06:09

Для тех кто интересуется, новый релиз 1.1.2 проекта internacia-db в виде курируемого датасета с метаданными всех стран (включая макрорегионы) и всех известных международных/межгосударственных страновых объединений (ЕС, ЕАЭС, БРИКС, НАФТА, ASEAN и много других)

В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.

Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.

Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.

Если найдете там ошибки или будет чем дополнить - пишите сразу мне.

#opendata #datasets #opensource

Для всех кто занимается меж

Release v1.1.2 · datenoio/internacia-db

Added

International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...

👍5❤4🔥3

1.29K viewsIvan Begtin, 08:27

Радует что в ответ на мой запрос про парсинг НЭБа сразу несколько откликов, ожидаемо какого-то простого решения нет и парсинг займет некоторое осмысленное время, однако сама задача привела меня к мысли о том какими сейчас могут быть конкурсы и хакатоны про открытые данные.

Идея в том что трансформировать идею дататонов (datathons) хакатонов где создаются открытые данные к созданию данных высокой ценности. В ЕС и ряде развитых стран они называются high value datasets и являются частью госполитики, но слишком часто эти данные изначально существуют в неструктурированном виде. В лучшем случае в Excel, в худшем случае в бумажном архиве картинками. Самый частый случай - это множество PDF документов со сканами или текстами или HTML страниц.

Это могут быть базы законов, файлы ведомственной статистики, прогнозы погоды и метеонаблюдений картинками, тематические годовые доклады/отчеты и так далее. Иначе говоря - это не из API надо извлечь JSON'ки и склеить их или не самый простой HTML распарсить, а часто надо над этим повозиться.

Раньше это делать было непросто потому что подготовка качественных данных - это всегда было дорого из-за больших трудозатрат в анализе первичных данных и потом в их парсинге. Поэтому дататоны не были особо популярны. А вот с появлением ИИ агентов и кодирующих ассистентов такие задачи стали проще, настолько проще что можно к этому вернуться.

И мои мысли таковы что можно делать такие конкурсы на регулярной основе. Собрать призовой фонд в $2-3 тысячи в любой нац. валюте реалистично. Задач тоже множество. Например, по России - это уже упомянутые мной базы законов, госдокладов, статистики в PDF'ах, книг и тд. В Армении все еще хуже - большая часть интересных данных в виде PDF и реже файлах MS Word и Excel.

У меня есть списки из десятков таких подборок, те же госдоклады в РФ часто содержат то чего нет в официальной статистике Росстата, а таких госдокладов немало. У Минприроды, у ВИМС, у Роспотребнадзора и ещё много чего.

Поскольку хороших датасетов от государства сейчас дождаться сложно, то можно и, похоже, нужно возвращаться к их созданию из общедоступных сведений.

Как оценивать результаты на таком конкурсе? По объёмам (документов и записей), по сложности решаемой задачи (преобразовать Excel файлики просто, преобразовать изображения сложно), по востребованности, по качеству результата (качество содержания и качество метаданных).

Вот такие мысли вслух. Свободно делюсь идеей потому что если кто-то ещё будет делать подобное и как общественное благо, то будет только лучше.

#opendata #thoughts

Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru

Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания,…

👍12🔥9❤5✍3❤‍🔥2

1.52K viewsIvan Begtin, 12:47

Подборка ссылок про данные, технологии и не только:
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом

#opendata #opensource #ai #tools

Redistricting Data Hub

We have all the redistricting data you need to draw or analyze Community of Interest or District maps

✍7👍1

1.4K viewsIvan Begtin, 07:29

В рубрике закрытых открытых данных в России Минтранс РФ уже полгода как не публикует статистический бюллетень "Транспорт России". Последний бюллетень размещался у них на сайте 11 декабря 2025 года и за 9 месяцев 2025 года, а до этого 8 сентября, а до этого 9 июня, а до этого 14 марта.

То есть бюллетень публиковался примерно через 2.5 месяца после прошлого отчетного периода и в 2026 году до 15 марта должен был быть опубликован бюллетень за 2025 год, а до середины июня (в течении 10 дней от сегодня) ожидался бы бюллетень за первый квартал 2026 года.

Но бюллетеня за 2025 год нет, почему непонятно, анонсов на сайте Минтранса РФ я лично тоже не видел.

Записываем этот случай в очередной пример закрытия официальной статистики в РФ.

#opendata #closeddata #russia

✍6😢6⚡1❤‍🔥1

1.34K viewsIvan Begtin, 09:35

В Великобритании национальный портал открытых данных data.gov.uk переименовали в National Data Library (Национальная библиотека данных) и рассказали о том почему и как они это делают.

Признаюсь я смотрю на это с большим скепсисом, у меня есть ощущение что интенции может быть и хорошие, а реализация так себе.

Ключевой двигатель изменений нац порталов открытых данных в том что в какой-то момент многие из них превратились в помойки. Идея open by default без методической поддержки привела к большому числу бессмысленных маленьких наборов данных не востребованных и не нужных 99% пользователей. Преодолевают эту проблему очень по разному:
- в Евросоюзе - фокусируются на данных особой ценности выводимых в отдельную категорию
- в США - откровенно забивают на портал data.gov, он давно наполняется, но качественно не меняется. Поэтому параллельно создают много разной открытой инфраструктуры для геоданных, научных данных и тд.
- в Индонезии - кратно увеличивают число опубликованных открытых данных публикуя на них чуть ли не каждый файл созданный госорганами. Сейчас там больше 580 тысяч файлов на data.go.id

И вот в Великобритании это решили делать через curated datasets, не особо понимая своих реальных и потенциальных пользователей и не обеспечивая технологической основы.

С одной стороны удивительно, а с другой не очень. Как хороший пример, data.gov.uk я пока приводить не могу.

#opendata #uk #thoughts

👍5✍2🤔2

1.29K viewsIvan Begtin, 14:37

В рубрике интересных каталогов открытых данных коллекция датасетов в проекте Mozilla Data Collective. Включает множество датасетов по самым разным темам, но основная тема - это языковое разнообразие и каталог включает множество наборов данных именно по языкам, включая редкие или не самые популярные. Например, датасеты по армянскому языку

Из плюсов:
- датасетов много и они полезны
- большая часть под свободными лицензиями или почти свободными вроде CC-ND/CC-NC
- Mozilla устоявшаяся структура, есть ощущение что каталог не сиюминутен

Из минусов:
- доступ требует регистрации и это не открытые данные, для выгрузки или доступа через API даже при свободных лицензиях надо согласится вручную со всеми условиями (не только лицензиями)
- сам каталог является самостоятельной поделкой, не стандартизированный поэтому многие функции вроде фильтрации сделаны так себе, непродуманно
- то что там называется API - это API на выкачку файлов, а не на доступ к данным через API.

В целом не вижу чем он удобнее чем тот же Hugging Face, в работе с датасетами для ИИ, но помнить о нем немаловажно

#opendata #datasets #datacatalogs

1👍6❤‍🔥2

1.27K viewsIvan Begtin, 14:14

Data.gov: Implementation and Perspectives on Its Functions на сайте Конгресса США обзор истории портала Data.gov и перспектив его развития. Документ в форме отчета Конгресса, написан очень бюрократизированным языком, читать его непросто, хотя и интересно.

А заодно полезно для понимания проблем с которыми сталкиваются при разработке порталов открытых данных. Data.gov в довольно запущенном состоянии уже давно, как и ряд других национальных порталов открытых данных.

#opendata #usa #data #datacatalogs

✍3👍3

1.24K viewsIvan Begtin, 07:34

Мне много что есть сказать по поводу отзыва компанией GlobalSign сертификатов у российских доменов и недавнего изменения политики Let's Encrypt в части соблюдения санкций США (теперь соблюдают, если вкратце и не будут больше выдавать их санкционным компаниям).

Последствия этого будут для российских пользователей неприятными и пойдут эти действия скорее в копилку доводов тех кто говорит про суверенный интернет в РФ и как бы все не обернулось попытками усиления внедрения отечественных браузеров, сертификатов НУЦ и так далее. В чем, разумеется, ничего хорошего нет и быть не может, российский цифровой рынок не настолько большой чтобы усиливать собственную изоляцию, и множество продуктов поломается из-за невозможности проверки сертификатов так же как и риски взломов усилятся.

Но тема эта не про данные, а не про данные мне говорить скучно😉 так что я, всё таки, предложу посмотреть на эту проблему через данные.

Сертификаты для сайтов и других целей в мире выдаются не кем попало, а так называемыми Certificate Authority и крупнейшие вендоры браузеров, операционных систем и устройств проводят их верификацию/аттестацию и включают в списки признаваемых ими. Вот тут можно посмотреть примеры таких списков. Наиболее значимые - это списки Apple, Microsoft, Google для их операционных систем, но, в принципе, все они важны.

Наиболее крупный список Common CA Database ведет Linux Foundation в партнерстве с Microsoft, Mozilla, Cisco и Google. Он включает 10122 сертификата, выпущенных 186 корневыми CA из примерно 60 стран. Эти страны включают, практически все страны ЕС, многие азиатские и даже некоторые африканские страны.

А каких стран там нет? Из значимых там нет России, Беларуси и всех стран Центральной Азии и многих других.

Почему же так, спросите Вы? Может быть потому что они не могли бы пройти по требованиям для их аттестации? Может быть потому что не было и нет целенаправленной госполитики по их созданию? Или в том что зарубежные вендоры изначально не доверяют компаниям в области безопасности из ряда стран? Есть ли тут политические решения или только экономические?

У меня есть предположения и подозрения на этот счет, а пока для тех кто хочет изучить как устроен рынок CA в мире вот тут можно скачать напрямую этот файл для анализа в CSV формате. Он вполне поддается анализу и визуализации.

#opendata #certificates #russia #datasets #data

✍20❤9🔥9

1.45K viewsIvan Begtin, edited 09:17

Для тех кто интересуется разного рода международной таксономией, новая версия internacia-db управляемого справочника по странам и международным блокам в виде открытого репозитория приведенного к формату дата-продукта.

В новом релизе 1.5.0 по совокупности изменений:
- число стран/территорий расширено до 256 и теперь включает записи по непризнанным территориям вроде Приднестровья, Абхазии и тд.
- добавлены новые международные блоки которых теперь 1070, типы международных блоков по прежнему: экономические блоки, международные соглашения, межгосударственные организации и фонды, экономические группы стран (по классификация Всемирного банка и другим) и так далее. Всего более 86 типов международных группировок стран
- добавлена лицензия для данных которая CC-BY и provenance (происхождение) по отдельным полям данных в карточках записей.
- многие карточки включают обновленные метаданные: описания, официальные названия, сведения о странах участниках, статус участия и так далее.

Все данные опубликованы в форматах Parquet, YAML, JSON lines и в виде базы DuckDB.

Для чего нужна эта база?
1. Для обогащения данных при работе с любыми данными имеющими геопривязку к стране или международному блоку
2. Для задач визуализации данных, например, статистики в привязке к странам и международным блокам
3. Для сравнения стран и международных блоков

И тому подобных задач. Этот дата-продукт можно сравнить с pycountry пакетом для Python со справочником стран, но он больше, шире, детальнее и включает данные по международным блокам.

#opendata #dataproducts #data

GitHub - datenoio/internacia-db: Public registry of the intergovernmental organizations, country groups and countries. Available…

Public registry of the intergovernmental organizations, country groups and countries. Available as JSONl, Parquet, YAML and DuckDB database datasets - datenoio/internacia-db

👍10🔥8❤2

1.42K viewsIvan Begtin, 16:51

ORD (Open Reaction Database) открытая база реакций состоящая из более 500 наборов данных и сотен тысяч реакций описанных в структурированной форме.

У проекта открытый код и открытые данные на Github.

Из необычного данные публикуются в форматах Parquet и сжатом Protobuf (.pb.gz).

Основным источником является база патентов США, а кроме того там используется некоторое число открытых датасетов к которым привязаны реакции. Внутри используется CML (Chemical Markup Language) язык разметки для химических реакций.

Применений может быть множество, например, в автоматизации моделирования создания новых веществ, поиска новых реакций и так далее. Иначе говоря так и просится для специализированных ИИ задач.

#opendata #opensource #chemistry

👍7🔥3✍2

1.32K viewsIvan Begtin, 08:30

findgovdata.org свежий поисковик по открытым данным США, конкретно по данным портала data.gov . Кажется очень небольшим по сравнению с нашим Dateno (тут около 540 тысяч датасетов, а в Dateno больше 20 миллионов). Однако тоже любопытен по своему.

По сути проект - это демка opensource поискового движка Amgix как альтернативы Elasticsearch. Внутри него векторные базы данных (можно выбрать одну из) и набор полезных фич.

Из заметных минусов - все под лицензией AGPL-3.0, а значит что создатели явно нацелились на то чтобы вскоре запилить SaaS продукт и получить на него венчурные инвестиции.

#opensoure #opendata #search #datasets

👍5❤1

1.23K viewsIvan Begtin, 07:44

Про то как ИИ хайп влияет на открытость данных. Патентная служба США USPTO ограничила доступ к своему порталу открытых данных data.uspto.gov только для зарегистрированных пользователей. Теперь чтобы скачать большие слепки данных или подключится через API надо заполнить регистрационную форму, а с августа включать в нее еще и дополнительную информацию.

Делается это для борьбы с ботами - читай автоматизированным подключением через ИИ краулеры. Учитывая что USPTO - это крупнейшая патентная служба в мире и ранее она была одной из наиболее открытых, то и огромное число ботов обращались к ней для получения данных по патентам.

Понятно что данные не исчезают и многочисленные сервисы использующие их продолжат работу зарегистрировавшись там, но тенденция налицо. Это не первый и не последний подобный случай

#opendata #closeddata #usa #patents #ai

✍5😢5❤2🤔2

1.85K viewsIvan Begtin, 08:11

Я тут регулярно рассказываю о реестре каталогов данных Dateno который доступен в виде открытого репозитория и на сайте Dateno и время от времени сетую как же так такая хорошая штука и мало кем используется. И вот нашлись живые пользователи. Поисковая система/ИИ агент по базам знаний и каталогам данных Climate Data Catalogue используют наш реестр в своем реестре каталогов данных по климатическим данным. Их там немного, но они синхронизованы с метаданными из реестра Dateno. Что тут скажешь, молодцы 😁 и для таких применений этот реестр и создавался как открытый дата-продукт. С подробными метаданными и всеми точками подключения API которые у каждого каталога данных есть.

Сам их продукт ответов на вопросы тоже интересный, правда для работы просит ключ для Mistral, но обещает что он используется только локально.

В отличии от Dateno они ищут по Wiki, SPARQL эндпоинтам и каталогам данных и заглядывают в метаданные Wikidata при поиске ответов на вопросы.

Бизнес модель их не понимаю, впрочем это академический проект WU Vienna с акцентом на связанные данные, можно сказать что монетизация через получение исследовательских грантов (это не монетизация, конечно).

#opendata #datasets #climate #datacatalogs

1🔥3❤2👍2😁1

1.34K viewsIvan Begtin, 17:43

Свежий текст от The GovLab о том как меняется политика доступа к данным в эпоху ИИ. Текст, как я понимаю, по итогам нескольких сессий прогнозирования развития открытости данных, открытого доступа и обмена данными с ведущими экспертами и про то куда все двигается на основе этих разговоров.

Там все те же темы о которых я регулярно пишу, то что парадигма открытых данных
испытывает трудности, то что государства хотят больше контроля над данными, то тема данных стала синонимична ИИ и еще много всего.

#opendata #readings

👍6✍2

674 viewsIvan Begtin, 10:38