Ivan Begtin
9.09K subscribers
2.5K photos
4 videos
113 files
5.27K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- Yaak - GUI клиент для REST API, как альтернатива Postman, Insomnia, Apidog и другим. Из плюсов - открытый код под лицензией MIT и сравнительно небольшой размер всего 60МБ (удивительно мало для настольного приложения по нынешним временам). Автор явно нацелен на коммерциализацию, но пока берет плату только за коммерческое использование. По бизнес модели больше похоже на классическое приобретение лицензии на ПО, а не на подписочный облачный сервис
- Will there ever be a worse time to start a startup? - очередной отличный текст от Бена Стенсила о том что сейчас стоимость разработки падает на 10% ежемесячно и что для стартапов это реальный вызов и он задается вопросом: Не худшее ли сейчас время для запуска стартапа? Хороший вопрос, весьма точный. ИИ реально поглощает все что только можно
- Commission and European Investment Bank Group team up to support AI Gigafactories Евросоюз запланировал 20 миллиардов евро на ближайшие годы чтобы сравняться в ИИ гонке с США и Китаем. Как я понимаю из текста инвестиции планируются через Европейский инвестиционный банк (EIB) и расходы будут проводится открытыми тендерами.
- Wikipedia urges AI companies to use its paid API, and stop scraping команда Википедии продолжает призывать ИИ компании использовать их платное API, вместо скрейпинга. По мне так это глас вопиющего в пустыне потому
почти все ИИ агенты по умолчанию точно используют открытые дампы и контент с веб-страниц и чтобы они перестали это делать Википедии придется перестать быть собой и начать закрываться гораздо более агрессивно что не остановит ИИ боты, но приведет к ещё большей потере трафика. Не могу пока разглядеть в происходящем стратегии с потенциально позитивным исходом.
- AI in State Government доклад о применении ИИ в госуправлении в правительствах штатов США. Полезно большим числом примеров того как ИИ агенты и ИИ в принципе применяют. С оговоркой что доклад от аналитиков из подразделения IBM работающего с госухой в США, так что кейсы интересные, но как научную работу рассматривать не стоит. Скорее как анализ рынка консультантами.

#opendata #ai #wikipedia #government
👍5
К вопросу о том как и кто являются пользователями данных и как оценивать насколько тот или иной публичный дата продукт / каталог данных может использоваться.

Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)

2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения

3. Разработчики и дата инженеры

- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных

Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.

Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.

К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.

#opendata #users #thoughts #data
👍1611