Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
На днях просматривая разные рейтинги стран, регионов и тд. в которой раз убеждаюсь насколько большая часть из них не несёт реальной ценности для потребителей/читателей и сводятся они, в большей части, к хайпу СМИ которые их публикуют и создателей которые, опять же, ничего кто кроме веб трафика не ищут.

Пришла идея что очень простой, буквально студенческой задачей по дата журналистике было бы "опрактичивание" таких рейтингов.

Рассмотрим пример, вот есть рейтинг стран по "силе паспортов" [1] в нём есть список лидеров стран и сам он построен предельно просто, по баллам по числу стран к которым есть безвизовый доступ у владельца паспорта.

Полезен ли этот рейтинг реально? Только одним, что пр-ва стран соревнуются кто больше. Но для пользователя нет.

Что мы знаем про страны и про то как туда уезжают/приезжают? То что страны не одинаковы по территории и экономике. То что поездки в страны можно разделить на экономические, туристические и долгосрочные и наверняка ещё много всего.

Так вот если, к примеру, этот рейтинг дорабатывать/перерабатывать, то первый способ это добавить территории стран. Рейтинг меняется с числа стран, на долю суши к которой есть доступ без виз. Такой рейтинг всё ещё неидеален, поскольку доступность африканских стран не делает их сильно перспективными для туризма, но его теперь уже можно дорабатывать с оглядкой на эту цель.

Второй подход. Берём классификацию мирового банка по уровням доходов стран [2] и добавляем коэффициенты для каждого уровня. Самый простой подход в том чтобы дать коэффициент в 1 для стран Low Income, 4 для Lower-middle Income, 7 для Upper-middle Income и 10 для High Income. Эти коэффициенты примерно соответствуют градации в доходах при классификации стран МирБанком.

А потом скрестим это с индексом "силы паспорта". Будет такой True Passport Index. Потому что он будет показывать реальную силу паспорта по доступу к цивилизации. От текущего рейтинга он будет отличаться очень сильно в середине списка, а самые "слабые" и самые "сильные" паспорта почти наверняка останутся на своих позициях.

Это лишь один наглядный пример, по той же логике можно многие какие рейтинги переделать и нормализовать.

Будь у меня побольше свободного времени сейчас, я бы сам такое сделал просто как пример того как неудобны текущие примеры, и как сделать правильно.

Если никто не сделает в ближайшие месяцы, может быть и потрачу один выходной оформив это как тюториал. А так то любой желающий может проверить полезность этого подхода на этом или других рейтингах;)

Ссылки:
[1] https://en.wikipedia.org/wiki/Henley_Passport_Index
[2] https://blogs.worldbank.org/en/opendata/new-world-bank-group-country-classifications-income-level-fy24

#ratings #datajournalism #ideas
В рубрике полезного чтения про данные, технологии и не только:
- G7 Toolkit for Artificial Intelligence in the Public Sector [1] руководство от стран G7 по созданию и эксплуатации доверительного ИИ в госсекторе. Иначе говоря рекомендации госслужащим по работе с ИИ.
- Data’s Role in Unlocking Scientific Potential [2] обзор инициатив и набор рекомендаций о том как доступность данных для учёных меняет науку в США. Если коротко, то больше открытости - больше науки.
- The Age of AI Nationalism and Its Effects [3] о стремительном развитии ИИ национализма
- Interesting startup idea: benchmarking cloud platform pricing [4] любопытная идея для стартапа, сравнение расценок облачных платформ. Не знаю насчёт стартапа, но проблема есть, без сомнения.

Ссылки:
[1] https://www.oecd.org/en/publications/g7-toolkit-for-artificial-intelligence-in-the-public-sector_421c1244-en.html
[2] https://www.scsp.ai/wp-content/uploads/2024/10/Datas-Role-in-Unlocking-Scientific-Potential-Paper.pdf
[3] https://www.cigionline.org/publications/the-age-of-ai-nationalism-and-its-effects/
[4] https://blog.pragmaticengineer.com/spare-cores/

#opendata #ai #ideas #readings
Возвращаю на голову шляпу дата инженера и продолжаю про разные инструменты.

Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.

Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.

Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.

Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.

#opendata #datadocumentation #opensource #datatools #ideas