На днях просматривая разные рейтинги стран, регионов и тд. в которой раз убеждаюсь насколько большая часть из них не несёт реальной ценности для потребителей/читателей и сводятся они, в большей части, к хайпу СМИ которые их публикуют и создателей которые, опять же, ничего кто кроме веб трафика не ищут.
Пришла идея что очень простой, буквально студенческой задачей по дата журналистике было бы "опрактичивание" таких рейтингов.
Рассмотрим пример, вот есть рейтинг стран по "силе паспортов" [1] в нём есть список лидеров стран и сам он построен предельно просто, по баллам по числу стран к которым есть безвизовый доступ у владельца паспорта.
Полезен ли этот рейтинг реально? Только одним, что пр-ва стран соревнуются кто больше. Но для пользователя нет.
Что мы знаем про страны и про то как туда уезжают/приезжают? То что страны не одинаковы по территории и экономике. То что поездки в страны можно разделить на экономические, туристические и долгосрочные и наверняка ещё много всего.
Так вот если, к примеру, этот рейтинг дорабатывать/перерабатывать, то первый способ это добавить территории стран. Рейтинг меняется с числа стран, на долю суши к которой есть доступ без виз. Такой рейтинг всё ещё неидеален, поскольку доступность африканских стран не делает их сильно перспективными для туризма, но его теперь уже можно дорабатывать с оглядкой на эту цель.
Второй подход. Берём классификацию мирового банка по уровням доходов стран [2] и добавляем коэффициенты для каждого уровня. Самый простой подход в том чтобы дать коэффициент в 1 для стран Low Income, 4 для Lower-middle Income, 7 для Upper-middle Income и 10 для High Income. Эти коэффициенты примерно соответствуют градации в доходах при классификации стран МирБанком.
А потом скрестим это с индексом "силы паспорта". Будет такой True Passport Index. Потому что он будет показывать реальную силу паспорта по доступу к цивилизации. От текущего рейтинга он будет отличаться очень сильно в середине списка, а самые "слабые" и самые "сильные" паспорта почти наверняка останутся на своих позициях.
Это лишь один наглядный пример, по той же логике можно многие какие рейтинги переделать и нормализовать.
Будь у меня побольше свободного времени сейчас, я бы сам такое сделал просто как пример того как неудобны текущие примеры, и как сделать правильно.
Если никто не сделает в ближайшие месяцы, может быть и потрачу один выходной оформив это как тюториал. А так то любой желающий может проверить полезность этого подхода на этом или других рейтингах;)
Ссылки:
[1] https://en.wikipedia.org/wiki/Henley_Passport_Index
[2] https://blogs.worldbank.org/en/opendata/new-world-bank-group-country-classifications-income-level-fy24
#ratings #datajournalism #ideas
Пришла идея что очень простой, буквально студенческой задачей по дата журналистике было бы "опрактичивание" таких рейтингов.
Рассмотрим пример, вот есть рейтинг стран по "силе паспортов" [1] в нём есть список лидеров стран и сам он построен предельно просто, по баллам по числу стран к которым есть безвизовый доступ у владельца паспорта.
Полезен ли этот рейтинг реально? Только одним, что пр-ва стран соревнуются кто больше. Но для пользователя нет.
Что мы знаем про страны и про то как туда уезжают/приезжают? То что страны не одинаковы по территории и экономике. То что поездки в страны можно разделить на экономические, туристические и долгосрочные и наверняка ещё много всего.
Так вот если, к примеру, этот рейтинг дорабатывать/перерабатывать, то первый способ это добавить территории стран. Рейтинг меняется с числа стран, на долю суши к которой есть доступ без виз. Такой рейтинг всё ещё неидеален, поскольку доступность африканских стран не делает их сильно перспективными для туризма, но его теперь уже можно дорабатывать с оглядкой на эту цель.
Второй подход. Берём классификацию мирового банка по уровням доходов стран [2] и добавляем коэффициенты для каждого уровня. Самый простой подход в том чтобы дать коэффициент в 1 для стран Low Income, 4 для Lower-middle Income, 7 для Upper-middle Income и 10 для High Income. Эти коэффициенты примерно соответствуют градации в доходах при классификации стран МирБанком.
А потом скрестим это с индексом "силы паспорта". Будет такой True Passport Index. Потому что он будет показывать реальную силу паспорта по доступу к цивилизации. От текущего рейтинга он будет отличаться очень сильно в середине списка, а самые "слабые" и самые "сильные" паспорта почти наверняка останутся на своих позициях.
Это лишь один наглядный пример, по той же логике можно многие какие рейтинги переделать и нормализовать.
Будь у меня побольше свободного времени сейчас, я бы сам такое сделал просто как пример того как неудобны текущие примеры, и как сделать правильно.
Если никто не сделает в ближайшие месяцы, может быть и потрачу один выходной оформив это как тюториал. А так то любой желающий может проверить полезность этого подхода на этом или других рейтингах;)
Ссылки:
[1] https://en.wikipedia.org/wiki/Henley_Passport_Index
[2] https://blogs.worldbank.org/en/opendata/new-world-bank-group-country-classifications-income-level-fy24
#ratings #datajournalism #ideas
В рубрике полезного чтения про данные, технологии и не только:
- G7 Toolkit for Artificial Intelligence in the Public Sector [1] руководство от стран G7 по созданию и эксплуатации доверительного ИИ в госсекторе. Иначе говоря рекомендации госслужащим по работе с ИИ.
- Data’s Role in Unlocking Scientific Potential [2] обзор инициатив и набор рекомендаций о том как доступность данных для учёных меняет науку в США. Если коротко, то больше открытости - больше науки.
- The Age of AI Nationalism and Its Effects [3] о стремительном развитии ИИ национализма
- Interesting startup idea: benchmarking cloud platform pricing [4] любопытная идея для стартапа, сравнение расценок облачных платформ. Не знаю насчёт стартапа, но проблема есть, без сомнения.
Ссылки:
[1] https://www.oecd.org/en/publications/g7-toolkit-for-artificial-intelligence-in-the-public-sector_421c1244-en.html
[2] https://www.scsp.ai/wp-content/uploads/2024/10/Datas-Role-in-Unlocking-Scientific-Potential-Paper.pdf
[3] https://www.cigionline.org/publications/the-age-of-ai-nationalism-and-its-effects/
[4] https://blog.pragmaticengineer.com/spare-cores/
#opendata #ai #ideas #readings
- G7 Toolkit for Artificial Intelligence in the Public Sector [1] руководство от стран G7 по созданию и эксплуатации доверительного ИИ в госсекторе. Иначе говоря рекомендации госслужащим по работе с ИИ.
- Data’s Role in Unlocking Scientific Potential [2] обзор инициатив и набор рекомендаций о том как доступность данных для учёных меняет науку в США. Если коротко, то больше открытости - больше науки.
- The Age of AI Nationalism and Its Effects [3] о стремительном развитии ИИ национализма
- Interesting startup idea: benchmarking cloud platform pricing [4] любопытная идея для стартапа, сравнение расценок облачных платформ. Не знаю насчёт стартапа, но проблема есть, без сомнения.
Ссылки:
[1] https://www.oecd.org/en/publications/g7-toolkit-for-artificial-intelligence-in-the-public-sector_421c1244-en.html
[2] https://www.scsp.ai/wp-content/uploads/2024/10/Datas-Role-in-Unlocking-Scientific-Potential-Paper.pdf
[3] https://www.cigionline.org/publications/the-age-of-ai-nationalism-and-its-effects/
[4] https://blog.pragmaticengineer.com/spare-cores/
#opendata #ai #ideas #readings
OECD
G7 Toolkit for Artificial Intelligence in the Public Sector
This Toolkit is a comprehensive guide designed to help policymakers and public sector leaders translate principles for safe, secure, and trustworthy Artificial Intelligence (AI) into actionable policies. AI can help improve the efficiency of internal operations…
Возвращаю на голову шляпу дата инженера и продолжаю про разные инструменты.
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas