Есть задачи для которых LLM совсем не годятся, а есть те которые годятся очень даже. Например, есть довольно узкая, но очень частая задача автоматического документирования данных.
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
Я совсем недавно несколько раз писал лонгриды в рассылке о том как работать со статистическими данными и как их публикуют:
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics
Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.
1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)
2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата
3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных
Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады
4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.
5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).
6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.
#opendata #statistics #sdmx #data #dataengineering
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics
Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.
1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)
2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата
3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных
Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады
4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.
5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).
6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.
#opendata #statistics #sdmx #data #dataengineering