Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts
🔥5❤4👍1
Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.
Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.
Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.
Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем
Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb
#opensource #ai #data
Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.
Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.
Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем
Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb
#opensource #ai #data
🤔4😐2
Про применение ИИ в отношении официальной статистики AI Assistant [1] в статслужбе Италии ISTAT. К слову разговоры про ИИ в официальной статистике идут давно, но неспешно. Например, в презентации из Института статистики Португалии за 2024 год [2] был обзор инициатив, но практически все они про машинное обучение.
Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.
У UNECE есть подборка кейсов применения ИИ для статистики [4].
Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.
Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/
#statistics #ai #data
Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.
У UNECE есть подборка кейсов применения ИИ для статистики [4].
Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.
Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/
#statistics #ai #data
⚡3👍2
Статья Teachers Are Not OK [1] в 404 Media о том как LLM повлияли на образование в США через взгляд учителей. Если вкратце, то взгляды апокалиптичные. Автор собрал полученные письма от учителей после предыдущей его статьи на тему LLM в образовании и получил ещё более яркую картину того как учителя смотрят на происходящее.
Кстати, стоит исходить из того что в США использование LLM студентами стало массовым довольно быстро, но это происходит по всему миру.
Уверен что многие читающие меня преподают, что скажете о своём опыте? Ваши студенты уже все используют LLM? И как меняется процесс обучения?
Ссылки:
[1] https://www.404media.co/teachers-are-not-ok-ai-chatgpt/
#ai #teaching #readings
Кстати, стоит исходить из того что в США использование LLM студентами стало массовым довольно быстро, но это происходит по всему миру.
Уверен что многие читающие меня преподают, что скажете о своём опыте? Ваши студенты уже все используют LLM? И как меняется процесс обучения?
Ссылки:
[1] https://www.404media.co/teachers-are-not-ok-ai-chatgpt/
#ai #teaching #readings
404 Media
Teachers Are Not OK
AI, ChatGPT, and LLMs "have absolutely blown up what I try to accomplish with my teaching."
🔥4⚡2
В рубрике как это устроено у них репозитории открытых научных данных Dataverse [1] - это программный продукт с открытым кодом репозитория научных данных, разработанный в Гарварде и имеющий более 129 инсталляций в мире, используемый для публикации именно научных данных с учётом их специфики: выдачи DOI, поддержки OAI-PMH, расширенных метаданных, разных режимов доступа и так далее.
Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]
Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.
Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/
#opendata #openaccess #datacatalogs
Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]
Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.
Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/
#opendata #openaccess #datacatalogs
✍4❤1❤🔥1
В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.
И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.
Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/
#opendata #geodata #datasets
И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.
Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/
#opendata #geodata #datasets
❤🔥10
🔥11😁9⚡1
В рубрике как это устроено у них портал визуализации статистики Саудовской Аравии DataSaudi [1]. Все данные представленные там происходят из официальной статистической службы страны и отличаются качественной визуальной подачей и разделением на тематики, регионы и их наглядное графическое отображение.
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
❤5😍5✍3
Продолжая про применение DuckDB для разного, то о чём я ранее не писал, это использование для задач подсчёта значения для последующей визуализации. Вот пример визуализации одного из старых слепков Dateno со взглядом на записи через типы каталогов данных. Можно увидеть и страны. Всё делается одной командой PIVOT которая разворачивает по колонкам значения по типам каталогов. Мне это нужно было для задачи оценки полноты (пустоты) по некоторым странам для измерения уровня покрытия Dateno. Можно увидеть что по некоторым странам есть только геоданные и показатели. Это одна из причин почему в Dateno есть сильный фокус на индексацию статистики, иначе не обеспечить разумное покрытие всех стран, а геоданных много потому что у многих стран есть геопорталы, но нет порталов открытых данных.
Это ещё не чистовой срез потому что там вперемешку коды стран и коды некоторых агрегатов, тем не менее весьма показательно. 100% покрытие стран сейчас только за счёт статистики. Это сейчас 71 страна и регион, все они бедные и развивающиеся страны.
Но, оговорюсь, это срез примерно полугодовой давности. Постепенно в Dateno будет больше не только статистики по странам, но и других датасетов, однако без статпоказателей просто никак.
А DuckDB очень удобный инструмент для подобных задач.
#datasets #datasearch #duckdb
Это ещё не чистовой срез потому что там вперемешку коды стран и коды некоторых агрегатов, тем не менее весьма показательно. 100% покрытие стран сейчас только за счёт статистики. Это сейчас 71 страна и регион, все они бедные и развивающиеся страны.
Но, оговорюсь, это срез примерно полугодовой давности. Постепенно в Dateno будет больше не только статистики по странам, но и других датасетов, однако без статпоказателей просто никак.
А DuckDB очень удобный инструмент для подобных задач.
#datasets #datasearch #duckdb
👍12🔥1
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Telegram
Ivan Begtin
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского…
✍4❤2👍2
Про "российский мессенжер" на базе VK идёт много разговоров после выступления Максута Шадаева, я бы тоже поиронизировал, да и почему "мессенжер", а не "вестоноша", к примеру, но давайте серьёзнее что так и что не так.
Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.
Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.
Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.
Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогдакузнец VK? Кузнец VK тут не нужен
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)
#russia #digital
Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.
Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.
Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.
Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогда
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)
#russia #digital
💯33👍4🤣3❤2