Про применение ИИ в отношении официальной статистики AI Assistant [1] в статслужбе Италии ISTAT. К слову разговоры про ИИ в официальной статистике идут давно, но неспешно. Например, в презентации из Института статистики Португалии за 2024 год [2] был обзор инициатив, но практически все они про машинное обучение.
Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.
У UNECE есть подборка кейсов применения ИИ для статистики [4].
Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.
Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/
#statistics #ai #data
Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.
У UNECE есть подборка кейсов применения ИИ для статистики [4].
Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.
Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/
#statistics #ai #data
Статья Teachers Are Not OK [1] в 404 Media о том как LLM повлияли на образование в США через взгляд учителей. Если вкратце, то взгляды апокалиптичные. Автор собрал полученные письма от учителей после предыдущей его статьи на тему LLM в образовании и получил ещё более яркую картину того как учителя смотрят на происходящее.
Кстати, стоит исходить из того что в США использование LLM студентами стало массовым довольно быстро, но это происходит по всему миру.
Уверен что многие читающие меня преподают, что скажете о своём опыте? Ваши студенты уже все используют LLM? И как меняется процесс обучения?
Ссылки:
[1] https://www.404media.co/teachers-are-not-ok-ai-chatgpt/
#ai #teaching #readings
Кстати, стоит исходить из того что в США использование LLM студентами стало массовым довольно быстро, но это происходит по всему миру.
Уверен что многие читающие меня преподают, что скажете о своём опыте? Ваши студенты уже все используют LLM? И как меняется процесс обучения?
Ссылки:
[1] https://www.404media.co/teachers-are-not-ok-ai-chatgpt/
#ai #teaching #readings
404 Media
Teachers Are Not OK
AI, ChatGPT, and LLMs "have absolutely blown up what I try to accomplish with my teaching."
В рубрике как это устроено у них репозитории открытых научных данных Dataverse [1] - это программный продукт с открытым кодом репозитория научных данных, разработанный в Гарварде и имеющий более 129 инсталляций в мире, используемый для публикации именно научных данных с учётом их специфики: выдачи DOI, поддержки OAI-PMH, расширенных метаданных, разных режимов доступа и так далее.
Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]
Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.
Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/
#opendata #openaccess #datacatalogs
Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]
Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.
Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/
#opendata #openaccess #datacatalogs
В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.
И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.
Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/
#opendata #geodata #datasets
И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.
Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/
#opendata #geodata #datasets
В рубрике как это устроено у них портал визуализации статистики Саудовской Аравии DataSaudi [1]. Все данные представленные там происходят из официальной статистической службы страны и отличаются качественной визуальной подачей и разделением на тематики, регионы и их наглядное графическое отображение.
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
Продолжая про применение DuckDB для разного, то о чём я ранее не писал, это использование для задач подсчёта значения для последующей визуализации. Вот пример визуализации одного из старых слепков Dateno со взглядом на записи через типы каталогов данных. Можно увидеть и страны. Всё делается одной командой PIVOT которая разворачивает по колонкам значения по типам каталогов. Мне это нужно было для задачи оценки полноты (пустоты) по некоторым странам для измерения уровня покрытия Dateno. Можно увидеть что по некоторым странам есть только геоданные и показатели. Это одна из причин почему в Dateno есть сильный фокус на индексацию статистики, иначе не обеспечить разумное покрытие всех стран, а геоданных много потому что у многих стран есть геопорталы, но нет порталов открытых данных.
Это ещё не чистовой срез потому что там вперемешку коды стран и коды некоторых агрегатов, тем не менее весьма показательно. 100% покрытие стран сейчас только за счёт статистики. Это сейчас 71 страна и регион, все они бедные и развивающиеся страны.
Но, оговорюсь, это срез примерно полугодовой давности. Постепенно в Dateno будет больше не только статистики по странам, но и других датасетов, однако без статпоказателей просто никак.
А DuckDB очень удобный инструмент для подобных задач.
#datasets #datasearch #duckdb
Это ещё не чистовой срез потому что там вперемешку коды стран и коды некоторых агрегатов, тем не менее весьма показательно. 100% покрытие стран сейчас только за счёт статистики. Это сейчас 71 страна и регион, все они бедные и развивающиеся страны.
Но, оговорюсь, это срез примерно полугодовой давности. Постепенно в Dateno будет больше не только статистики по странам, но и других датасетов, однако без статпоказателей просто никак.
А DuckDB очень удобный инструмент для подобных задач.
#datasets #datasearch #duckdb
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Telegram
Ivan Begtin
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского…
Про "российский мессенжер" на базе VK идёт много разговоров после выступления Максута Шадаева, я бы тоже поиронизировал, да и почему "мессенжер", а не "вестоноша", к примеру, но давайте серьёзнее что так и что не так.
Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.
Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.
Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.
Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогдакузнец VK? Кузнец VK тут не нужен
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)
#russia #digital
Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.
Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.
Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.
Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогда
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)
#russia #digital
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.
Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом
кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту
Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций
Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API
Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian
Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования
Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜
Список неполный, ещё большая коллекция инструментов для локальных LLM
Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.
#personal #software #recovery
Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом
кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту
Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций
Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API
Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian
Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования
Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜
Список неполный, ещё большая коллекция инструментов для локальных LLM
Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.
#personal #software #recovery
В рубрике полезных ссылок про данные, технологии и не только:
- DTAI Sports Analytics Lab лаборатория в бельгийском университете KU Leuven посвящённая спортивной аналитике и футболу в частности. Несколько инструментов и много публикаций о предсказании результатов футбольных матчей с помощью машинного обучения
- Kicking the Tires on CedarDB's SQL обзор CedarDB, это такая инновационная база данных создаваемая в TUM и совместимая с Postgres. О ней полезно читать для понимания как разработка современных реляционных баз ведётся и сложности в оптимизации запросов
- Gravitino новый геораспределенный каталог метаданных с открытым кодом, заявлено много чего, но надо смотреть подробнее. Это не из тех каталогов которые создаются для документирования и комплаенс с контролем перс данных, а из тех каталогов которые позволяют централизовано управлять озерами и хранилищами, например, на Iceberg.
- quarkdown синтаксис и инструмент на базе Markdown для подготовки книг/статей/больших текстов. По сути под замену Latex и с ним же его и сравнивают. Наиболее близкая альтернатива ему это Typst созданный с теми же целями
- DataHub Secures $35 Million Series B о том что DataHub, создатели одноимённого каталога метаданных, подняли $35m инвестиций на применение ИИ для управления метаданными. Учитывая что DataHub сильно просел по разработке в сравнении с OpenMetadata - это скорее хорошая новость.
#opensource #analytics
- DTAI Sports Analytics Lab лаборатория в бельгийском университете KU Leuven посвящённая спортивной аналитике и футболу в частности. Несколько инструментов и много публикаций о предсказании результатов футбольных матчей с помощью машинного обучения
- Kicking the Tires on CedarDB's SQL обзор CedarDB, это такая инновационная база данных создаваемая в TUM и совместимая с Postgres. О ней полезно читать для понимания как разработка современных реляционных баз ведётся и сложности в оптимизации запросов
- Gravitino новый геораспределенный каталог метаданных с открытым кодом, заявлено много чего, но надо смотреть подробнее. Это не из тех каталогов которые создаются для документирования и комплаенс с контролем перс данных, а из тех каталогов которые позволяют централизовано управлять озерами и хранилищами, например, на Iceberg.
- quarkdown синтаксис и инструмент на базе Markdown для подготовки книг/статей/больших текстов. По сути под замену Latex и с ним же его и сравнивают. Наиболее близкая альтернатива ему это Typst созданный с теми же целями
- DataHub Secures $35 Million Series B о том что DataHub, создатели одноимённого каталога метаданных, подняли $35m инвестиций на применение ИИ для управления метаданными. Учитывая что DataHub сильно просел по разработке в сравнении с OpenMetadata - это скорее хорошая новость.
#opensource #analytics
Forwarded from ministryofpoems
Сделано_людьми_Последняя_рукопись.pdf
79.9 KB
Отчаяние толкает нас на безумные поступки. Такие как, например, прийти в тюрьму и сказать "Посадите меня!", но это было бы слишком просто, да бесплатно ныне в тюрьму не сядешь. Нужно совершить что-то достаточно преступное чтобы тебя арестовали, но недостаточно чтобы тебе вживили чип и отправили на общественные работы. Времена то поменялись, когда-то общественные работы - это было самое лёгкое наказание, идёшь себе метёшь улицы или работаешь санитаром. Всё то наказание - это убирать гавно и уставать до изнеможения, а тюрьма была настоящим наказанием. Всё теперь наоборот, тюрьма - это чуть ли не единственный способ изолироваться от общества, а "общественные работы" теперь это когда тебе внедряют чип-зомби в голову и ты беснуешься внутри своего тела пока оно тебе не принадлежит и выполняет всю ту же грязную работу.
Но я не убийца и не вор – я писатель, которого обвинили в самом страшном преступлении нашего времени: в использовании искусственного интеллекта для создания своих произведений ...
Но я не убийца и не вор – я писатель, которого обвинили в самом страшном преступлении нашего времени: в использовании искусственного интеллекта для создания своих произведений ...