Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный навоплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
Я недавно рассказывал что в качестве хобби занимаюсь написанием коротких наивных фантастических рассказов в стиле утопий и антиутопий. Причём поскольку прозаический опыт у меня ограниченный, я пытаюсь писать их по науке: видение -> синопсис - > пара тестовых глав -> основной текст. Это хорошая разминка для ума для которой я постоянно собираю контекст и наша антиутопическая реальность, конечно, даёт много идей.
Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.
У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).
Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.
А какие варианты будущего как контекста видите вы?
#thoughts #writings
Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.
У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).
Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.
А какие варианты будущего как контекста видите вы?
#thoughts #writings
Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
В рубрике, как это устроено у них, историческая статистика Италии [1] на портале Serie storiche (Timeseries) статистической службы Италии. Включает данные 1500 индикаторов по 22 темам начиная с 19 века, пока некоторым индикаторам с 1854 года.
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
В рубрике как это устроено у них статистический портал Банка Франции Webstat [1]. Содержит более 40 тысяч временных рядов из 38 баз данных/наборов данных.
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode
Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts