Полезные ссылки про данные, технологии и не только:
- Artifacts бета версия версионированного хранилища файлов с доступом через Git. Продукт от Cloudflare, под использование ИИ агентами и легким созданием новых репозиторий. Выглядит интересно, под ИИ продукты особенно (а может быть только для них). Из необычного - написан на Zig
- AI Summer, Data Winter: What the AI Index Reveals — and What It Doesn’t Yet Measure статья об исчерпании данных для обучения ИИ и о data winter, сжиманию открытости данных из-за ИИ хайпа. Полезно почитать это и другие статьи автора
- isitagentready.com еще один сервис от Cloudflare который определяет готов ли Ваш сайт для ИИ агентов. Возникает вопрос - а хорошо ли если он готов и плохо ли если не готов? В чем больше выгоды?
- Inside Notion про культуру внутри Notion, читать интересно, хороший жанр
#ai #tools #services #readings
- Artifacts бета версия версионированного хранилища файлов с доступом через Git. Продукт от Cloudflare, под использование ИИ агентами и легким созданием новых репозиторий. Выглядит интересно, под ИИ продукты особенно (а может быть только для них). Из необычного - написан на Zig
- AI Summer, Data Winter: What the AI Index Reveals — and What It Doesn’t Yet Measure статья об исчерпании данных для обучения ИИ и о data winter, сжиманию открытости данных из-за ИИ хайпа. Полезно почитать это и другие статьи автора
- isitagentready.com еще один сервис от Cloudflare который определяет готов ли Ваш сайт для ИИ агентов. Возникает вопрос - а хорошо ли если он готов и плохо ли если не готов? В чем больше выгоды?
- Inside Notion про культуру внутри Notion, читать интересно, хороший жанр
#ai #tools #services #readings
The Cloudflare Blog
Artifacts: versioned storage that speaks Git
Give your agents, developers, and automations a home for code and data. We’ve just launched Artifacts: Git-compatible versioned storage built for agents. Create tens of millions of repos, fork from any remote, and hand off a URL to any Git client.
👍7❤1
В рубрике как это устроено у них в Ирландии позавчера национальный архив опубликовал данные переписи 1926 года и эти данные можно посмотреть наглядно на карте или в виде огромного архива 2 972 451 поименных записей (чуть менее 3 миллионов файлов и переписных карточек)
Как повезло ирландцам, столько исторических материалов. Есть же страны с работающими архивами и статслужбами.
Для полного счастья нехватает только получения этих данных как датасета, но его несложно создать.
#opendata #ireland #census
Как повезло ирландцам, столько исторических материалов. Есть же страны с работающими архивами и статслужбами.
Для полного счастья нехватает только получения этих данных как датасета, но его несложно создать.
#opendata #ireland #census
🔥6👍4❤🔥2✍1
В рубрике закрытых данных в РФ из открытого доступа исчезли данные судебной статистики с сайта Судебного департамента. По ссылке теперь сообщение Информация временно не доступна. Доступна страница в Интернет-архиве с последней копией 7 марта 2026 года и пока еще работают прямые ссылки на Excel файлы. Но, возможно, ненадолго.
Это данные небольшого объема, но значимые для исследователей правоохранительной системы России и журналистов.
#opendata #closeddata #russia #courts
Это данные небольшого объема, но значимые для исследователей правоохранительной системы России и журналистов.
#opendata #closeddata #russia #courts
😢11💊4✍1❤1🔥1
Вдогонку к исчезновению судебной статистики. У меня есть копия статистики судебного департамента с 2005 года по 1-е полугодие 2025 года. Всего 502 Excel файла общим объёмом в 173MB
С одной стороны это немного, а с другой стороны бывает нужно. Если суддеп доступ к данным не вернет или если кто-то в более качеством виде их не опубликует, я их где-то размещу в одном из каталогов открытых данных.
P.S. Возможно надо сделать еще архивы обзоров статистических данных которые Верховный суд и суддеп публикуют
#opendata #closeddata #datasets #courts #russia
С одной стороны это немного, а с другой стороны бывает нужно. Если суддеп доступ к данным не вернет или если кто-то в более качеством виде их не опубликует, я их где-то размещу в одном из каталогов открытых данных.
P.S. Возможно надо сделать еще архивы обзоров статистических данных которые Верховный суд и суддеп публикуют
#opendata #closeddata #datasets #courts #russia
Telegram
Ivan Begtin
В рубрике закрытых данных в РФ из открытого доступа исчезли данные судебной статистики с сайта Судебного департамента. По ссылке теперь сообщение Информация временно не доступна. Доступна страница в Интернет-архиве с последней копией 7 марта 2026 года и пока…
👍16✍6🔥2😁1
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода
#opensource #ai #readings
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода
#opensource #ai #readings
MIT Press
Auditing AI
Our lives are increasingly governed by automated systems influencing everything from medical care to policing to employment opportunities, but researchers an...
👍4❤2🔥1
A Day in the Life of an Ensh*ttificator прекрасное видео про работу эншитификаторов, тех кто целенаправленно портит продукты. Даже интересно 'то product owner'ов в big tech'ах или уже выделенная роль? Это, конечно, не только про ИТ, а про все потребительские продукты.
Само видео не вставляю, оно большого размера, зато дает ответ почему что-то вначале работает хорошо, а потом превращается в говно.
Потому что есть специальные люди умеющие делать это shitty. Особая профессия.
Кстати как перевести её на русский: уговнитель продукта, обговнитель продукта (пардон за мой русский). Давайте устроим конкурс на русский перевод enshittificator'а
Ссылка ведет на видео на youtube, сам ролик подготовлен Норвежским потребительским советом Forbrukerrådet и уже набрало 3 миллиона просмотров.
Выглядит сначала как пародия, но это не пародия😎
Само видео не вставляю, оно большого размера, зато дает ответ почему что-то вначале работает хорошо, а потом превращается в говно.
Потому что есть специальные люди умеющие делать это shitty. Особая профессия.
Кстати как перевести её на русский: уговнитель продукта, обговнитель продукта (пардон за мой русский). Давайте устроим конкурс на русский перевод enshittificator'а
Ссылка ведет на видео на youtube, сам ролик подготовлен Норвежским потребительским советом Forbrukerrådet и уже набрало 3 миллиона просмотров.
Выглядит сначала как пародия, но это не пародия
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11😁7💯3❤2👍2
Новая внедрямая база данных SlothDB умеющая читать разного рода дата файлы вроде parquet, csv, json, avro и о которой автор пишет что она быстрее DuckDB.
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
👍9❤3
Свежий доклад The 2026 AI Index Report про тренды в ИИ в создании продуктов, регулировании и тд от Стэнфордского университета (кто бы мог подумать, но он в РФ признан нежелательной организацией).
Основные выводы:
1. ИИ продукты стремительно развиваются, плато не достигнуто
2. США лидируют по возможностям и числу дата центров
3. Компании в США и Китае основные лидеры, с таким отрывом что остальных можно даже не рассматривать
4. США лидируют в инвестициях в ИИ, но возможность привлекать таланты снижается
5. ИИ суверенитет все более значимая тема для национальных правительств
6. Число ИИ инцидентов растет
7. Большой разрыв в восприятии ИИ экспертами и гражданами. Эксперты позитивны, общественность негативна.
Чтение полезное, достаточно просто чтобы было понятно, недостаточно просто чтобы было бесполезным.
Там еще много чего интересного в самом документе отчета, например, снижение прозрачности Foundation Models (индекс FMTI).
Это далеко не все, отчет в PDF на 425 страниц и там очень многие аспекты разобраны.
Россия упоминается минимально, только в контексте числа ИИ законов и числа дата центров. Малые страны упоминаются только в контексте языковых бенчмарков.
Повторюсь, что это хорошее чтение, стоит в него погрузиться.
#readings #ai
Основные выводы:
1. ИИ продукты стремительно развиваются, плато не достигнуто
2. США лидируют по возможностям и числу дата центров
3. Компании в США и Китае основные лидеры, с таким отрывом что остальных можно даже не рассматривать
4. США лидируют в инвестициях в ИИ, но возможность привлекать таланты снижается
5. ИИ суверенитет все более значимая тема для национальных правительств
6. Число ИИ инцидентов растет
7. Большой разрыв в восприятии ИИ экспертами и гражданами. Эксперты позитивны, общественность негативна.
Чтение полезное, достаточно просто чтобы было понятно, недостаточно просто чтобы было бесполезным.
Там еще много чего интересного в самом документе отчета, например, снижение прозрачности Foundation Models (индекс FMTI).
Это далеко не все, отчет в PDF на 425 страниц и там очень многие аспекты разобраны.
Россия упоминается минимально, только в контексте числа ИИ законов и числа дата центров. Малые страны упоминаются только в контексте языковых бенчмарков.
Повторюсь, что это хорошее чтение, стоит в него погрузиться.
#readings #ai
👍9✍4❤3🔥3🌚1
Я вчера практически весь день провел на CAIGF (Central Asian Intenet Governance Forum), говорил, как всегда про данные, рассказывал немного про Dateno и Open Data Armenia, про дефицит открытых данных в странах Центральной Азии, сильном сдвиге публикации данных в сторону ИИ, в том что важно устанавливать приоритет на дата продукты и о том что вне зависимости от того открыты данные или нет, должны быть доступны метаданные и четкие условия доступа к данным разного типа, от полностью открытых (открытые данные под свободными лицензиями) до доступных ограниченному числу пользователей по четким регламентам.
Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.
Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.
#opendata #data #conferences #centralasia #thoughts
Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.
Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.
#opendata #data #conferences #centralasia #thoughts
🔥10❤6✍5👌2
Ещё один симпатичный продукт в стиле Dashboard-as-a-code, он так и называется dac. Это тип продуктов в которых содержимое и стиль отображение графиков и других элементов дашбордов задается декларативным программированием, обычно YAML файлами.
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
👍7✍5🙏2❤1
Где ИИ инструменты были бы полезны и где их нет. Автоматизация работы с почтой
Я смотрю на свои повседневные инструменты и сервисы с которыми я работаю и рефлексирую о том где ИИ ассистенты были бы очень полезны и где их нет. Вот пример подобного.
У меня более 31 тысячи писем в основном почтовом ящике и около 8600 во втором и по нескольку тысяч в других. Даже при том что я придерживаюсь практики zero inbox, в нем, все равно, накапливается до 300-400 писем в входящих. И тут кажется что совершенно естественно применять ИИ ассистента который бы по команде умел бы структурировать и каталогизировать входящие письма. У Google есть встраивание Gemini в Gmail, но проблема в том что Gemini там на все запросы выдает инструкции и ничего сам не делает.
Есть внешние инструменты вроде Manus которые умеют подключаться к Gmail и даже писать код который разметит и рассортирует все письма или подключение ChatGPT к Outlook Email, но совсем не хочется давать доступ внешнему сервису к своей почте. Тем более поскольку нет желания обучать его на своих письмах.
Я подозреваю что такие ассистенты для почты постепенно появляются внутри наиболее массовых продуктов (тот же Gemini внутри Gmail), но пока недостаточно хорошо. А стартапы вроде Superhuman Mail или Inbox Zero, ИМХО, имеют мало перспектив поскольку экосистемы вроде Google или Microsoft сильно выигрывают.
Кроме того есть ощущение что интерфейсы к почте используемые ИИ ассистентами, мягко говоря, неэффективны. Обработку почту внутри самого сервиса можно было бы колоссально оптимизировать использовать внутреннее API.
Подозреваю что, всё таки, все пойдет скорее по пути стыковки ИИ агентов крупных AI BigTech'ов со своими аккаунтами и управление через них с разными защитными механизмами вроде обязательных бэкапов и тд.
#ai #thoughts #email #productivity
Я смотрю на свои повседневные инструменты и сервисы с которыми я работаю и рефлексирую о том где ИИ ассистенты были бы очень полезны и где их нет. Вот пример подобного.
У меня более 31 тысячи писем в основном почтовом ящике и около 8600 во втором и по нескольку тысяч в других. Даже при том что я придерживаюсь практики zero inbox, в нем, все равно, накапливается до 300-400 писем в входящих. И тут кажется что совершенно естественно применять ИИ ассистента который бы по команде умел бы структурировать и каталогизировать входящие письма. У Google есть встраивание Gemini в Gmail, но проблема в том что Gemini там на все запросы выдает инструкции и ничего сам не делает.
Есть внешние инструменты вроде Manus которые умеют подключаться к Gmail и даже писать код который разметит и рассортирует все письма или подключение ChatGPT к Outlook Email, но совсем не хочется давать доступ внешнему сервису к своей почте. Тем более поскольку нет желания обучать его на своих письмах.
Я подозреваю что такие ассистенты для почты постепенно появляются внутри наиболее массовых продуктов (тот же Gemini внутри Gmail), но пока недостаточно хорошо. А стартапы вроде Superhuman Mail или Inbox Zero, ИМХО, имеют мало перспектив поскольку экосистемы вроде Google или Microsoft сильно выигрывают.
Кроме того есть ощущение что интерфейсы к почте используемые ИИ ассистентами, мягко говоря, неэффективны. Обработку почту внутри самого сервиса можно было бы колоссально оптимизировать использовать внутреннее API.
Подозреваю что, всё таки, все пойдет скорее по пути стыковки ИИ агентов крупных AI BigTech'ов со своими аккаунтами и управление через них с разными защитными механизмами вроде обязательных бэкапов и тд.
#ai #thoughts #email #productivity
❤10👍5🔥3✍1
Снова ожил портал открытых данных Москвы data.mos.ru и он даже регулярно обновляется. Это плюс. Никаких объяснений что с ним случилось не последовало, это минус.
#opendata #moscow #russia
#opendata #moscow #russia
😁13🔥6❤4👏2⚡1
Я только-только хотел написать что блокировки VPN уже не столько и не только убивают российскую ИТ отрасль, как оставшуюся, пока что, в живых науку, как нашел текст в канале Алексея Хохлова в котором про то же самое.
Я бы тут сформулировал так, что из множество профессий у ИТшников всегда было чуть больше свободы отъезда из России из-за возможности дистанционной работы и хотя бы технического знания английского языка. А у исследователей глобальная востребованность в тех специализациях где была и есть возможность коммуницировать с зарубежными коллегами и где есть "живая наука", со спросом и предложением и инвестициями.
Я знаю многих людей из академических организаций которые пользовались, да и пользуются изнутри России VPN'ами не только чтобы обойти блокировки РКН, но даже чаще чтобы обойти блокировки в зарубежных сервисах связанных с их научной работой. Да, российские подсети уже несколько лет как блокируются на многих таких сервисах и доступ к данным, публикациям и сервисам может быть заблокирован.
Вообще я не могу не вернуться к той мысли что блокировки VPN и ограничения Интернета, телеграма и тд. это когда ради политических решений идеи разрушение коммуникации, экономики, общественных отношений и принципиальной возможности для самореализации.
Не буду расписывать в подробностях к чему это приведет, но точно не к тому что спрос на доступ в Интернет куда-то исчезнет.
#thoughts
Я бы тут сформулировал так, что из множество профессий у ИТшников всегда было чуть больше свободы отъезда из России из-за возможности дистанционной работы и хотя бы технического знания английского языка. А у исследователей глобальная востребованность в тех специализациях где была и есть возможность коммуницировать с зарубежными коллегами и где есть "живая наука", со спросом и предложением и инвестициями.
Я знаю многих людей из академических организаций которые пользовались, да и пользуются изнутри России VPN'ами не только чтобы обойти блокировки РКН, но даже чаще чтобы обойти блокировки в зарубежных сервисах связанных с их научной работой. Да, российские подсети уже несколько лет как блокируются на многих таких сервисах и доступ к данным, публикациям и сервисам может быть заблокирован.
Вообще я не могу не вернуться к той мысли что блокировки VPN и ограничения Интернета, телеграма и тд. это когда ради политических решений идеи разрушение коммуникации, экономики, общественных отношений и принципиальной возможности для самореализации.
Не буду расписывать в подробностях к чему это приведет, но точно не к тому что спрос на доступ в Интернет куда-то исчезнет.
#thoughts
Telegram
Алексей Хохлов
Новость о том, что на борьбу с VPN предполагается выделить сумму, равную годовому бюджету Российского научного фонда, сегодня вызвала предсказуемую эмоциональную реакцию ведущих ТГ-каналов российского научного сообщества:
https://t.me/trueresearch/2121
…
https://t.me/trueresearch/2121
…
💯31💔12⚡4❤3
Datatype симпатичный инструмент построения графиков реализованный в виде шрифта и превращающий текст в графики. Я такое ранее видел в sparks где тоже можно было делать минималистичные линейные графики с помощью шрифта, а тут более проработанный и зрелый продукт.
Казалось бы ерунда, но это не так поскольку дает возможность резкого ускорения подгрузки дашбордов, отчетов, графиков и иной визуализации за счет сокращения обращений к серверу, отсутствия подгружаемых изображений и так далее.
Там где считаются миллисекунды и где супер-пупер интерактивная визуализация не нужна - это прямо таки находка.
#opensource #dataviz
Казалось бы ерунда, но это не так поскольку дает возможность резкого ускорения подгрузки дашбордов, отчетов, графиков и иной визуализации за счет сокращения обращений к серверу, отсутствия подгружаемых изображений и так далее.
Там где считаются миллисекунды и где супер-пупер интерактивная визуализация не нужна - это прямо таки находка.
#opensource #dataviz
🔥15❤🔥4😁3❤1