TRAIGA. Texas Responsible Artificial Intelligence Governance Act. Свежий закон штата Техас накладывающий обязательства на компании ИИ предоставляющие услуги гражданам, в первую очередь чат-боты, госорганы использующие ИИ.
TRAIGA запрещает создание или использование ИИ-систем с намерением:
- Побуждать к самоубийству, вреду себе или другим, или к преступной деятельности
- Нарушать или ограничивать чьи-то федеральные конституционные права
- Наносить незаконную дискриминацию против защищённых классов (например, по расе, полу, возрасту и т. д.).
- Создавать или распространять детскую порнографию или неправомерные дипфейки, включая текстовые системы, обманывающие пользователей, выдавая себя за ребёнка
А также госорганам запрещается использовать ИИ для социального скоринга и госорганы обязываются уведомлять пользователя простым и понятным языком о том что те взаимодействуют с ИИ.
Это не все изменения, о них стоит почитать в обзорах законов. Он вступает в силу с 1 января 2026 года.
#regulation #usa #ai
TRAIGA запрещает создание или использование ИИ-систем с намерением:
- Побуждать к самоубийству, вреду себе или другим, или к преступной деятельности
- Нарушать или ограничивать чьи-то федеральные конституционные права
- Наносить незаконную дискриминацию против защищённых классов (например, по расе, полу, возрасту и т. д.).
- Создавать или распространять детскую порнографию или неправомерные дипфейки, включая текстовые системы, обманывающие пользователей, выдавая себя за ребёнка
А также госорганам запрещается использовать ИИ для социального скоринга и госорганы обязываются уведомлять пользователя простым и понятным языком о том что те взаимодействуют с ИИ.
Это не все изменения, о них стоит почитать в обзорах законов. Он вступает в силу с 1 января 2026 года.
#regulation #usa #ai
Gtlaw
TRAIGA: Key Provisions of Texas’ New Artificial Intelligence Governance Act | Insights | Greenberg Traurig LLP
Texas passes the Responsible Artificial Intelligence Governance Act, setting new AI rules, disclosure requirements, and penalties for developers and government entities.
✍4👍4🔥1
The State of Python 2025 результаты исследования на основе опросов Python разработчиков от команды PyCharm.
Ключевые выводы:
1. 51%+ разработчиков используют Python для работы с данными
2. Существенный рост использования FastAPI
3. Каждый третий разработчик контрибьютит в открытый код
4. Существенный рост числа модулей на Python написанных на Rust
5. Среди баз данных доминирует PostgreSQL
6. Почти половина разработчиков уже используют или планируют использовать AI агентов
#opensource #python #trends
Ключевые выводы:
1. 51%+ разработчиков используют Python для работы с данными
2. Существенный рост использования FastAPI
3. Каждый третий разработчик контрибьютит в открытый код
4. Существенный рост числа модулей на Python написанных на Rust
5. Среди баз данных доминирует PostgreSQL
6. Почти половина разработчиков уже используют или планируют использовать AI агентов
#opensource #python #trends
👍8❤1
В Великобритании Правительство объявило о финансировании конкурса на создание продуктов на основе ИИ по мониторингу и предупреждению преступлений. Сейчас уже выделили £4 миллиона на создание прототипов, а до 2030 года планируют запустить полноценно работающую систему способную предсказывать преступления в конкретных локациях. Это не как в фильме Особое мнение, а, по сути, некоторая вероятностная модель, но ИМХО, неизбежно когда такие системы смогут работать в реальном времени и отслеживать вероятность преступлений не просто по критериям места, а по критериям наличия в конкретных местах лиц определённой категории.
Я помню что в Великобритании - это не первый проект в этом направлении у них как минимум было множество больших экспериментов по интеграции баз данных и профилактики преступлений. Эксперименты были не то чтобы очень результативные, но, как видно, тенденция сохраняется.
И не стоит думать что подобное не проектируют и не делают в странах где об этом публично не заявляют.
#policy #ai #crime #uk
Я помню что в Великобритании - это не первый проект в этом направлении у них как минимум было множество больших экспериментов по интеграции баз данных и профилактики преступлений. Эксперименты были не то чтобы очень результативные, но, как видно, тенденция сохраняется.
И не стоит думать что подобное не проектируют и не делают в странах где об этом публично не заявляют.
#policy #ai #crime #uk
GOV.UK
AI to help police catch criminals before they strike
Government launches AI crime prevention challenge to support safer streets.
✍2👍2🔥2🙏2🤨2
Ещё один слегка нестандартный каталог и сервис работы с данными Cecil. Это сервис доступа к геоданным через API причём устроен он так что там есть только сайт визитка, а всё остальное, включая регистрацию пользователя делается через API запросы. Все примеры описывают работу с данными через Geopandas, а список датасетов приведен в документации.
В итоге основная фича в получении доступа к гармонизированным геоданным с возможностью их получения и обработки в определённой территории.
Вообще же каталоги геоданных явно развиваются в сторону API first, в большей степени чем многие другие данные.
#opendata #geodata
В итоге основная фича в получении доступа к гармонизированным геоданным с возможностью их получения и обработки в определённой территории.
Вообще же каталоги геоданных явно развиваются в сторону API first, в большей степени чем многие другие данные.
#opendata #geodata
cecil.earth
Cecil makes nature datasets consistent, accessible, and ready for analysis.
👍4🙏1🌭1
Читаю хороший текст Metadata as a Data Model о восприятии метаданных как основы архитектуры данных и дата модели. Автор не из мира технологий, а консультант по онтологиям, что чувствуется в примерах из библиотечного мира и других предметных областей где проектирование моделей данных первично их технической реализации.
Что важно понимать про метаданные и стандарты, то что их существование это результат совместных размышлений, а то есть кто-то совместно хорошо подумал чтобы они появились и даже если эти стандарты неидеальны, они покрывают если не полностью то существенно сценарии применения данных в отношении которых они написаны. Через призму опыта их написавших, несомненно. Поэтому если Вы придумали какую-то спецификацию или стандарт в одиночку, то, скорее всего, это плохая спецификация. За очень редким исключением непревзойдённого опыта, но люди с таким опытом обычно понимают как спецификации разрабатываются и в одиночку их тоже не пишут.
Стандарты метаданных - это одновременно, фундамент и ограничитель. Шаблон мышления и практического воплощения и базовые знания для входа во многие профессии. Например, стандарт Dublin Core в какой-то момент вырос из AACR и MARC, стал основой для описания большей части онлайн контента даже если формально он в их описании не упомянут. Большая часть разработчиков, де-факто, описывают существующие или новые типы объектов аналогично, используя базовые шаблоны, в первую очередь естественности восприятия наличия определённых характеристик и параметров у этих объектов.
Это ведь кажется очевидным что у каждого объекта есть название, описание, дата когда он создан, дата когда он изменён и тд. Готовые стандарты и спецификации упрощают работу с любыми стандартизированными данными.
...
#metadata #dataannotations #dataarchitecture
Что важно понимать про метаданные и стандарты, то что их существование это результат совместных размышлений, а то есть кто-то совместно хорошо подумал чтобы они появились и даже если эти стандарты неидеальны, они покрывают если не полностью то существенно сценарии применения данных в отношении которых они написаны. Через призму опыта их написавших, несомненно. Поэтому если Вы придумали какую-то спецификацию или стандарт в одиночку, то, скорее всего, это плохая спецификация. За очень редким исключением непревзойдённого опыта, но люди с таким опытом обычно понимают как спецификации разрабатываются и в одиночку их тоже не пишут.
Стандарты метаданных - это одновременно, фундамент и ограничитель. Шаблон мышления и практического воплощения и базовые знания для входа во многие профессии. Например, стандарт Dublin Core в какой-то момент вырос из AACR и MARC, стал основой для описания большей части онлайн контента даже если формально он в их описании не упомянут. Большая часть разработчиков, де-факто, описывают существующие или новые типы объектов аналогично, используя базовые шаблоны, в первую очередь естественности восприятия наличия определённых характеристик и параметров у этих объектов.
Это ведь кажется очевидным что у каждого объекта есть название, описание, дата когда он создан, дата когда он изменён и тд. Готовые стандарты и спецификации упрощают работу с любыми стандартизированными данными.
...
#metadata #dataannotations #dataarchitecture
✍8❤2
Во Франции власти с 1 сентября для госслужащих стал обязательным мессенжер Tchap для всех рабочих коммуникаций.
Что важно про него знать:
1. Это мессенжер только для госслужащих, он не имеет статус "национального", граждане там не планируются
2. Он основан на открытом протоколе Matrix и сам он на базе открытого кода https://github.com/tchapgouv
3. Разработан французским министерством DINUM (вернее компанией Element по их заказу)
4. Это именно мессенжер, без всяких там функций медиа вроде каналов и тд. Он ориентирован на организацию приватного общения и только
5. Аналогичный госмессенжер есть в Германии, называется BundesMessenger, он ещё не обязательный для госслужащих, но потенциально может таким быть. Тоже с открытым кодом, тоже на базе протокола Matrix, тоже имеющий официальный статус.
6. В обоих мессенжерах французском и германском отсутствует слежка за пользователями, там нет встроенных коммерческих трекеров и это легко проверяется благодаря открытости кода.
Больше информации о Tchap в их презентации от сентября 2024 г. с конференции Matrix, можно узнать что и до обязательности он уже активно использовался.
#opensource #france #germany
Что важно про него знать:
1. Это мессенжер только для госслужащих, он не имеет статус "национального", граждане там не планируются
2. Он основан на открытом протоколе Matrix и сам он на базе открытого кода https://github.com/tchapgouv
3. Разработан французским министерством DINUM (вернее компанией Element по их заказу)
4. Это именно мессенжер, без всяких там функций медиа вроде каналов и тд. Он ориентирован на организацию приватного общения и только
5. Аналогичный госмессенжер есть в Германии, называется BundesMessenger, он ещё не обязательный для госслужащих, но потенциально может таким быть. Тоже с открытым кодом, тоже на базе протокола Matrix, тоже имеющий официальный статус.
6. В обоих мессенжерах французском и германском отсутствует слежка за пользователями, там нет встроенных коммерческих трекеров и это легко проверяется благодаря открытости кода.
Больше информации о Tchap в их презентации от сентября 2024 г. с конференции Matrix, можно узнать что и до обязательности он уже активно использовался.
#opensource #france #germany
👏22👍11🔥3
Полезные ссылки про данные, технологии и не только:
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.
#opensource #tools #ai #notetaking #aiagents #rdbms
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.
#opensource #tools #ai #notetaking #aiagents #rdbms
DuckDB
DuckDB in Science
A curated collection of papers, lectures, and podcasts exploring DuckDB in research and academia.
❤5✍3❤🔥1🔥1
Я чуть было это не пропустил, а оказывается в конце августа Microsoft передали в Linux Foundation выложенную в открытый код DocumentDB, NoSQL базу данных совместимую с MongoDB. Под свободной лицензией MIT, что выгодно отличает от самой MongoDB под превдо-открытой лицензией SSPL.
Документации там ещё скудновато, уровень совместимости с API MongoDB до конца не понятен, но он вроде как неплохой, поскольку основные операции в MongoDB там должны поддерживаться.
DocumentDB внутри работает на PostgresSQL и самая простая установка его через Docker (не самая правильная быть может), но есть и альтернативы. Непонятно что пока там с API из коробки, MongoDB в редакции сообщества не развивалось в сторону предоставления GraphQL по умолчанию, например, и API там было упрощённое, хочется надеяться что в будет дорожная карта где такое прояснится.
А вообще это всё напоминает историю с Elasticsearch vs OpenSearch.
#opensource #rdbms #data #tools
Документации там ещё скудновато, уровень совместимости с API MongoDB до конца не понятен, но он вроде как неплохой, поскольку основные операции в MongoDB там должны поддерживаться.
DocumentDB внутри работает на PostgresSQL и самая простая установка его через Docker (не самая правильная быть может), но есть и альтернативы. Непонятно что пока там с API из коробки, MongoDB в редакции сообщества не развивалось в сторону предоставления GraphQL по умолчанию, например, и API там было упрощённое, хочется надеяться что в будет дорожная карта где такое прояснится.
А вообще это всё напоминает историю с Elasticsearch vs OpenSearch.
#opensource #rdbms #data #tools
❤4👍3🤔1
Накопилось какое-то количество мыслей об открытом коде, попробую сформулировать их вслух.
1. Все сравнения open source проектов грешат акцентом на простые метрики которые, вроде числа коммитов всего и за последний месяц, числа issues и тд. Но нет сервиса дающего человекочитаемые инсайты. Включая ossinsight.io который даёт некоторые ответы, но не сводку. При этом облачные LLM'ки умеют давать качественные сводки по состоянию и развитию проектов, неидеальные, но весьма осмысленные. По моей практике Perplexity делает это лучше чем ChatGPT поскольку использует API Github'а, а Manus делает это ещё лучше анализом веб интерфейса, но странно что такого отдельного сервиса нет, он напрашивается, как минимум для двух задач. 1-я - это оценка "живости" проекта что актуально для многого, 2-я это оценка активности разработчика резюме которого ты рассматриваешь. Однако проанализировать сотни и тысячи репозиториев - это тяжёлая и дорогая задача с применением агентских LLM, их можно сильно улучшить. Тот же OSS Insights, но на стероидах.
2. Второй напрашивающийся продукт это измеритель риска оценивающий полную цепочку зависимостей проекта. Причём разных рисков, начиная с тех с зависимостей от заброшенных проектов, продолжая зависимостями от проектов где разработчики/компании расположены в недружественных странах (каких именно можно решить самим) что почти наверняка потребует связывания профилей в Github с LinkedIn что уже сложнее. Есть ощущение что существующие практики и инструменты оценивают, в основном, юридические риски связанные с лицензиями и незакрытые CVE.
3. Напрашивается маркетплейс задач в стиле "перепиши это с MIT лицензией". Когда у твоего проекта может быть зависимость от кода под GPL, SSPL и другими способами явного ограничения лицензий. Это не решает проблемы с тем что переписанный код может оказаться заброшенным, но тем не менее.
#thoughts #opensource
1. Все сравнения open source проектов грешат акцентом на простые метрики которые, вроде числа коммитов всего и за последний месяц, числа issues и тд. Но нет сервиса дающего человекочитаемые инсайты. Включая ossinsight.io который даёт некоторые ответы, но не сводку. При этом облачные LLM'ки умеют давать качественные сводки по состоянию и развитию проектов, неидеальные, но весьма осмысленные. По моей практике Perplexity делает это лучше чем ChatGPT поскольку использует API Github'а, а Manus делает это ещё лучше анализом веб интерфейса, но странно что такого отдельного сервиса нет, он напрашивается, как минимум для двух задач. 1-я - это оценка "живости" проекта что актуально для многого, 2-я это оценка активности разработчика резюме которого ты рассматриваешь. Однако проанализировать сотни и тысячи репозиториев - это тяжёлая и дорогая задача с применением агентских LLM, их можно сильно улучшить. Тот же OSS Insights, но на стероидах.
2. Второй напрашивающийся продукт это измеритель риска оценивающий полную цепочку зависимостей проекта. Причём разных рисков, начиная с тех с зависимостей от заброшенных проектов, продолжая зависимостями от проектов где разработчики/компании расположены в недружественных странах (каких именно можно решить самим) что почти наверняка потребует связывания профилей в Github с LinkedIn что уже сложнее. Есть ощущение что существующие практики и инструменты оценивают, в основном, юридические риски связанные с лицензиями и незакрытые CVE.
3. Напрашивается маркетплейс задач в стиле "перепиши это с MIT лицензией". Когда у твоего проекта может быть зависимость от кода под GPL, SSPL и другими способами явного ограничения лицензий. Это не решает проблемы с тем что переписанный код может оказаться заброшенным, но тем не менее.
#thoughts #opensource
👍7❤2🤔2✍1
Forwarded from Библиотека для открытой науки
📚 РАН открывает бесплатный доступ к архивам научных журналов
С 1 сентября предоставляется бесплатный доступ к материалам выпусков 141 научного журнала РАН, размещенных на Национальной платформе периодических научных изданий РЦНИ, по прошествии одного года с момента публикации.
Вице-президент РАН, академик РАН Владислав Панченко отметил: «Предоставление доступа к архивам научных журналов РАН реализует важнейшие принципы доступности результатов работы российских ученых и делает уникальные научные знания, накопленные в журналах РАН, достоянием самой широкой аудитории. Теперь студенты, аспиранты, исследователи из любых регионов России и всего мира смогут без ограничений знакомиться с публикациями по истечении года со дня публикации».
Источник: РЦНИ.
С 1 сентября предоставляется бесплатный доступ к материалам выпусков 141 научного журнала РАН, размещенных на Национальной платформе периодических научных изданий РЦНИ, по прошествии одного года с момента публикации.
Вице-президент РАН, академик РАН Владислав Панченко отметил: «Предоставление доступа к архивам научных журналов РАН реализует важнейшие принципы доступности результатов работы российских ученых и делает уникальные научные знания, накопленные в журналах РАН, достоянием самой широкой аудитории. Теперь студенты, аспиранты, исследователи из любых регионов России и всего мира смогут без ограничений знакомиться с публикациями по истечении года со дня публикации».
Источник: РЦНИ.
Telegram
РЦНИ: в центре событий
Ко Дню знаний РАН открывает бесплатный доступ к архивам научных журналов
С сегодняшнего дня предоставляется бесплатный доступ к материалам выпусков 141 научного журнала РАН, размещенных на Национальной платформе периодических научных изданий РЦНИ, по прошествии…
С сегодняшнего дня предоставляется бесплатный доступ к материалам выпусков 141 научного журнала РАН, размещенных на Национальной платформе периодических научных изданий РЦНИ, по прошествии…
❤13👍13✍2
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Новая версия сайта «Госзатрат» и 8000 исторических финансовых документов
Поздравляю подписчиков и коллег с Днем финансиста! Хочется пожелать финансовых потоков, профицита, финансовой грамотности, финансовых данных и понижение ключевой ставки.
К Дню финансиста мы подготовили релиз новой версии сайта проекта «Госзатраты» (clearspending.ru) - анонс всех изменений будет позже, пока только проспойлерю новые модули «Регионы» и «Отрасли», новую базу данных, обновленный дизайн, а также новый API (его использование потребует регистрации, но для перехода на него будет достаточно времени). Старую версию сайта можно найти по ссылке old.clearspending.ru, она заморожена и обновляться не будет.
Кроме «Госзатрат» мы обновили и наборы данных проекта «Цифровой архив госфинансов и госуправления» (ЦАГГ) - на сайте их уже 230, а общее количество загруженных документов превысило 8 тысяч (finlibrary.ru).
В телеграм-канале Цифрового архива мы рассказали о том, почему День финансиста празднуют 8 сентября (https://t.me/finlibraryru/78), и регулярно пишем об интересных находках в базе документов проекта, о финансистах и датасетах.
#ЦАГГ #Госзатраты #открытыеданные
Поздравляю подписчиков и коллег с Днем финансиста! Хочется пожелать финансовых потоков, профицита, финансовой грамотности, финансовых данных и понижение ключевой ставки.
К Дню финансиста мы подготовили релиз новой версии сайта проекта «Госзатраты» (clearspending.ru) - анонс всех изменений будет позже, пока только проспойлерю новые модули «Регионы» и «Отрасли», новую базу данных, обновленный дизайн, а также новый API (его использование потребует регистрации, но для перехода на него будет достаточно времени). Старую версию сайта можно найти по ссылке old.clearspending.ru, она заморожена и обновляться не будет.
Кроме «Госзатрат» мы обновили и наборы данных проекта «Цифровой архив госфинансов и госуправления» (ЦАГГ) - на сайте их уже 230, а общее количество загруженных документов превысило 8 тысяч (finlibrary.ru).
В телеграм-канале Цифрового архива мы рассказали о том, почему День финансиста празднуют 8 сентября (https://t.me/finlibraryru/78), и регулярно пишем об интересных находках в базе документов проекта, о финансистах и датасетах.
#ЦАГГ #Госзатраты #открытыеданные
clearspending.ru
Главная страница - «Госзатраты»
Общественный мониторинг государственных закупок в России — актуальная информация о контрактах, заказчиках, поставщиках и субсидиях. Аналитика и рейтинги по госзакупкам на главной странице.
1👍10❤2✍2⚡1🐳1
Для тех кто ищет данные по РФ, на хабе открытых данных опубликован слепок всех данных с data.gov.ru слепок включает все метаданных датасетов и копию всех данных в CSV формате, в едином архиве.
Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.
Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)
Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов
Это очень немного пользы, но хоть такая.
#opendata #datagovru #datasets #russia
Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.
Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)
Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов
Это очень немного пользы, но хоть такая.
#opendata #datagovru #datasets #russia
hubofdata.ru
Архив данных с портала data.gov.ru на 2025-09-06 - Хаб открытых данных
Архив метаданных и наборов данных с портала data.gov.ru Данные собирались 6 сентября 2025 г. Все данные собраны в формате CSV, без преобразований. Для сбора метаданных использовалось...
🔥5❤2🤔2
Для тех кто работает с данными на регулярной основе и любит командную строку:
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам
Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.
Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.
#data #tools #datatools
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам
Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.
Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.
#data #tools #datatools
❤8💯3✍2
Некоторые мысли про анализ данных с помощью LLM и не только:
1. Почти все инструменты рассуждения LLM вокруг документов ограничены работой в PDF файлами MS Office XML (.docx, .xlsx, .pptx). Из этого перечня почти всегда выпадает старый формат MS Word (.doc) поскольку его преобразование почти всегда не из коробки и требует дополнительных усилий. Для их потокового преобразования нужны дополнительные конвееры, сервисы и тд.
2. Нет универсального API/программной библиотеки для доступа к LLM в том же Python. Каждый разработчик инструмента заморачивается отдельно поддержкой множества LLM провайдеров и настройкой доступа через множество переменных окружения которые выглядят как OPENAI_KEY, LLM_KEY, CLAUDE_KEY и далее до безобразия. Есть ощущение что этот слой коммуникации инструмента и выбора локальной/облачной LLM должен быть унифицирован. Я бы предположил что разработчики OS могут сделать это частью настроек OS и системного управления ключами, но пока всё меняется слишком быстро и у них могут быть свои интересы в привязке пользователей к собственным сервисам.
#thoughts #ai #data
1. Почти все инструменты рассуждения LLM вокруг документов ограничены работой в PDF файлами MS Office XML (.docx, .xlsx, .pptx). Из этого перечня почти всегда выпадает старый формат MS Word (.doc) поскольку его преобразование почти всегда не из коробки и требует дополнительных усилий. Для их потокового преобразования нужны дополнительные конвееры, сервисы и тд.
2. Нет универсального API/программной библиотеки для доступа к LLM в том же Python. Каждый разработчик инструмента заморачивается отдельно поддержкой множества LLM провайдеров и настройкой доступа через множество переменных окружения которые выглядят как OPENAI_KEY, LLM_KEY, CLAUDE_KEY и далее до безобразия. Есть ощущение что этот слой коммуникации инструмента и выбора локальной/облачной LLM должен быть унифицирован. Я бы предположил что разработчики OS могут сделать это частью настроек OS и системного управления ключами, но пока всё меняется слишком быстро и у них могут быть свои интересы в привязке пользователей к собственным сервисам.
#thoughts #ai #data
👍10✍2🌚1
Глядя на то что происходит с российским data.gov.ru и другими национальными порталами открытых данных я, пожалуй, готов сформулировать какие наборы данных могли бы публиковаться и которые можно было бы назвать датасетами особой ценности и которые, частично, упомянуты в нормативных документах ЕС, но далеко не все.
1. Базовые геоданные. Всё что формирует основные слои геоданных, максимально большого объёма, максимально актуальное и доступное через API и в режиме полной выгрузки (bulk download). Это есть в перечне ЕС. Потребители - бизнес, коммерческие сервисы, все геоаналитики.
2. Официальная статистика. Не в виде статдокладов и документов, в виде структурированных данных, как в виде отдельных индикаторов, так и статистические базы целиком с возможностью получать их регулярно и полностью. Потребители - бизнес, аналитики, журналисты, исследователи
3. Законы/законопроекты/НПА/судебные решения. В полнотекстовом виде и, также, доступные через API и полными слепками с максимально возможной актуализацией и всеми доступными метаданными. Потребители - ИИ специалисты, бизнес, исследователи
4. Данные о предприятиях. Всё что является общедоступным в отношении юридических лиц, кроме данных ограниченных в публикации. Потребители - бизнес (сервисы проверки контрагентов), исследователи
5. Данные об объектах культуры. Включает книги, изображения, метаданные, включая тексты, максимально детализированные цифровые представления объектов. Потребители - ИИ специалисты, исследователи, преподаватели, студенты
6. Данные научных работ и исследований. В максимально полном объёме включая метаданные, тексты, сопроводительные материалы. Пригодные для машинной обработки и массовой выгрузки. Потребители - ИИ специалисты, исследователи,
7. Метеорологические данные. Доступные в через API в реальном времени, в виде исторических баз данных наблюдений. Потребители - коммерческие пользователи
8. Базы данных созданные в рамках научных исследований. Финансируемых государством и созданные как общественное благо. Потребители - исследователи, бизнес пользователи (в ряде случаев)
9. Языковые корпусы. Национальные языковые корпусы, корпусы диалектов и иных языков на территории страны. Потребители - ИИ специалисты, исследователи
10. Данные необходимые для принятия решений. Статистика и иные сведения за пределами официальной статистики используемые для задач принятия решения властями, бизнесом и гражданами. Включает ведомственную статистику, сведения о качестве здравоохранения, качестве образования, качестве жизни, экологии, загрязнении воды и воздуха, с максимально возможной детализацией. Потребители - граждане, бизнес, исследователи, региональные и муниципальные власти
11. Данные спутникового мониторинга. В объёме создаваемом и финансируемом государством. Потребители - ИИ специалисты, бизнес
Я не включил в этот список данные относящиеся к политической прозрачности, у них потребители - общественники и журналисты, они тоже необходимы и понятным образом сложнее в раскрытии.
Однако это перечень того у чего есть гарантированный спрос и потребление и то что зачастую уже публикуется, но не систематизировано. Главное изменение последних лет - это безусловный рост востребованности больших наборов данных с текстами которые используют для обучения ИИ.
#opendata #datasets
1. Базовые геоданные. Всё что формирует основные слои геоданных, максимально большого объёма, максимально актуальное и доступное через API и в режиме полной выгрузки (bulk download). Это есть в перечне ЕС. Потребители - бизнес, коммерческие сервисы, все геоаналитики.
2. Официальная статистика. Не в виде статдокладов и документов, в виде структурированных данных, как в виде отдельных индикаторов, так и статистические базы целиком с возможностью получать их регулярно и полностью. Потребители - бизнес, аналитики, журналисты, исследователи
3. Законы/законопроекты/НПА/судебные решения. В полнотекстовом виде и, также, доступные через API и полными слепками с максимально возможной актуализацией и всеми доступными метаданными. Потребители - ИИ специалисты, бизнес, исследователи
4. Данные о предприятиях. Всё что является общедоступным в отношении юридических лиц, кроме данных ограниченных в публикации. Потребители - бизнес (сервисы проверки контрагентов), исследователи
5. Данные об объектах культуры. Включает книги, изображения, метаданные, включая тексты, максимально детализированные цифровые представления объектов. Потребители - ИИ специалисты, исследователи, преподаватели, студенты
6. Данные научных работ и исследований. В максимально полном объёме включая метаданные, тексты, сопроводительные материалы. Пригодные для машинной обработки и массовой выгрузки. Потребители - ИИ специалисты, исследователи,
7. Метеорологические данные. Доступные в через API в реальном времени, в виде исторических баз данных наблюдений. Потребители - коммерческие пользователи
8. Базы данных созданные в рамках научных исследований. Финансируемых государством и созданные как общественное благо. Потребители - исследователи, бизнес пользователи (в ряде случаев)
9. Языковые корпусы. Национальные языковые корпусы, корпусы диалектов и иных языков на территории страны. Потребители - ИИ специалисты, исследователи
10. Данные необходимые для принятия решений. Статистика и иные сведения за пределами официальной статистики используемые для задач принятия решения властями, бизнесом и гражданами. Включает ведомственную статистику, сведения о качестве здравоохранения, качестве образования, качестве жизни, экологии, загрязнении воды и воздуха, с максимально возможной детализацией. Потребители - граждане, бизнес, исследователи, региональные и муниципальные власти
11. Данные спутникового мониторинга. В объёме создаваемом и финансируемом государством. Потребители - ИИ специалисты, бизнес
Я не включил в этот список данные относящиеся к политической прозрачности, у них потребители - общественники и журналисты, они тоже необходимы и понятным образом сложнее в раскрытии.
Однако это перечень того у чего есть гарантированный спрос и потребление и то что зачастую уже публикуется, но не систематизировано. Главное изменение последних лет - это безусловный рост востребованности больших наборов данных с текстами которые используют для обучения ИИ.
#opendata #datasets
👍17❤8✍2
И про данные о качестве жизни. Год назад в Амстердаме для 80% городских дорог ограничили скорость передвижения 30км/час. А сейчас мэрия города опубликовала доклад о результатах этого эксперимента и он весьма позитивен.
Снизился шум от автомобилей, снизилось число аварий, снизилось число аварий с участием автобусов и трамваев и тд.
Но интересно не только это. Все эти данные можно отнести к данным качества жизни и в Нидерландах они доступны на нескольких официальных ресурсах. Например, на Environmental Health Atlas с детализацией до конкретной улицы и конкретного дома и тд.
И, конечно же, они доступны в виде геоданных через несколько открытых API и каталогов геоданных таких как RIVMData
Возвращаясь к эксперименту с ограничением скорости внутри городской черты, вот он и выглядит как альтернатива запретам самокатов. Не ограничения самокатов, а ограничения на автомобили.
Представьте себе такое ограничение в городе где Вы живёте, хотелось бы такое?
#opendata #netherlands #eu #datasets #lifequality #cities
Снизился шум от автомобилей, снизилось число аварий, снизилось число аварий с участием автобусов и трамваев и тд.
Но интересно не только это. Все эти данные можно отнести к данным качества жизни и в Нидерландах они доступны на нескольких официальных ресурсах. Например, на Environmental Health Atlas с детализацией до конкретной улицы и конкретного дома и тд.
И, конечно же, они доступны в виде геоданных через несколько открытых API и каталогов геоданных таких как RIVMData
Возвращаясь к эксперименту с ограничением скорости внутри городской черты, вот он и выглядит как альтернатива запретам самокатов. Не ограничения самокатов, а ограничения на автомобили.
Представьте себе такое ограничение в городе где Вы живёте, хотелось бы такое?
#opendata #netherlands #eu #datasets #lifequality #cities
❤13👍12🔥6🤔6🤨1
Попался на глаза созвучный моим мыслям текст The Last Programmers от разработчика и бывшего члена команды ИИ ассистента Amazon Q о том что уходит последнее поколение программистов и о том что ИИ помощники способны создавать бесконечное количество кода, но для того чтобы исправлять в нём принципиальные ошибки и обеспечивать его производительность нужны люди с глубоким погружением в технологии.
Но это поменяет, конечно же, не только программирование, но и многие другие профессии: врачи, преподаватели, инженеры и тд. Уже через 5-10 лет те кто интенсивно использует ИИ в студенческое время могут столкнуться с проблемами работы, обсуждений и иного связанного с их профессией без помощи ИИ.
И тут у меня есть небольшое предсказание, что большая часть университетов не справятся с ограничениями на использование ИИ, особенно для дистанционно учащихся студентов и потребуются меры и подходы для повышения качества отбора новых сотрудников работодателями. Появится что-то вроде Human Certified, сервисы по проверке и аттестации профессиональных знаний с прокторингом и гарантией того что проверяемый не использовал никаких ИИ ассистентов. По аналогии с разного рода тестами на знание иностранных языков которые проводят в сертифицированных центрах или сдаче профессиональных экзаменов в ИТ.
#thoughs #ai
Но это поменяет, конечно же, не только программирование, но и многие другие профессии: врачи, преподаватели, инженеры и тд. Уже через 5-10 лет те кто интенсивно использует ИИ в студенческое время могут столкнуться с проблемами работы, обсуждений и иного связанного с их профессией без помощи ИИ.
И тут у меня есть небольшое предсказание, что большая часть университетов не справятся с ограничениями на использование ИИ, особенно для дистанционно учащихся студентов и потребуются меры и подходы для повышения качества отбора новых сотрудников работодателями. Появится что-то вроде Human Certified, сервисы по проверке и аттестации профессиональных знаний с прокторингом и гарантией того что проверяемый не использовал никаких ИИ ассистентов. По аналогии с разного рода тестами на знание иностранных языков которые проводят в сертифицированных центрах или сдаче профессиональных экзаменов в ИТ.
#thoughs #ai
www.xipu.li
The Last Programmers || Xipu Li
We're witnessing the final generation of people who translate ideas into code by hand.
💯8❤5⚡4
Продолжая мысли вслух по поводу потенциального или альтернативного будущего я регулярно размышляю о том есть ли потенциал для фантастических антиутопических рассказов.
Одна тема которая мои мысли не покидает - это то что человечество стремительно приближается к тому что жизнь отдельного человека можно записывать как видео/аудио/3D модель (?) с рождения и до смерти без перерыва и это всё более реалистично хранить вечно.
Если сделать простые подсчёты то запись видео 1080p ~5Mbs в течение 80 лет 24/7 составит в итоге 1.58 петабайта. Много? Пока да, но цена терабайта снижается год от года и это уже реалистично. Более того, если записывать только часы бодрствования то это будет около 1.05 петабайта, а если ещё применять продвинутые кодеки то можно уменьшить объём ещё на 30-50%, а если сохранять не в 1080p, а 720p или 480p то всё становится ещё более реалистичным. Очень реалистичным.
А вот записать всю свою жизнь на аудио можно уже сейчас. При битрейте в 128 kbps - это будет около 40.4 терабайт за те же 80 лет.
Главная загвоздка что практическое применение всё ещё маргинализировано некоторыми гиками которые пытались и пытаются делать видеозапись в таком режиме. Для обыденной бытовой жизни это всё ещё кажется очень странным и сильно нарушающим приватность других лиц если даже сам человек готов на такой эксперимент.
Но есть две области применения которые если ещё не наступили, но это близкое будущее.
1. Особо защищённые периметры
Атомные электростанции, военные объекты,центры содержания инопланетян и тому подобное. Вплоть до того что весь персонал и посетители носят устройства видео и аудиозаписи и запись идёт непрерывно и хранится вечно. Это довольно естественное и логичное применение и можно смело предполагать что кое-где это уже есть или появится в обозримом будущем. Там главные ограничения, я подозреваю, в сертификации устройств по требованиям безопасности и поэтому самые последние устройства хранения данных могут внедряться с задержкой. Но принцип чёток - пишем всё и храним вечно.
2. Контролируемые маргинальные группы
А вот это то чего пока ещё нет, но весьма ожидаемо может распространяться на группы преступников и потенциальных преступников подлежащих профилактике, чем выше шанс рецидива, тем с большей вероятностью и с очень понятными "плюшками" снижения срока содержания. Эксперимент в РФ с мигрантами которые должны ставить специальное отслеживающее ПО в смартфоны - это из той же серии. Только в очень и очень лайт варианте по сравнению с тем что может быть в будущем.
Оба сценария кажутся мне весьма очевидными, а вот как посмотреть на сценарий всё же массового внедрения, когда пишется условно всё и о каждом и камеры или аудиозапись есть если не по каждому то по очень многим?
А вот тут то нам в помощь приходит криптография! Если потоковая запись шифруется и сохраняется в некие централизованные хранилища доступ к которым гражданин может предоставить по решению суда или дав согласие при расследовании. Не за всю жизнь, а например, отвечая на вопрос "что вы делали с 22 до 23 часов вечера 31 декабря 2049 года?". А ещё точнее не отвечая на вопрос, а предоставляя доступ к полной записи своей жизни за этот период.
Звучит реалистично? Хочется пожить в таком мире?;)
#thoughts #ideas #future
Одна тема которая мои мысли не покидает - это то что человечество стремительно приближается к тому что жизнь отдельного человека можно записывать как видео/аудио/3D модель (?) с рождения и до смерти без перерыва и это всё более реалистично хранить вечно.
Если сделать простые подсчёты то запись видео 1080p ~5Mbs в течение 80 лет 24/7 составит в итоге 1.58 петабайта. Много? Пока да, но цена терабайта снижается год от года и это уже реалистично. Более того, если записывать только часы бодрствования то это будет около 1.05 петабайта, а если ещё применять продвинутые кодеки то можно уменьшить объём ещё на 30-50%, а если сохранять не в 1080p, а 720p или 480p то всё становится ещё более реалистичным. Очень реалистичным.
А вот записать всю свою жизнь на аудио можно уже сейчас. При битрейте в 128 kbps - это будет около 40.4 терабайт за те же 80 лет.
Главная загвоздка что практическое применение всё ещё маргинализировано некоторыми гиками которые пытались и пытаются делать видеозапись в таком режиме. Для обыденной бытовой жизни это всё ещё кажется очень странным и сильно нарушающим приватность других лиц если даже сам человек готов на такой эксперимент.
Но есть две области применения которые если ещё не наступили, но это близкое будущее.
1. Особо защищённые периметры
Атомные электростанции, военные объекты,
2. Контролируемые маргинальные группы
А вот это то чего пока ещё нет, но весьма ожидаемо может распространяться на группы преступников и потенциальных преступников подлежащих профилактике, чем выше шанс рецидива, тем с большей вероятностью и с очень понятными "плюшками" снижения срока содержания. Эксперимент в РФ с мигрантами которые должны ставить специальное отслеживающее ПО в смартфоны - это из той же серии. Только в очень и очень лайт варианте по сравнению с тем что может быть в будущем.
Оба сценария кажутся мне весьма очевидными, а вот как посмотреть на сценарий всё же массового внедрения, когда пишется условно всё и о каждом и камеры или аудиозапись есть если не по каждому то по очень многим?
А вот тут то нам в помощь приходит криптография! Если потоковая запись шифруется и сохраняется в некие централизованные хранилища доступ к которым гражданин может предоставить по решению суда или дав согласие при расследовании. Не за всю жизнь, а например, отвечая на вопрос "что вы делали с 22 до 23 часов вечера 31 декабря 2049 года?". А ещё точнее не отвечая на вопрос, а предоставляя доступ к полной записи своей жизни за этот период.
Звучит реалистично? Хочется пожить в таком мире?;)
#thoughts #ideas #future
⚡10🤨10❤4🔥2💊2