Европейцы всё активнее обсуждают цифровой суверенитет и независимость от американских технологии, в особенности big tech'ов. .
Из свежего о чём стоит знать - это в недавних слушаниях [1] в Сенате Франции представитель Microsoft отказался под присягой давать гарантию что спецслужбы США не могут получить доступ к данным европейских граждан в европейских ЦОДах Microsoft в любой момент.
Поэтому в том что касается локализации данных - это вопрос не только физического их местонахождения, но и то кто имеет или в любой момент может получить доступ к этим данным.
Ссылки:
[1] https://www.senat.fr/compte-rendu-commissions/20250609/ce_commande_publique.html
#europe #regulation #clouds
Из свежего о чём стоит знать - это в недавних слушаниях [1] в Сенате Франции представитель Microsoft отказался под присягой давать гарантию что спецслужбы США не могут получить доступ к данным европейских граждан в европейских ЦОДах Microsoft в любой момент.
Поэтому в том что касается локализации данных - это вопрос не только физического их местонахождения, но и то кто имеет или в любой момент может получить доступ к этим данным.
Ссылки:
[1] https://www.senat.fr/compte-rendu-commissions/20250609/ce_commande_publique.html
#europe #regulation #clouds
👍10✍6🔥4💯1
На фоне очередных и ожидаемых ограничений в РФ на работу WhatsApp, внедрения Нацмессенжера, штрафов за VPN и постоянно обсуждаемых каких-то новых реестров мне много что есть сказать. Много-много есть что сказать, но но я поберегу слова для художественных текстов, а не публицистики. Да и из событийного, не устаю повторять, что про данные мне куда интереснее, чем про всё остальное. За исключением тем для будущих антиутопических фантастических рассказа
Поэтому в качестве оффтопа и в качестве ментального упражнения, давайте представим будущее Россия 2050. Достаточно близкое чтобы многие дожили, недостаточно близкое чтобы говорить со 100% уверенностью
Чтобы можно предсказать в виде государственных информационных систем, новых реестров, новых запретов и ограничений?
Мои предсказания:
- реестр недружественных культурных образов (всяческие там герои Марвел, Гарри Поттера и др. ). Автоматическое цензурирование и недопуск книг к публикации, фильмов к прокату и тд. Развитие рынка автоадаптации произведений под локальный рынок РФ.
- тотальное регулирование ИИ. Требования к локализации, требования к полной прослеживаемости обучения языковых моделей, обязательная аккредитация и тд.
- госцентрализация ИИ. Централизованные ИИ помощники для школьников, студентов, госслужащих через Госуслуги
- запуски программ "госсводничества" включая реестры женщин желающих детей, на фоне серьёзного демографического кризиса
Но я всё время сбиваюсь на то что могу представить и то что может быть и не через 25 лет, а через 1-2 года.
А что, всё таки, можно предсказать к 2050 году ? Интерес не праздный, ищу опору для творческого вдохновения очередного рассказа😉
#offtopic #ai #thoughts
Поэтому в качестве оффтопа и в качестве ментального упражнения, давайте представим будущее Россия 2050. Достаточно близкое чтобы многие дожили, недостаточно близкое чтобы говорить со 100% уверенностью
Чтобы можно предсказать в виде государственных информационных систем, новых реестров, новых запретов и ограничений?
Мои предсказания:
- реестр недружественных культурных образов (всяческие там герои Марвел, Гарри Поттера и др. ). Автоматическое цензурирование и недопуск книг к публикации, фильмов к прокату и тд. Развитие рынка автоадаптации произведений под локальный рынок РФ.
- тотальное регулирование ИИ. Требования к локализации, требования к полной прослеживаемости обучения языковых моделей, обязательная аккредитация и тд.
- госцентрализация ИИ. Централизованные ИИ помощники для школьников, студентов, госслужащих через Госуслуги
- запуски программ "госсводничества" включая реестры женщин желающих детей, на фоне серьёзного демографического кризиса
Но я всё время сбиваюсь на то что могу представить и то что может быть и не через 25 лет, а через 1-2 года.
А что, всё таки, можно предсказать к 2050 году ? Интерес не праздный, ищу опору для творческого вдохновения очередного рассказа😉
#offtopic #ai #thoughts
😁12✍10😢5⚡3❤1
Одна из крупнейших поисковых систем по данным в мире о которой мало кто знает - это Datacite Commons. Сервис созданный компанией Datacite специализирующейся на выдаче DOI для данных публикуемых исследователями.
Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).
Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.
Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.
Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных
Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.
Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.
Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.
#opendata #datasets #datadiscovery #datacite
Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).
Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.
Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.
Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных
Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.
Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.
Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.
#opendata #datasets #datadiscovery #datacite
Research Organization Registry (ROR)
The Research Organization Registry (ROR) is a global, community-led registry of open persistent identifiers for research and funding organizations.
👍6✍2
Forwarded from Privacy Advocates
🇨🇳 В Китае ввели «киберпространственные идентификаторы» для защиты ПД граждан
🔸С 15 июля в Китае вступили в силу положения о «киберпространственных идентификаторах» (КИ), призванных усилить защиту конфиденциальности персональных данных (ПД) в Интернете.
🔸Согласно документу, онлайн-идентификатор может быть двух видов: набор букв и цифр или учётная запись. Оба соответствуют реальной личности человека, но исключают какую-либо информацию в виде открытого текста.
🔸Используя КИ, граждане не должны будут предоставлять такую личную информацию, как номера карт удостоверения личности или настоящие фамилии и имена, провайдерам интернет-услуг – при регистрации или идентификации. Соответственно, онлайн-сервисы не в праве требовать от пользователя предоставления дополнительной информации «в виде открытого текста», если это не предусмотрено законами и административными регламентами.
🔸КИ рассматриваются властями как метод борьбы с утечками ПД граждан и последующим их использованием мошенниками и спамерами. Оформление КИ является добровольным.
🔸С 15 июля в Китае вступили в силу положения о «киберпространственных идентификаторах» (КИ), призванных усилить защиту конфиденциальности персональных данных (ПД) в Интернете.
🔸Согласно документу, онлайн-идентификатор может быть двух видов: набор букв и цифр или учётная запись. Оба соответствуют реальной личности человека, но исключают какую-либо информацию в виде открытого текста.
🔸Используя КИ, граждане не должны будут предоставлять такую личную информацию, как номера карт удостоверения личности или настоящие фамилии и имена, провайдерам интернет-услуг – при регистрации или идентификации. Соответственно, онлайн-сервисы не в праве требовать от пользователя предоставления дополнительной информации «в виде открытого текста», если это не предусмотрено законами и административными регламентами.
🔸КИ рассматриваются властями как метод борьбы с утечками ПД граждан и последующим их использованием мошенниками и спамерами. Оформление КИ является добровольным.
👍7🤔3❤1🤣1
Объёмы задач в Dateno у нас постоянно растут, есть потребность в ещё одном Data инженере, с акцентом на конвееры данных, обработку большого числа наборов данных из разных источников. Напомню что Dateno - это международный стартап с командой разбросанной по разным странам и работающий по принципу remote-only, вся команда работает дистанционно.
⚡5
Forwarded from Dateno
Data engineer needed!
We are looking for a data engineer to develop an ambitious modern dataset search engine Dateno (dateno.io). Fully remote
Today the technology stack includes FastAPI, Airflow, MongoDB, Elasticsearch. We use Github + Discord for management.
Our technology stack more https://stackshare.io/dateno/dateno
Responsibilities:
Development and maintaining of Dateno data infrastructure
Preparing, adjusting and monitoring data pipelines
Resolving data quality issues
Requirements:
Experience with Python data stack 1+ year with real product;
Experience with building data pipelines with open source data stack;
Understating data quality management and monitoring;
Knowledge of the data observability issues and frameworks
Experience with REST API;
Knowledge of English at the level of reading technical documentation and basic communication;
Strong technical problem solving skills
Responsibility, ability to work independently.
Pros are:
Data engineering education: MS degree or equivalent industry experience
Experience or willingness to work with NoSQL databases such as MongoDB and Elasticsearch;
Experience and willingness to use modern database engines stack as DuckDB, Clickhouse and e.t.c.
Portfolio - github link with example projects/modules/code/contributions to open source projects;
Love for open data and open source is a definite plus.
Conditions: Full-time, salary based on the results of the interview.
The main thing - compliance with deadlines and the desire to make the world a better place.
Company: Dateno
Contact: dateno@dateno.io
We are looking for a data engineer to develop an ambitious modern dataset search engine Dateno (dateno.io). Fully remote
Today the technology stack includes FastAPI, Airflow, MongoDB, Elasticsearch. We use Github + Discord for management.
Our technology stack more https://stackshare.io/dateno/dateno
Responsibilities:
Development and maintaining of Dateno data infrastructure
Preparing, adjusting and monitoring data pipelines
Resolving data quality issues
Requirements:
Experience with Python data stack 1+ year with real product;
Experience with building data pipelines with open source data stack;
Understating data quality management and monitoring;
Knowledge of the data observability issues and frameworks
Experience with REST API;
Knowledge of English at the level of reading technical documentation and basic communication;
Strong technical problem solving skills
Responsibility, ability to work independently.
Pros are:
Data engineering education: MS degree or equivalent industry experience
Experience or willingness to work with NoSQL databases such as MongoDB and Elasticsearch;
Experience and willingness to use modern database engines stack as DuckDB, Clickhouse and e.t.c.
Portfolio - github link with example projects/modules/code/contributions to open source projects;
Love for open data and open source is a definite plus.
Conditions: Full-time, salary based on the results of the interview.
The main thing - compliance with deadlines and the desire to make the world a better place.
Company: Dateno
Contact: dateno@dateno.io
⚡6❤4🤩1
Полезные ссылки про данные, технологии и не только:
- DuckDB XML Extension - расширение для DuckDB для парсинга XML/HTML, пока не пробовал и интересно как он сможет съесть XML в пару пару десятков гигабайт, но выглядит полезно
- remote-jobs - репозиторий с огромным числом IT компаний имеющих вакансии для дистанционной работы. Некоторые компании remote-only, без офисов, в некоторых гибридный подход, в любом случае список полезный для тех кто ищет работу дистанционно
- Embedding User-Defined Indexes in Apache Parquet Files - для тех кто хочет поглубже разобраться с тем что такое Parquet, разбор реализации специализированного индекса внутри Parquet файлов.
- Rethinking CLI interfaces for AI у автора рефлексия о переосмыслении подхода к созданию и развитию утилит командной строки в контексте MCP и LLM. Текст довольно короткий, но здравый
- Edit перевыпуск древнего редактора Edit для MS-DOS переписанного на Rust под множество платформ. Для тех кого пробивает на ностальгию, но у меня лично по Edit'у никакой ностальгии не осталось, он мне не нравился ещё тогда;)
#opensource #ai #datatools
- DuckDB XML Extension - расширение для DuckDB для парсинга XML/HTML, пока не пробовал и интересно как он сможет съесть XML в пару пару десятков гигабайт, но выглядит полезно
- remote-jobs - репозиторий с огромным числом IT компаний имеющих вакансии для дистанционной работы. Некоторые компании remote-only, без офисов, в некоторых гибридный подход, в любом случае список полезный для тех кто ищет работу дистанционно
- Embedding User-Defined Indexes in Apache Parquet Files - для тех кто хочет поглубже разобраться с тем что такое Parquet, разбор реализации специализированного индекса внутри Parquet файлов.
- Rethinking CLI interfaces for AI у автора рефлексия о переосмыслении подхода к созданию и развитию утилит командной строки в контексте MCP и LLM. Текст довольно короткий, но здравый
- Edit перевыпуск древнего редактора Edit для MS-DOS переписанного на Rust под множество платформ. Для тех кого пробивает на ностальгию, но у меня лично по Edit'у никакой ностальгии не осталось, он мне не нравился ещё тогда;)
#opensource #ai #datatools
👍7❤3✍2🔥1
Когда я начал смотреть на то как поисковые системы по данным и крупнейшие агрегаторы репозитории устроены изнутри то единственный вывод который напрашивался - все врут! многое недоговаривают
Самое главная проблема о которой не говорят - это data diversity, то насколько у поисковых систем общего типа доступно данных из разных областей и для разных пользователей.
А это важно, потому что всегда есть возможность сделать поисковую систему по какой-либо тематике и выдавать её за просто поисковую систему или просто, скажем так, лукавить с цифрами.
Я расскажу об этом на примере индекса Datacite, их поисковик commons.datacite.org один из крупнейших для научных данных, но надо понимать как он формируется.
Например, в индексе Datacite, я недавно рассказывал, 43 миллиона наборов данных из исследовательских репозиториев. Всё это данные которым были присвоены DOI с помощью самого Datacite или Crossref. 43 миллиона кажется огромным количеством данных, очень и очень много. Когда я анализировал потенциальные источники данных для Dateno я не так то много находил каталогов данных где есть хотя бы миллион наборов данных. Так откуда 43 миллиона?
У меня возникли подозрения которая оправдались. Из 19.8 миллионов наборов данных имеют лишь один источник происхождения, это японский National Institute for Fusion Science которые присвоили DOI этому числу своих экспериментов, каждый из которых назван набором данных и проиндексирован в Datacite. Таким образом можно было бы сказать что Datacite Commons - это поисковик по данным ядерной физики, но никаких специфичных для этой области фильтров в нём не предусмотрено, а все данные имеют почти идентичные название отличающиеся лишь номером эксперимента с префиксом LHD Fast-RF-Spec.
Ещё от 3.5 миллионов наборов данных - это биоразнообразие, из систем GBIF и GBIF совместимых репозиториев. Это отличается от числа датасетов в самом GBIF, там их всего 115 тысяч, а эти самые 3 миллиона формируются из списка occurences (возникновений), фактов регистрации событий в привязке к биологическим видам. Это то что можно отнести к данным, но в терминах GBIF это не набор данных, это occurence.
И тут мы приходим к разнице в терминологии. Внутри Datacite все дата объекты - это наборы данных. Вне зависимости от размера и типа. Поэтому и occurences из GBIF там наборы данных и, к примеру, кристаллографические структуры из Кэмбриджского кристаллографического центра данных - это тоже наборы данных, хотя, по сути, это экспорт единичных объектов из базы данных.
Чтобы было понятнее поясню на примере Википедии. У каждой страницы Википедии есть ссылка на её XML представление. Это как если бы сделать поисковую систему по данным где проиндексировать все статьи Википедии и сказать что у тебя крупнейшая поисковая система/крупнейший каталог данных.
Когда я писал вредные советы для data.gov.ru у меня было немало примеров перед глазами.
Для сравнения, в OpenAIRE это проблему уже, частично, понимают. У них понятие набора данных уже имеет некоторое число подтипов таких как:
- dataset - собственно набор данных
- bioentity - биологическое понятие имеющие машинное представление
- collection - список объектов
- Image - изображения
- Clinical Trial - данные клинических исследований
и так далее
Но все те же проблемы что с Datacite там сохраняются, результаты ядерных экспериментов в отдельный тип там не выделены и National Institute for Fusion Science (NIFS) даже не упоминается как репозиторий (интересно почему?).
Поэтому индексирование научных каталогов данных и их агрегаторов это такая непростая задача с точки зрения их содержания. Многое из того что там содержится не является набором данных в общепринятом понимании, в лучшем случае некоторым подтипом или цифровым объектом. С их помощью мы могли бы в Dateno в очень короткие сроки сказать что у нас на 22 миллиона, в 60 или даже 100 миллионов наборов данных, но достаточно очевидно что для десятков миллионов из них пользователей в мире насчитывалось бы пара сотен человек и у них всех давно есть свои инструменты поиска и работы с этими данными в 2-3 первоисточниках.
Самое главная проблема о которой не говорят - это data diversity, то насколько у поисковых систем общего типа доступно данных из разных областей и для разных пользователей.
А это важно, потому что всегда есть возможность сделать поисковую систему по какой-либо тематике и выдавать её за просто поисковую систему или просто, скажем так, лукавить с цифрами.
Я расскажу об этом на примере индекса Datacite, их поисковик commons.datacite.org один из крупнейших для научных данных, но надо понимать как он формируется.
Например, в индексе Datacite, я недавно рассказывал, 43 миллиона наборов данных из исследовательских репозиториев. Всё это данные которым были присвоены DOI с помощью самого Datacite или Crossref. 43 миллиона кажется огромным количеством данных, очень и очень много. Когда я анализировал потенциальные источники данных для Dateno я не так то много находил каталогов данных где есть хотя бы миллион наборов данных. Так откуда 43 миллиона?
У меня возникли подозрения которая оправдались. Из 19.8 миллионов наборов данных имеют лишь один источник происхождения, это японский National Institute for Fusion Science которые присвоили DOI этому числу своих экспериментов, каждый из которых назван набором данных и проиндексирован в Datacite. Таким образом можно было бы сказать что Datacite Commons - это поисковик по данным ядерной физики, но никаких специфичных для этой области фильтров в нём не предусмотрено, а все данные имеют почти идентичные название отличающиеся лишь номером эксперимента с префиксом LHD Fast-RF-Spec.
Ещё от 3.5 миллионов наборов данных - это биоразнообразие, из систем GBIF и GBIF совместимых репозиториев. Это отличается от числа датасетов в самом GBIF, там их всего 115 тысяч, а эти самые 3 миллиона формируются из списка occurences (возникновений), фактов регистрации событий в привязке к биологическим видам. Это то что можно отнести к данным, но в терминах GBIF это не набор данных, это occurence.
И тут мы приходим к разнице в терминологии. Внутри Datacite все дата объекты - это наборы данных. Вне зависимости от размера и типа. Поэтому и occurences из GBIF там наборы данных и, к примеру, кристаллографические структуры из Кэмбриджского кристаллографического центра данных - это тоже наборы данных, хотя, по сути, это экспорт единичных объектов из базы данных.
Чтобы было понятнее поясню на примере Википедии. У каждой страницы Википедии есть ссылка на её XML представление. Это как если бы сделать поисковую систему по данным где проиндексировать все статьи Википедии и сказать что у тебя крупнейшая поисковая система/крупнейший каталог данных.
Когда я писал вредные советы для data.gov.ru у меня было немало примеров перед глазами.
Для сравнения, в OpenAIRE это проблему уже, частично, понимают. У них понятие набора данных уже имеет некоторое число подтипов таких как:
- dataset - собственно набор данных
- bioentity - биологическое понятие имеющие машинное представление
- collection - список объектов
- Image - изображения
- Clinical Trial - данные клинических исследований
и так далее
Но все те же проблемы что с Datacite там сохраняются, результаты ядерных экспериментов в отдельный тип там не выделены и National Institute for Fusion Science (NIFS) даже не упоминается как репозиторий (интересно почему?).
Поэтому индексирование научных каталогов данных и их агрегаторов это такая непростая задача с точки зрения их содержания. Многое из того что там содержится не является набором данных в общепринятом понимании, в лучшем случае некоторым подтипом или цифровым объектом. С их помощью мы могли бы в Dateno в очень короткие сроки сказать что у нас на 22 миллиона, в 60 или даже 100 миллионов наборов данных, но достаточно очевидно что для десятков миллионов из них пользователей в мире насчитывалось бы пара сотен человек и у них всех давно есть свои инструменты поиска и работы с этими данными в 2-3 первоисточниках.
👍5🔥4✍3❤1
Universal Tool Calling Protocol (UTCP) спецификация и SDK для тех кто думает об альтернативах MCP. Вместо специальной доработки инструментов они описываются в специальном файле utcp.json и вся взаимодействие с инструментом осуществляется через HTTP/gRPC/cli, с акцентом на то что нет накладных расходов на обращение к инструментам/сервисам.
Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.
#ai #mcp #utcp #specifications
Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.
#ai #mcp #utcp #specifications
👍7✍3🙏2
Devising a Strategic Approach to Artificial Intelligence : A Handbook for Policy Makers [1] свежий документ от Всемирного банка в виде руководства для нормотворцев и чиновников по регулированию ИИ.
Почти все примеры там из развивающихся стран и чуть-чуть из развитых, ни одна из стран постсоветского пространства не упоминается.
Выглядит как документ по которому в дальнейшем тот же Всемирный банк или какая-то из поддерживаемых им структур будет создавать AI Government maturity index или что-то вроде этого.
С одной стороны небесполезно, а с другой я столько уже видел похожих документов по другим тематикам.
Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/099060525125542871
#ai #regulation #readings
Почти все примеры там из развивающихся стран и чуть-чуть из развитых, ни одна из стран постсоветского пространства не упоминается.
Выглядит как документ по которому в дальнейшем тот же Всемирный банк или какая-то из поддерживаемых им структур будет создавать AI Government maturity index или что-то вроде этого.
С одной стороны небесполезно, а с другой я столько уже видел похожих документов по другим тематикам.
Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/099060525125542871
#ai #regulation #readings
👍5❤1
Про российский портал открытых данных data.gov.ru я писать в канале почти перестал, почти потому что одно из российских изданий попросило написать авторскую колонку на эту тему и я напишу, причём с тем о чём писал в лонгриде ранее повторяться не буду.
Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.
Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉
#opendata #russia
Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.
Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉
#opendata #russia
😁15💯3❤2👍1
Оказывается Яндекс сертифицировался по ISO/IEC 42001:2023 до этого это сделали не так уж много компаний. Amazon AWS в декабре 2024, Microsoft несколько дней назад, Thompson Reuters в марте 2025, Anthropic в январе 2025. В любом случае их немного.
Что важно, нельзя получить сертификат используя чужую облачную LLM, это сертификат на управление ИИ, рисками и тд.
Сертификация по этому стандарту, в любом случае, никого не спасёт от регулирования, но некую планку этической разработки ИИ задаёт.
#ai
Что важно, нельзя получить сертификат используя чужую облачную LLM, это сертификат на управление ИИ, рисками и тд.
Сертификация по этому стандарту, в любом случае, никого не спасёт от регулирования, но некую планку этической разработки ИИ задаёт.
#ai
ISO
ISO/IEC 42001:2023
Information technology — Artificial intelligence — Management system
👍9🤔2🤣2
Forwarded from Алексей Кудрин
Наряду с быстрым развитием ИИ возникают вопросы о его безопасности. Чтобы уменьшить возможные риски, ведущие российские компании, работающие с ИИ, следуют Кодексу этики — принципам для всех, кто связан с созданием, развитием и применением ИИ в России.
Теперь же Яндекс первым в России получил международный сертификат ISO/IEC 42001. Это означает, что компания соблюдает высокие стандарты безопасности и этики при разработке YandexGPT.
Для пользователей это дополнительная гарантия надежности. Для рынка — сигнал, что российские технологии соответствуют мировым требованиям.
Важный шаг в развитии генеративных нейросетей в стране и хороший пример для всей отрасли. Такое ответственное саморегулирование — ключевое качество для компаний, стремящихся стать лидерами в ИИ.
Теперь же Яндекс первым в России получил международный сертификат ISO/IEC 42001. Это означает, что компания соблюдает высокие стандарты безопасности и этики при разработке YandexGPT.
Для пользователей это дополнительная гарантия надежности. Для рынка — сигнал, что российские технологии соответствуют мировым требованиям.
Важный шаг в развитии генеративных нейросетей в стране и хороший пример для всей отрасли. Такое ответственное саморегулирование — ключевое качество для компаний, стремящихся стать лидерами в ИИ.
Известия
Нестандартное приложение: ИИ из РФ впервые получил сертификат качества ISO
Что это значит для IT-бизнеса и российских пользователей
🤣5🌚2❤1👍1
Стандарты работы с данными о которых вы могли ничего ранее не слышать:
- Oxford Common File Layout (OCFL) [1] спецификация описывающая способ хранения цифровых объектов независимо от использующего приложения с прицелом на долгосрочное хранение и использование. Используется, преимущественно, в академических проектах хранения цифровых объектов [2]
- Research Object Crate (RO-Crate) [3] "легковесная" спецификация для упаковки исследовательских данных вместе с метаданными. Отличается большим числом разных профилем под разные научные дисциплины [4]. Стандарт уже довольно зрелый, активно применяется во многих исследовательских проектах.
- The Open Data Product Standard (ODPS) [5] открытый стандарт описания дата продуктов из проекта Bitlol при Linux Foundation. Судя по спецификации всё ещё сыровато [6] и сама подача стандартов мне не очень нравится, я лично больше предпочитаю читать их в W3C стиле, но тем не менее, спецификаций на дата продукты как дата продукты мало. Текущая версия 0.9, явно ещё будет меняться
- The BagIt File Packaging Format (BagIt) [7] стандарт хранения цифровых объектов, в том числе данных, от библиотеки Конгресса США. В 2018 году его приняли как RFC 8493, но и до этого он давно существовал. Стандарт OCFL создавался как доработка BagIt поскольку в BagIt не было предусмотрено версионирование.
- FAIR4ML Metadata Schema [8] спецификация метаданных для описания моделей для машинного обучения, включая расширение для Schema.org. В основе спецификация для публикации кода Codemeta [9] тоже в виде расширения для Schema.org
Ссылки:
[1] https://ocfl.io
[2] https://github.com/OCFL/spec/wiki/Implementation
[3] https://www.researchobject.org/ro-crate/
[4] https://www.researchobject.org/ro-crate/profiles
[5] https://bitol.io/announcing-odps-major-step-toward-standardizing-data-products/
[6] https://github.com/bitol-io/open-data-product-standard/tree/main/docs
[7] https://datatracker.ietf.org/doc/html/rfc8493
[8] https://rda-fair4ml.github.io/FAIR4ML-schema/release/0.1.0/index.html
[9] https://codemeta.github.io/
#openstandards #opensource #readings
- Oxford Common File Layout (OCFL) [1] спецификация описывающая способ хранения цифровых объектов независимо от использующего приложения с прицелом на долгосрочное хранение и использование. Используется, преимущественно, в академических проектах хранения цифровых объектов [2]
- Research Object Crate (RO-Crate) [3] "легковесная" спецификация для упаковки исследовательских данных вместе с метаданными. Отличается большим числом разных профилем под разные научные дисциплины [4]. Стандарт уже довольно зрелый, активно применяется во многих исследовательских проектах.
- The Open Data Product Standard (ODPS) [5] открытый стандарт описания дата продуктов из проекта Bitlol при Linux Foundation. Судя по спецификации всё ещё сыровато [6] и сама подача стандартов мне не очень нравится, я лично больше предпочитаю читать их в W3C стиле, но тем не менее, спецификаций на дата продукты как дата продукты мало. Текущая версия 0.9, явно ещё будет меняться
- The BagIt File Packaging Format (BagIt) [7] стандарт хранения цифровых объектов, в том числе данных, от библиотеки Конгресса США. В 2018 году его приняли как RFC 8493, но и до этого он давно существовал. Стандарт OCFL создавался как доработка BagIt поскольку в BagIt не было предусмотрено версионирование.
- FAIR4ML Metadata Schema [8] спецификация метаданных для описания моделей для машинного обучения, включая расширение для Schema.org. В основе спецификация для публикации кода Codemeta [9] тоже в виде расширения для Schema.org
Ссылки:
[1] https://ocfl.io
[2] https://github.com/OCFL/spec/wiki/Implementation
[3] https://www.researchobject.org/ro-crate/
[4] https://www.researchobject.org/ro-crate/profiles
[5] https://bitol.io/announcing-odps-major-step-toward-standardizing-data-products/
[6] https://github.com/bitol-io/open-data-product-standard/tree/main/docs
[7] https://datatracker.ietf.org/doc/html/rfc8493
[8] https://rda-fair4ml.github.io/FAIR4ML-schema/release/0.1.0/index.html
[9] https://codemeta.github.io/
#openstandards #opensource #readings
✍8👍2🔥2❤1
Forwarded from Национальный цифровой архив
Похоже организаторы конференции Dialog по компьютерной лингвистике продолбали потеряли сайт с материалами конференций с 2008 по 2022 годы - www.dialog-21.ru, вместо сайта теперь заглушка, на новом сайте dialogue-conf.org есть материалы только за 2025 год.
Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?
#webarchives
Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?
#webarchives
✍4
Я буду изредка разбавлять рассуждения про технологии разным публицистическим оффтопиком и вот недавно я писал про всяческие предсказания будущего регулирования, но таких идей чтобы прям взял и положил в основание рассказа пока не увидел. Так что поделюсь одной идеей далёкого регулирования которая не даёт мне покоя, но пока я её недостаточно хорошо продумал чтобы описать, но достаточно чтобы обсудить.
Это налоговая лотерея! Как это выглядит.
Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.
Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?
У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.
Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз
#humour #ideas #writings
Это налоговая лотерея! Как это выглядит.
Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.
Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?
У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.
Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз
#humour #ideas #writings
😁13✍3👍3🌚1💊1
В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
👍3✍2
Свежее исследование из Microsoft Research о том какие профессии более и какие менее подвержены замене на ИИ Working with AI: Measuring the Occupational Implications of Generative AI. Полезно чтобы задуматься о своей нынешней и будущей профессии.
К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.
А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.
#ai #work
К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.
А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.
#ai #work
🤣8💅3😢2❤1🥰1😁1