А мы собрали полезную подборку материалов с этого курса и делимся с вами:
Disclaimer: Не реклама, сам преподаю на этом курсе;) Курс реально полезный для всех кто хочет погрузится в регуляторику, этику и иные аспекты ИИ. Если не успеете на этот, то стоит присоединиться к следующему. Я там буду говорить про технические аспекты AI governance.
#ai #privacy #data #learning #rppa
Please open Telegram to view this post
VIEW IN TELEGRAM
rppaedu.pro
AI Governance
Образовательный продукт AI Governance поможет специалисту стать экспертом в области и научиться превращать технологии из риска в актив
✍7❤4🔥2
Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны
#ai #data #laws #FAIR #wikipedia #tools #books
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны
#ai #data #laws #FAIR #wikipedia #tools #books
Slidecrafting
Making beautiful slides with reveal.js and Quarto
👍4❤3
Интересный свежий продукт Arc с открытым кодом по созданию хранилищ временных рядов. Внутри DuckDB, Parquet и MinIO, лицензия AGPL-3.0. Судя по коду и описанию он скорее про создание корпоративных банков временных рядов, в нем нет управления метаданными, но декларируется высокая скорость чтения и загрузки данных. А также интеграция с Superset. Если бы я делал движок BI внутри крупной компании, я бы к нему внимательно присмотрелся, поскольку я его не делаю, то любопытствую его внутренним устройством и подходом.
Для скорости там используется MessagePack, для управления декларативное кодирование в TOML файле конфигурации. Декларируют также импорт данных из крупных баз данных для временных рядов.
#opensource #data #datatools
Для скорости там используется MessagePack, для управления декларативное кодирование в TOML файле конфигурации. Декларируют также импорт данных из крупных баз данных для временных рядов.
#opensource #data #datatools
👍9🤔2
В рубрике как это устроено у них Underground Asset Registry реестр подземных коммуникаций и объектов Новой Зеландии, сейчас покрывает город Веллингтон и включает данные собранные с помощью LIDAR'ов, GPR и других технологий автоматической идентификации инфраструктуры и аномалий. В 2020 году они таким образом оцифровали 16 километров города и приступили к починке найденных аномалий. Особенность в том что данные доступны для строительных компаний, они не в открытом доступе и предоставляются только после регистрации.
Внутри централизованный каталог данных с возможностью их выгрузки и отображением в ГИС системе.
Все данные разделены на 4 уровня безопасности из которых все данные 1-го уровня S0 доступны без ограничений после авторизации
#data #newzealand #geodata
Внутри централизованный каталог данных с возможностью их выгрузки и отображением в ГИС системе.
Все данные разделены на 4 уровня безопасности из которых все данные 1-го уровня S0 доступны без ограничений после авторизации
#data #newzealand #geodata
👍11✍3🔥2
Fivetran официально объединились с dbt Labs, а до этого они поглотили Tobiko Data, создателей SQLMesh. У них теперь под контролем аж две команды создававшие продукты номер 1 и номер 2 по корпоративной обработке данных, что чертовски похоже на монополию (на самом деле нет) и вызывает вопросы по перспективам открытых версий dbt и SQLMesh потому что два конкурирующих продукта под одной крышей.
К тому же и крыша такая что не всем нравится Fivetran из-за его новой ценовой политики основанной на числе обрабатываемых строк.
Поэтому новость не могу отнести к хорошим, но будем ждать новых свежих открытых продуктов в этой области если dbt протухнут.
#dataengineering #data #datatools
К тому же и крыша такая что не всем нравится Fivetran из-за его новой ценовой политики основанной на числе обрабатываемых строк.
Поэтому новость не могу отнести к хорошим, но будем ждать новых свежих открытых продуктов в этой области если dbt протухнут.
#dataengineering #data #datatools
Fivetran
Fivetran and dbt Labs Unite to Set the Standard for Open Data Infrastructure | Press | Fivetran
Together, Fivetran and dbt are simplifying enterprise data management with a unified foundation that powers analytics and AI at scale.
🔥4❤2
Полезные ссылки про данные, технологии и не только
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
#readings #ai #data #it #digitalpreservation
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
#readings #ai #data #it #digitalpreservation
Vrije Universiteit Brussel
MeteoSaver: VUB tool rescues historic climate data worldwide
Transcription tool by VUB researcher Derrick Muheki earns special mention in TIME’s Best Inventions of 2025
✍5🔥5😁2❤1👌1
Полезные ссылки про данные, технологии и не только
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом
#opendata #geodata #data #opensource #datatools #ai #readings
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом
#opendata #geodata #data #opensource #datatools #ai #readings
✍3❤2
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.
Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.
При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.
#webarchives #digitalpreservation #data
Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.
При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.
#webarchives #digitalpreservation #data
Nieman Lab
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects
Between May and October 2025, homepage snapshots fell by 87% across 100 news publications.
👍7😢2✍1🤔1
Nixiesearch любопытный поисковый движок со встроенным ИИ поиском, позиционируется как альтернатива Elasticsearch и Opensearch, внутри использует Apache Lucene, хранит индекс в S3 и индексирование через pull запросы без необходимости отправлять JSON в индекс постоянно.
Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.
Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.
Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.
Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.
Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.
Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.
Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.
#opensource #data #search #ai #vectorsearch
Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.
Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.
Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.
Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.
Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.
Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.
Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.
#opensource #data #search #ai #vectorsearch
👍5✍3❤3
В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
🔥4❤1