Ivan Begtin
9.01K subscribers
2.63K photos
5 videos
114 files
5.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.

Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.

Лицензия MIT.

Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M

#opensource #ai #books #readings
6❤‍🔥1
Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны

#ai #data #laws #FAIR #wikipedia #tools #books
👍43
Кстати, как человек любящий не только цифровые архивы, но и исторические книжки тоже не могу не упомянуть про очень интересный проект от Банка России с виртуальной выставкой по истории Банка. Мало какие центральные банки в мире делают такие проекты, так что это хорошо что такое появляется (если знаете аналогичные проекты в других странах, то напишите плз). Я знаю только Federal Reserve History в США.

Но интересность материалов и их доступность омрачает то что материалы есть, а можно ли их использовать? В основном нет.

Вот самые очевидные проблемы:
1. Нет нигде явным образом указанных условий использования материалов. Можно ли использовать их на своём сайте? Можно ли на их основе писать учебные материалы? Можно ли цитировать и тд. Понятно что у разных материалов может быть разный статус, но не надо забывать насколько это важно можно ли использовать такие материалы.
2. Просмотр материалов только на сайте - это никуда не годится. Возможность скачать исторические книжки нужна для бесконечного числа задач: внутренних библиотек университетов, таких проектов как Цифровой архив госфинансов и госуправления, возможность почитать книги оффлайн, возможность обучить на них ИИ, возможность создать наборы данных и многое другое.

Если делать хорошо, то делать до конца, не надо останавливаться на полпути.

#digitalpreservation #books #finances #digitalhumanities #openaccess
🔥94👍4💯1
Я, кстати, пропустил эту новость, а тем временем NVIDIA обвинили в получении 500ТБ пиратских книг из Anna's Archive. Это к вопросу о роли пиратских библиотек в скорости роста бума ИИ. Если представить себе какой-то другой мир с гораздо более правовой моделью распространения информации то такой стремительный взлёт ИИ инструментов был бы просто невозможен. Но это какая-то альтернативная вселенная была бы, а де-факто пиратскими материалами пользуются если не весь AI бигтех, то большинство.

#ai #piracy #books
👍16👏3❤‍🔥2🔥21