ОЭСР опубликовали результаты TALIS 2024 крупнейшего опроса учителей в мире охватывающего 280 тысяч преподавателей и учителей. В этом году результаты про применение учителями ИИ, почему они выбрали эту профессию и почему продолжают ей заниматься.
В опросе охвачены многие, но не все страны. Например, там есть Казахстан, Узбекистан, Азербайджан, но нет России, Беларуси, Армении, Грузии и тд.
Из полезных фактов:
- до 75% учителей в Сингапуре и ОАЭ используют ИИ в работе. Около 90% из них используют ИИ для формирования учебных планов
- менее всего ИИ используют учителя во Франции и Японии, меньше 20%
- в Казахстане ИИ используют 59% учителей
Там ещё немало разных интересных фактов, но главный, конечно, в стремительном росте влияния ИИ на образование.
#ai #readings #education
В опросе охвачены многие, но не все страны. Например, там есть Казахстан, Узбекистан, Азербайджан, но нет России, Беларуси, Армении, Грузии и тд.
Из полезных фактов:
- до 75% учителей в Сингапуре и ОАЭ используют ИИ в работе. Около 90% из них используют ИИ для формирования учебных планов
- менее всего ИИ используют учителя во Франции и Японии, меньше 20%
- в Казахстане ИИ используют 59% учителей
Там ещё немало разных интересных фактов, но главный, конечно, в стремительном росте влияния ИИ на образование.
#ai #readings #education
❤5👍4
Fivetran официально объединились с dbt Labs, а до этого они поглотили Tobiko Data, создателей SQLMesh. У них теперь под контролем аж две команды создававшие продукты номер 1 и номер 2 по корпоративной обработке данных, что чертовски похоже на монополию (на самом деле нет) и вызывает вопросы по перспективам открытых версий dbt и SQLMesh потому что два конкурирующих продукта под одной крышей.
К тому же и крыша такая что не всем нравится Fivetran из-за его новой ценовой политики основанной на числе обрабатываемых строк.
Поэтому новость не могу отнести к хорошим, но будем ждать новых свежих открытых продуктов в этой области если dbt протухнут.
#dataengineering #data #datatools
К тому же и крыша такая что не всем нравится Fivetran из-за его новой ценовой политики основанной на числе обрабатываемых строк.
Поэтому новость не могу отнести к хорошим, но будем ждать новых свежих открытых продуктов в этой области если dbt протухнут.
#dataengineering #data #datatools
Fivetran
Fivetran and dbt Labs Unite to Set the Standard for Open Data Infrastructure | Press | Fivetran
Together, Fivetran and dbt are simplifying enterprise data management with a unified foundation that powers analytics and AI at scale.
🔥4❤2
Forwarded from Конкурс СберИндекс/Муниципальный код
Объявляем старт приема работ на первый конкурс СберИндекса по дата-историям и визуализации данных «Муниципальный код»
Если вы любите копаться в статистике, умеете извлекать смыслы из массива таблиц и верите, что данные способны помогать людям лучше понимать мир вокруг нас, подавайте проекты на наш конкурс до 14 ноября.
Конкурс пройдет по номинациям «Дата-история» и «Визуализация данных и инфографика». Авторы лучших проектов поборются за:
— денежный приз
— возможность опубликовать результаты на медиа-площадках СберИндекса
— приглашение на стажировку в Лабораторию СберИндекс.
Чтобы участвовать в конкурсе, нужно:
1. Выбрать номинацию
2. Сформулировать решаемую задачу или выбрать из предложенных на сайте
3. Использовать в работе хотя бы один набор данных Лаборатории Сбериндекс
4. Оформить проект и отправить его через форму на сайте
Работу можно выполнять индивидуально или в команде до четырех человек. Подробности о конкурсе опубликованы на сайте.
17 и 20 октября мы проведем вводные вебинары, посвященные данным, работе над проектами и визуализациям. После выступления спикеров можно будет задать вопросы.
Участвуйте в конкурсе и превращайте сложные массивы информации в увлекательные проекты!
#конкурс #муниципальный_код #сбериндекс
Если вы любите копаться в статистике, умеете извлекать смыслы из массива таблиц и верите, что данные способны помогать людям лучше понимать мир вокруг нас, подавайте проекты на наш конкурс до 14 ноября.
Конкурс пройдет по номинациям «Дата-история» и «Визуализация данных и инфографика». Авторы лучших проектов поборются за:
— денежный приз
— возможность опубликовать результаты на медиа-площадках СберИндекса
— приглашение на стажировку в Лабораторию СберИндекс.
Чтобы участвовать в конкурсе, нужно:
1. Выбрать номинацию
2. Сформулировать решаемую задачу или выбрать из предложенных на сайте
3. Использовать в работе хотя бы один набор данных Лаборатории Сбериндекс
4. Оформить проект и отправить его через форму на сайте
Работу можно выполнять индивидуально или в команде до четырех человек. Подробности о конкурсе опубликованы на сайте.
17 и 20 октября мы проведем вводные вебинары, посвященные данным, работе над проектами и визуализациям. После выступления спикеров можно будет задать вопросы.
Участвуйте в конкурсе и превращайте сложные массивы информации в увлекательные проекты!
#конкурс #муниципальный_код #сбериндекс
❤10🤝2
Читаю реакцию российской ИТ отрасли на повышение налогов и много что могу добавить, взглядом сразу с нескольких сторон.
1. С точки зрения гос-ва (читай - Пр-ва) у ИТ отрасли есть сверхдоходы. Налоговики прекрасно видят и доходы, и прибыль, и налоговые оптимизации (через льготные режимы, дробление, массовый найм самозанятых, ИТ ИПшников и тд), поэтому с их точки зрения действия по повышению налогов более чем логичны и я думаю что все решения тут принимаются не в Минцифры, а уровнем выше и Минцифры может выступать только с точки зрения защиты отрасли, но не центра принятия решений.
2. То что я слышал от российских чиновников так это то что нового оттока ИТ спецов из России они не ожидают и исходят из того что "все кто хотел уже уехал и даже возвращаются". Лично я считаю что риск отъезда квалифицированных спецов всё ещё велик, потому что им может грозить падение доходов.
3. То что под повышение налогов попадают ряд "чувствительных ИТ направлений" не приведёт к снижению налогов для всех, а только для конкретных направлений если им станет совсем больно. Особенность российского законотворчества последних пары десятилетий в принятии жесткого регулирования для всех, с точечным ослаблением так где это наиболее болезненно. Можно сказать это стандартная практика
4. Малому ИТ бизнесу будет тяжко, средний и крупный уйдёт в консолидацию. В целом у всего рынка будет существенное сокращение прибыли, доходов и тд. в том числе из-за сокращения госзаказа на ИТ, потому что де-факто крупный корп сектор уже давно приостановил инвестиции и резво переходит на инсорсинг (или уже перешел), как и часть госсектора, включая сокращение ИТ бюджетов
5. Рынок труда в ИТ останется рынком работодателей для позиций Junior-Middle уровней и останется рынком соискателя для уровней Middle+ и выше.
#thoughts #it #russia
1. С точки зрения гос-ва (читай - Пр-ва) у ИТ отрасли есть сверхдоходы. Налоговики прекрасно видят и доходы, и прибыль, и налоговые оптимизации (через льготные режимы, дробление, массовый найм самозанятых, ИТ ИПшников и тд), поэтому с их точки зрения действия по повышению налогов более чем логичны и я думаю что все решения тут принимаются не в Минцифры, а уровнем выше и Минцифры может выступать только с точки зрения защиты отрасли, но не центра принятия решений.
2. То что я слышал от российских чиновников так это то что нового оттока ИТ спецов из России они не ожидают и исходят из того что "все кто хотел уже уехал и даже возвращаются". Лично я считаю что риск отъезда квалифицированных спецов всё ещё велик, потому что им может грозить падение доходов.
3. То что под повышение налогов попадают ряд "чувствительных ИТ направлений" не приведёт к снижению налогов для всех, а только для конкретных направлений если им станет совсем больно. Особенность российского законотворчества последних пары десятилетий в принятии жесткого регулирования для всех, с точечным ослаблением так где это наиболее болезненно. Можно сказать это стандартная практика
4. Малому ИТ бизнесу будет тяжко, средний и крупный уйдёт в консолидацию. В целом у всего рынка будет существенное сокращение прибыли, доходов и тд. в том числе из-за сокращения госзаказа на ИТ, потому что де-факто крупный корп сектор уже давно приостановил инвестиции и резво переходит на инсорсинг (или уже перешел), как и часть госсектора, включая сокращение ИТ бюджетов
5. Рынок труда в ИТ останется рынком работодателей для позиций Junior-Middle уровней и останется рынком соискателя для уровней Middle+ и выше.
#thoughts #it #russia
✍9👍5❤2😢2
Да, всё забываю написать. С 20 по 24 октября пройдет Евразийский конгресс по защите
данных edpc.network и я там участвую 20-го числа в сессии 3.1. Трансформация бизнес-процессов на базе ИИ 15:00 – 16:00, а также буду слушать многие другие секции.
Мероприятие это полезное, с сильным сообществом и разнообразной повесткой по юридическим аспектам работы с данными и ИИ. Рекомендую его однозначно всем кто интересуется тематиками персональных данных не только в ЕАЭС, но и в мире.
#events #privacy
данных edpc.network и я там участвую 20-го числа в сессии 3.1. Трансформация бизнес-процессов на базе ИИ 15:00 – 16:00, а также буду слушать многие другие секции.
Мероприятие это полезное, с сильным сообществом и разнообразной повесткой по юридическим аспектам работы с данными и ИИ. Рекомендую его однозначно всем кто интересуется тематиками персональных данных не только в ЕАЭС, но и в мире.
#events #privacy
❤7
Forwarded from prometa.pro книжки
Органическая литература без AI и ГМО. На Франкфуртской ярмарке рассказали про британский стартап, вероятно, не единственный, который выводит на рынок сертификацию издательств на предмет отсутствия в книгах продукции нейросетей сверх какого-то приемлемого уровня. Вери смарт мув!
Сертификация – это золотая совершенно штука, если вам удается стать главным игроком на этом рынке. Как правило, потребительские товары сертифицируют не ведомства, а какие-то НКО а то и коммерческие организации, которые создают стандарты, разрабатывают процедуры и позволяют тем, кому надо, получить штамп типа Organic, Fairtrade, Leaping Bunny. Вот у меня клиент был – Знак качества, еще на этапе создания, это исключительно нетривиальный процесс, построить такую систему. Я примерно год очень много занималась вопросом, невероятный мир.
Поэтому, кто первый занялся идеей маркировки Organic Literature (или AI-free, это уж, что приживется), тот молодец. Насколько можно понять из довольно скупого лэндинга, сертифицировать они планируют издательство в целом, основываясь на анализе фрагментов текстов и процессов. Сколько стоит, прямо не говорят, но сколько-то будет стоить.
Тут, конечно, главный вопрос – насколько идея AI-free важна для читателей и покупателей книг. Organic Literature можно считать большой проверкой гипотезы, что важна.
Сертификация – это золотая совершенно штука, если вам удается стать главным игроком на этом рынке. Как правило, потребительские товары сертифицируют не ведомства, а какие-то НКО а то и коммерческие организации, которые создают стандарты, разрабатывают процедуры и позволяют тем, кому надо, получить штамп типа Organic, Fairtrade, Leaping Bunny. Вот у меня клиент был – Знак качества, еще на этапе создания, это исключительно нетривиальный процесс, построить такую систему. Я примерно год очень много занималась вопросом, невероятный мир.
Поэтому, кто первый занялся идеей маркировки Organic Literature (или AI-free, это уж, что приживется), тот молодец. Насколько можно понять из довольно скупого лэндинга, сертифицировать они планируют издательство в целом, основываясь на анализе фрагментов текстов и процессов. Сколько стоит, прямо не говорят, но сколько-то будет стоить.
Тут, конечно, главный вопрос – насколько идея AI-free важна для читателей и покупателей книг. Organic Literature можно считать большой проверкой гипотезы, что важна.
booksbypeople.org
Books By People | Defending Organic Literature in an AI world
Books by People's mission is to safeguard human creativity in modern literature by helping publishers and authors to certify their books as human-authored, with a process readers can trust.
👍15🏆5
В продолжение темы AI Free я не так давно публиковал свой рассказ Сделано людьми, на самом деле лишь один из сценариев, я его хотел превратить в более длинную художественную форму, но всё ещё ищу вдохновение.
Тем времени в контексте Organic books, как сколько появится сертификация "Органическое правительство" или "Органический совет директоров" или "Органическая служба доставки" и тд.
Например, пр-во Албании уже не совсем органическое, есть подозрение что некоторые советы директоров тоже скоро начнут "терять органичность". Можно уже планировать художественный или публицистический труд "Потеря органичности", это как потеря невинности, но необратимее.
#thoughts #ai
Тем времени в контексте Organic books, как сколько появится сертификация "Органическое правительство" или "Органический совет директоров" или "Органическая служба доставки" и тд.
Например, пр-во Албании уже не совсем органическое, есть подозрение что некоторые советы директоров тоже скоро начнут "терять органичность". Можно уже планировать художественный или публицистический труд "Потеря органичности", это как потеря невинности, но необратимее.
#thoughts #ai
Telegram
ministryofpoems
Отчаяние толкает нас на безумные поступки. Такие как, например, прийти в тюрьму и сказать "Посадите меня!", но это было бы слишком просто, да бесплатно ныне в тюрьму не сядешь. Нужно совершить что-то достаточно преступное чтобы тебя арестовали, но недостаточно…
❤10✍1
Полезные ссылки про данные, технологии и не только
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
#readings #ai #data #it #digitalpreservation
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
#readings #ai #data #it #digitalpreservation
Vrije Universiteit Brussel
MeteoSaver: VUB tool rescues historic climate data worldwide
Transcription tool by VUB researcher Derrick Muheki earns special mention in TIME’s Best Inventions of 2025
✍5🔥5❤2😁2👌1
Полезные ссылки про данные, технологии и не только
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом
#opendata #geodata #data #opensource #datatools #ai #readings
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом
#opendata #geodata #data #opensource #datatools #ai #readings
✍3❤3
Я, кстати, напомню что команда СберИндекса проводит конкурс по датавизу и дата сторителлингу конкурс "Муниципальный код" с возможностью не только потренировать навыки, но и получить средства выйдя на призовое место. Муниципальные данные в России - это, вообще говоря, сложная тема из-за их малой доступности в официальных источниках и команда СберИндекса делает очень полезное дело выкладывая их в систематизированном виде. Больше хороших, открытых и общедоступных данных.
#opendata #sberbank #contests #dataviz #datastorytelling
#opendata #sberbank #contests #dataviz #datastorytelling
Telegram
Конкурс СберИндекс/Муниципальный код
Объявляем старт приема работ на первый конкурс СберИндекса по дата-историям и визуализации данных «Муниципальный код»
Если вы любите копаться в статистике, умеете извлекать смыслы из массива таблиц и верите, что данные способны помогать людям лучше понимать…
Если вы любите копаться в статистике, умеете извлекать смыслы из массива таблиц и верите, что данные способны помогать людям лучше понимать…
❤6⚡3
В рубрике как это устроено у них европейский проект NGI Search по финансированию проектов по поиску и все что с ними связано через раздачу грантов проектам с открытым кодом. Последняя грантовая программа у них закончилась в 2024 году, а в августе 2025 года закончилось финансирование и доступны результаты всех поддержанных проектов.
Финансирование проходило через NGI0 Discovery Fund как часть программы Next Generation Internet Евросоюза.
В целом там есть что-то любопытное, но, по моим ощущениям, ничего прорывного. Единственное на что я лично обратил внимание - это Open Data Deep Search экспериментальный поисковик по данным с использованием LLM, но демо не впечатляет, по крайней мере ничего необычного.
В целом ощущение что каких-то ииноваций там ждать не стоит, хотя у меня были некоторые надежды увидеть (и повторно использовать) некоторые результаты, но это явно не тот случай.
С другой стороны открытых проектов по data search и data discovery не так много, наиболее системную инициативу по их поддержке я видел только у американской DARPA несколько лет назад в рамках программы D3M
#opendata #datasearch #datadiscovery #opensource
Финансирование проходило через NGI0 Discovery Fund как часть программы Next Generation Internet Евросоюза.
В целом там есть что-то любопытное, но, по моим ощущениям, ничего прорывного. Единственное на что я лично обратил внимание - это Open Data Deep Search экспериментальный поисковик по данным с использованием LLM, но демо не впечатляет, по крайней мере ничего необычного.
В целом ощущение что каких-то ииноваций там ждать не стоит, хотя у меня были некоторые надежды увидеть (и повторно использовать) некоторые результаты, но это явно не тот случай.
С другой стороны открытых проектов по data search и data discovery не так много, наиболее системную инициативу по их поддержке я видел только у американской DARPA несколько лет назад в рамках программы D3M
#opendata #datasearch #datadiscovery #opensource
www.ngisearch.eu
Home - NGI Search
❤3
Новый ИИ браузер ChatGPT Atlas от OpenAI, пока только для MacOS, но думаю что версии для других ОС недалеко. Из плюсов - тесная интеграция с ChatGPT и строка поиска совмещенная с AI чатом. Внутри всё работает на базе Chromium и много возможностей проистекающих из интеграции с браузером включая возможности задавать вопросы в контексте конкретного сайта.
Похоже на прямого конкурента, и браузера Comet от Perplexity и самого Google Chrome.
Лично я надеюсь что у Google Chrome появится полноценный конкурент, потому что конкуренция в этой области ох как необходима к тому же многие пользователи ох как устали от рекламного давления и AdTech монополий и наличие браузера интегрированного с сервисом за который и так платишь (если платишь) кажется логичной и потенциально удобной.
С другой стороны это всё больший путь в сторону зависимости от сервисов OpenAI. Поэтому хочется дождаться AI браузера с возможностью выбора сервиса ИИ на основе которого он бы работал. Локального или дистанционного, но по выбору потому что вендор-лок - это больно.
#ai #browser
Похоже на прямого конкурента, и браузера Comet от Perplexity и самого Google Chrome.
Лично я надеюсь что у Google Chrome появится полноценный конкурент, потому что конкуренция в этой области ох как необходима к тому же многие пользователи ох как устали от рекламного давления и AdTech монополий и наличие браузера интегрированного с сервисом за который и так платишь (если платишь) кажется логичной и потенциально удобной.
С другой стороны это всё больший путь в сторону зависимости от сервисов OpenAI. Поэтому хочется дождаться AI браузера с возможностью выбора сервиса ИИ на основе которого он бы работал. Локального или дистанционного, но по выбору потому что вендор-лок - это больно.
#ai #browser
Openai
Introducing ChatGPT Atlas
The browser with ChatGPT built in.
🔥4💯2
К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
❤4✍3⚡2
Чувствую что первой, возможно, короткой книжкой которую я напишу будет книга о цифровом сохранении. Потому что все остальные мои цифровые хобби уже превратились в работу, а это всё ещё именно хобби.
А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.
—
1. Создание копии сайта
Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.
Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.
Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.
2. Использование архивов сайтов
После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.
ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.
pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.
Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.
3. Анализ и обработка WARC файлов
Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.
Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.
Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.
—
#digitalpreservation #webarchives #guides
А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.
—
1. Создание копии сайта
Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.
Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.
Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.
2. Использование архивов сайтов
После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.
ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.
pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.
Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.
3. Анализ и обработка WARC файлов
Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.
Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.
Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.
—
#digitalpreservation #webarchives #guides
❤9👍6🔥4
Открытое письмо более 30 тысяч подписантов с призывом к запрету любых исследований по созданию сверхразума (superintelligence).
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
🤣12😱3❤2👍2