Ivan Begtin
9.08K subscribers
2.49K photos
4 videos
113 files
5.25K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Les grands embrasements naissent de petites étincelles

На сайте Сорбонны опубликована новость о том, что ведущий университет Франции прекратил свою подписку на Web of Science, а также перестанет использовать другие библиометрические инструменты Clarivate в 2024 году. На выходных эту новость подхватили многие наши коллеги после заметки Ивана Бегтина.

Такое решение обусловлено тенденцией к переходу от проприетарных продуктов к открытым и бесплатным инструментам. Вместо WoS Сорбонна будет использовать OpenAlex, с которым университет собирается заключить партнерское соглашение. В будущем ожидается, что обе стороны возьмут на себя обязательства по сотрудничеству и улучшению качества данных, относящихся к Сорбонне.

Решение Сорбонны подпадает под общий тренд последних лет, связанный с Open Access. Так, в анонсе Сорбонны упоминается Лейденский CWTS Ranking, который также заявляет о приоритетности открытых данных, стремится к полной прозрачности и воспроизводимости своих рейтингов при помощи CrossRef и OpenAlex. Кроме того, Лейденский Университет анонсирует версию «открытого издания» своего рейтинга на базе OpenAlex в 2024 году.

Про OpenAlex в качестве потенциального конкурента библиометрических баз, доступных по подписке, довольно позитивно отзываются и другие университеты:

• Библиотеки HKU, HKUST, Сингапурского университета менеджмента и Университета Калгари публиковали обзорные статьи про OpenAlex с примерами составления API-запросов;
• О преимуществах использования OpenAlex писал университет Хьюстона;
• Лаборатория Утрехтского университета предлагает использовать данные базы в проекте FAIR data;
• Университет Милана официально ссылается на данные OpenAlex в отчетах о научно-исследовательской работе;
• Политехнический университет Каталонии (BarcelonaTech) использует данные базы в рамках мониторинга открытого доступа в каталонских университетах.

Как видно из приведенных заметок, обращение к открытым данных пока ограничивается лишь рекомендациями и инструкциями. Однако уже сейчас очевидно, что инициативу Сорбонны в перспективе могут разделить и другие ведущие университеты. Ведь большие пожары зарождаются из маленьких искр.

#анонсы #новости #открытыйдоступ #университеты #openalex
👍8
Незаслуженно упущенный мной документ GENERATIVE ARTIFICIAL INTELLIGENCE. OPPORTUNITIES, RISKS AND POLICY CHALLENGES [1] отчет European Parliamentary Technology Assessment о генеративном ИИ с точки зрения регуляторов в Евросоюзе и немного в Японии в контексте влияния ИИ на демократию. В целом весьма полезный обзорный документ.

И туда же вдогонку публикация про норвежский бюджет 2024 года [2] и упоминания расходов на ИИ в нём.

Ссылки:
[1] https://teknologiradet.no/en/publication/epta-report-2023-generative-artificial-intelligence-opportunities-risks-and-policy-challenges/
[2] https://medium.com/ethical-ai-resources/artificial-intelligence-in-the-norwegian-national-budget-for-2024-4f4d5bdde6fc

#ai #readings #eu #norway
👍1
Не все знают что в основе проекта Wikidata лежит расширение для MediaWiki под названием Wikibase [1]. Это продукт с открытым кодом созданный в Wikimedia Deutschland и используемый для баз объектов в стиле Mediawiki, со встроенным редактором свойств, схем, объектов, API и поддержкой связанных данных. У Wikibase существует множество инсталляций база которых собрана на Wikibase.world (тоже инсталляция Wikibase)).

Главное отличие Wikibase от того же Semantic MediaWiki, в том что в Semantic Mediawiki есть попытка приблизить текст к структуре, а в Wikibase это попытка приблизить данные к Wiki.

По природе своей проекты на Wikibase включая Wikidata гораздо ближе к сообществам библиотекарей, архивистов, историков и тд. Очень многие проекты на его основе сфокусированы на библиографии, языках и тд.

Но постепенно, та же Wikidata, наполняется референсными данными с которыми можно работать напрямую используя API и библиотеки вроде WikidataIntegrator [3].

Главные плюсы - системность решения, главные минусы - негибкость в отображении данных. Например, у меня в работе есть множество больших реестров которым нужны интерфейсы редактирования и визуализации, с обновлением схем и тд.

Я о некоторых писал, какие-то менее известны:
- реестр всех государственных доменных имён в РФ (от 10 до 200 тысяч)
- реестр семантических типов данных (до 5000)
- реестр порталов данных (от 10 до 20 тысяч)
- каталогов всех цифровых слепков сайлов из Ruarxive (от 10 тысяч)

Вести их в Wikibase было бы правильно, но жуть как неудобно если это не повседневный инструмент. Причём главным образом из-за отсутствия табличного, массового режима обновления данных. Хотя и интеграция с Wikidata актуальна во проектах.

Ссылки:
[1] https://www.mediawiki.org/wiki/Wikibase/Using_Wikibase
[2] https://wikibase.world/query/#PREFIX%20wdt%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fprop%2Fdirect%2F%3E%0APREFIX%20wd%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fentity%2F%3E%0A%0ASELECT%20%3FitemLabel%20%3Furl%20%3Fitem%20WHERE%20%7B%0A%20%20%20%20%3Fitem%20wdt%3AP3%20wd%3AQ10%20.%0A%20%20%20%20%3Fitem%20wdt%3AP1%20%3Furl%20.%0A%20%20%20%20%3Fitem%20wdt%3AP13%20wd%3AQ54%20.%0A%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cen%22.%20%7D%0A%7D
[3] https://github.com/SuLab/WikidataIntegrator

#opensource #wikidata #wiki
👍3
Почему я задумался о Wikibase и аналогичным проектам, потому что Airtable поменял уже какое-то время назад тарифы и теперь поддерживать там бесплатно большие таблицы невозможно. Какие-то таблицы вроде семантических типов данных и реестра каталогов данных я уже переносил в режим их редактирования в Github'е в виде тысяч YAML файлов. А теперь у меня закончилась квота на базы редактирования доменов, международных договоров и архивов сайтов. В общем что-то с этим надо делать и, либо найти альтернативу Airtable, либо перенести на Github и эти базы.

Главное отличие в том что у этих баз много разных связанных сущностей. В этом смысле гораздо проще вести базу каталогов данных, там основная сущность - это каталог. А даже в одной только базе госсайтов сущности включают: домен, организацию, ASN, регион и несколько десятков атрибутов.

Я всерьёз подумываю о том можно ли перенести такое на Wikibase или найти разумную альтернативу Airtable.

#opendata #datasets #data #government #domains
👍4🤔3💯1
Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe
👍12
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
👍10🔥3
Вдогонку к числу законов принятых в России [1], можно не дожидаться января, в 2023 году всего принято 694 закона, чуть чуть недотянули до 700. Для сравнения в 2022 году было принято 645 законов. Итого, выражаясь в терминах "палочной" статистики МВД рост составил 7,6% АППГ (к аналогичному периоду прошлого года). Можно было бы подумать как хорошо законодатели поработали в этом году, но реальность такова что больше законов - больше нормативная нагрузка на людей и бизнес. Выигрывают от них только госорганы и то не все.

Всё это напрямую относится и к регулированию данных, персональных данных, ИИ, информационной безопасности и других технологических областей. И судя по всему нет признаков того что этот тренд на рост листажа бумаги закончится.

Я хорошо помню как много лет назад когда я работал на больших ИТ проектах государственных информационных систем приёмка осуществлялась буквально килограммами бумаги. Я был свидетелем лично случая когда один начальник отдела в российском министерстве экономического хаоса указывал подрядчику показывая стопки бумаги. "Вот смотри", говорил он, "это проект на 2 миллиона и тут 200 листов, а у ты сдаёшь проект на 10 миллионов, а у тебя всего 40 листов. Надо хотя бы 400, а лучше 1000, тогда прокуроры точно утомятся читать при проверке".

Конечно, законодатели, это несколько другой случай и другая мотивация, а 99% принимаемых законов это изменения в существующие законы, но бюрократическая культура общая, в отсутствии осознания вреда от подобного нормативного "бешенства".

Ссылки։
[1] https://t.me/begtin/5257

#laws #regulation #russia
👏18👍134
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел новый релиз датасета Overture Buildings от Overture Maps [1], туда добавили данные из датасета Google и теперь единый набор данных составляет 2.3 миллиарда зданий против 1.4 в предыдущих релизах. Особенно много зданий добавлено в Азии.

Набор данных доступен в формате GeoParquet [2] и с примерами работы с ним на нескольких облачных хранилищах [3]

Данные доступны под лицензиями Odbl и CDLA Permissive 2.0.

Ссылки։
[1] https://overturemaps.org/overture-buildings-theme-hits-2-3b-buildings-with-addition-of-google-open-buildings-data/
[2] https://overturemaps.org/overture-december-2023-release-notes/
[3] https://github.com/OvertureMaps/data#data-release-feedback

#opendata #data #datasets #geodata
👍12
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
😢25👌3👍1🤔1
MongoDB взломали [1] и, похоже, скомпрометировали как минимум часть паролей клиентов, но пока нет подтверждений что хакеры получили доступ к данным клиентов в MongoDB Atlas. В любом случае, для SaaS сервиса обеспечивающего хранение данных этот инцидент крайне неприятный, плохо отразится на бизнесе.

Ссылки:
[1] https://www.mongodb.com/alerts

#data #saas #mongodb #security
😢14🤔1
В рубрике интересных наборов данных свежий датасет из 228 тысяч нормативных документов (законов, решений и тд.) Австралии. Автор собрал датасет и выложил на Hugging Face [1],а также описал процесс у себя в блоге [2] и само описание - это хорошее руководство того как самостоятельно создавать наборы данных и выложил исходный код использованный для создания такого датасета [3]. Во всех смыслах хороший пример - открытые данные + открытый код + датасет для машинного обучения. Особенно учитывая сложности в том что Австралия является конфедерацией и нет единой базы всего законодательства, а вместо этого отдельные системы на уровне центрального правительства и отдельные у штатов и в сейчас нет штата Виктория. Но даже при этих ограничениях - это большой корпус англоязычных документов полезный в работе многих инструментов.

Ссылки:
[1] https://huggingface.co/datasets/umarbutler/open-australian-legal-corpus
[2] https://umarbutler.com/how-i-built-the-largest-open-database-of-australian-law/
[3] https://github.com/umarbutler/open-australian-legal-corpus-creator

#dataset #opendata #data
👍11
Подборка полезных ссылок для чтения про данные и не только:
- WikiCrow [1] генератор статей для Википедии/другой вики посвящённых научным явлениям, в демо показывают генерацию статей по человеческим генам. Используют внутреннюю LLM без галлюцинаций и сравнивают результат со статьями в Википедии подчёркивая большую полноту и качество созданных статей. Уже интересно, подключат такой движок к Википедии или запретят подобное и появятся новые вики проекты подготовленные ИИ?
- How to make data open? Stop overlooking librarians [2] заметка в Nature про то что не надо игнорировать библиотекарей при подготовке открытых научных данных к публикации. С упоминанием инструментов Bitcurator и ReproZIP, но почему-то не упоминает автор про FrictionlessData.
- Meta is giving researchers more access to Facebook and Instagram data [3] в Meta сдвинулись в сторону предоставления доступа к данным соцсетей для исследователей. Весьма интересно, хорошо бы узнать потом в каких научных работах это будет упоминаться. Подозреваю что высока вероятность что первыми туда придут политологи в США чтобы изучать политическую рекламу.
- The oligopoly’s shift to open access: How the big five academic publishers profit from article processing charges [4] статья с оценками того сколько олигополия академических издательств зарабатывает на платежах за обработку научных статей. Подсказка - много, возможно слишком много.

Ссылки:
[1] https://www.futurehouse.org/wikicrow
[2] https://www.nature.com/articles/d41586-023-03935-1
[3] https://www.technologyreview.com/2023/11/21/1083760/meta-transparency-research-database-nick-clegg/
[4] https://direct.mit.edu/qss/article/doi/10.1162/qss_a_00272/118070/The-Oligopoly-s-Shift-to-Open-Access-How-the-Big

#opendata #data #ai #openaccess #readings
👍101
Долго думал как это прокомментировать, но комментарий подобрать никак не могу. Ничего хорошего, в принципе не-государственных и независящих от государства НКО в России практически не остаётся. Чтобы там кому ни нравилось в Википедии, страна сильно беднеет от того что вместо множества мнений остаётся лишь официальная идеология.
💯27🤔21