К вопросу о том где и как искать данные и что такое каталоги данных, есть отдельная категория каталогов данных в виде репозиториев результатов научной деятельности в которых чего только нет, но обычно это статьи, диссертации, магистерские работы, книги и реже медиафайлы и курсы. Но там бывают и данные, чаще всего их доля не очень велика, если это не специализированный репозиторий именно для данных.
Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.
Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?
Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.
А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.
Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?
Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full
#opendata #openaccess #researchdata #datasets
Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.
Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?
Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.
А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.
Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?
Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full
#opendata #openaccess #researchdata #datasets
❤🔥2
Подборка чтения про данные, технологии и не только:
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial
❤6✍1
Полезные ссылки про данные, технологии и не только:
- I Have Written You A Book On Forensic Metascience [1] о книге по перепроверке научных работ, книга небольшая и очень практически ориентированная
- GovWayback [2] сервис для простого просмотра сайтов органов власти США до 20 января 2025 года (инаугурации пр-та Трампа). Надстройка над Интернет Архивом, повышающее удобство проверки изменений на этих сайтах
- Kroki. Creates diagrams from textual descriptions! [3] бесплатное API и открытый код по генерации диаграмм и графиков из текстового описания. Поддерживает множество нотаций: BlockDiag (BlockDiag, SeqDiag, ActDiag, NwDiag, PacketDiag, RackDiag), BPMN, Bytefield, C4 (with PlantUML) и многие другие
Ссылки:
[1] https://jamesclaims.substack.com/p/i-have-written-you-a-book-on-forensic
[2] https://govwayback.com/
[3] https://kroki.io
#digitalpreservation #digramming #openaccess
- I Have Written You A Book On Forensic Metascience [1] о книге по перепроверке научных работ, книга небольшая и очень практически ориентированная
- GovWayback [2] сервис для простого просмотра сайтов органов власти США до 20 января 2025 года (инаугурации пр-та Трампа). Надстройка над Интернет Архивом, повышающее удобство проверки изменений на этих сайтах
- Kroki. Creates diagrams from textual descriptions! [3] бесплатное API и открытый код по генерации диаграмм и графиков из текстового описания. Поддерживает множество нотаций: BlockDiag (BlockDiag, SeqDiag, ActDiag, NwDiag, PacketDiag, RackDiag), BPMN, Bytefield, C4 (with PlantUML) и многие другие
Ссылки:
[1] https://jamesclaims.substack.com/p/i-have-written-you-a-book-on-forensic
[2] https://govwayback.com/
[3] https://kroki.io
#digitalpreservation #digramming #openaccess
Substack
I Have Written You A Book On Forensic Metascience
Use it to cause trouble
⚡2
Полезные ссылки про данные, технологии и не только:
- The data validation landscape in 2025 [1] обзор библиотек для языка Python по проверке данных, охватывает только open source, без SaaS зависимостей типа Soda, но с перечислением альтернатив для great expectations. Полезно всем кто пишет тесты по проверке датасетов.
- Cutting-edge web scraping techniques workshop at NICAR 2025 [2] лонгрид/обзор/материал семинара по продвинутым техникам скрейпинга сайтов, включая использование LLM, GitHub Actions, Google AI Studio и других. Автор Simon Wilson хорошо известный многим дата журналистам, автор проекта Datasette
- NVIDIA-Ingest: Multi-modal data extraction [3] ускоренное извлечение метаданных из офисных документов и pdf с помощью сервисов NDIVIA. Не пробовал ещё, но потенциально важная штука для ускорения таких задач
- Defog Introspect: Deep Research for your internal data [4] выглядит как интересный пока ещё не продукт, но демо по исследованию датасетов и PDF файлов как структурированных источников, использует несколько внешних LLM.
- Introducing the New OpenAIRE Graph API: Enhanced functionalities and real-world applications [5] у проекта поисковика/агрегатора Евросоюза по научным результатам (статьи, данные, записи в базах и тд) появилось новое графовое API. Обещают представить его 3 апреля.
- Updating the Beneficial Ownership Data Standard RDF vocabulary to help linked data users [6] обновлённый стандарт публикации данных о конечных владельцах компаний, на сей раз для тех кто хочет использовать эти данные как связанные данные.
Ссылки:
[1] https://aeturrell.com/blog/posts/the-data-validation-landscape-in-2025/
[2] https://github.com/simonw/nicar-2025-scraping/
[3] https://github.com/NVIDIA/nv-ingest
[4] https://github.com/defog-ai/introspect
[5] https://www.openaire.eu/eventdetail/1427/introducing-the-new-openaire-graph-api-enhanced-functionalities-and-real-world-applications
[6] https://www.openownership.org/en/blog/updating-the-beneficial-ownership-data-standard-rdf-vocabulary-to-help-linked-data-users/
#opendata #linkeddat #opensource #webscraping #dataquality #openaire #openaccess
- The data validation landscape in 2025 [1] обзор библиотек для языка Python по проверке данных, охватывает только open source, без SaaS зависимостей типа Soda, но с перечислением альтернатив для great expectations. Полезно всем кто пишет тесты по проверке датасетов.
- Cutting-edge web scraping techniques workshop at NICAR 2025 [2] лонгрид/обзор/материал семинара по продвинутым техникам скрейпинга сайтов, включая использование LLM, GitHub Actions, Google AI Studio и других. Автор Simon Wilson хорошо известный многим дата журналистам, автор проекта Datasette
- NVIDIA-Ingest: Multi-modal data extraction [3] ускоренное извлечение метаданных из офисных документов и pdf с помощью сервисов NDIVIA. Не пробовал ещё, но потенциально важная штука для ускорения таких задач
- Defog Introspect: Deep Research for your internal data [4] выглядит как интересный пока ещё не продукт, но демо по исследованию датасетов и PDF файлов как структурированных источников, использует несколько внешних LLM.
- Introducing the New OpenAIRE Graph API: Enhanced functionalities and real-world applications [5] у проекта поисковика/агрегатора Евросоюза по научным результатам (статьи, данные, записи в базах и тд) появилось новое графовое API. Обещают представить его 3 апреля.
- Updating the Beneficial Ownership Data Standard RDF vocabulary to help linked data users [6] обновлённый стандарт публикации данных о конечных владельцах компаний, на сей раз для тех кто хочет использовать эти данные как связанные данные.
Ссылки:
[1] https://aeturrell.com/blog/posts/the-data-validation-landscape-in-2025/
[2] https://github.com/simonw/nicar-2025-scraping/
[3] https://github.com/NVIDIA/nv-ingest
[4] https://github.com/defog-ai/introspect
[5] https://www.openaire.eu/eventdetail/1427/introducing-the-new-openaire-graph-api-enhanced-functionalities-and-real-world-applications
[6] https://www.openownership.org/en/blog/updating-the-beneficial-ownership-data-standard-rdf-vocabulary-to-help-linked-data-users/
#opendata #linkeddat #opensource #webscraping #dataquality #openaire #openaccess
Arthur Turrell
Arthur Turrell is an economic data scientist.
👍8
Полезные ссылки про данные, технологии и не только:
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
GitHub
GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 - SakanaAI/AI-Scientist
1👍5❤1✍1
Совсем не первоапрельская новость, закрывается проект openSNP [1] о чём пишет его создатель у себя в блоге [2]. Это была и пока ещё есть открытая база расшифрованных геномов позволявшая искать родственников, делиться результатами расшифровки генома с другими, а исследователям ещё и находить связи между генотипом и фенотипом.
Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.
В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.
Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих
А судьба проекта openSNP, безусловно, печалит.
Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/
#opendata #openaccess #genetics #data
Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.
В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.
Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих
А судьба проекта openSNP, безусловно, печалит.
Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/
#opendata #openaccess #genetics #data
💔12
Я лично не пишу научных статей, потому что или работа с данными, или писать тексты. Но немало статей я читаю, почти всегда по очень узким темам и пользуюсь для этого, в основном, Semantic Scholar и подобными инструментами. Смотрю сейчас Ai2 Paper Finder [1] от института Аллена и они в недавнем его анонсе [2] пообещали что он умеет находить очень релевантные ответы по по очень узким темам. Собственно вот пример запроса по узкой интересной мне теме и он нашёл по ней 49 работ.
Вот это очень интересный результат, в списке интересных мне инструментов прибавилось однозначно.
Там же в анонсе у них есть ссылки на схожие продукты в этой области и на бенчмарки LitSearch [3] и Pasa [4] для измерения качества поиска по научным работам работам.
Ссылки:
[1] https://paperfinder.allen.ai/
[2] https://allenai.org/blog/paper-finder
[3] https://github.com/princeton-nlp/LitSearch
[4] https://github.com/bytedance/pasa
#ai #openaccess #opensource #science
Вот это очень интересный результат, в списке интересных мне инструментов прибавилось однозначно.
Там же в анонсе у них есть ссылки на схожие продукты в этой области и на бенчмарки LitSearch [3] и Pasa [4] для измерения качества поиска по научным работам работам.
Ссылки:
[1] https://paperfinder.allen.ai/
[2] https://allenai.org/blog/paper-finder
[3] https://github.com/princeton-nlp/LitSearch
[4] https://github.com/bytedance/pasa
#ai #openaccess #opensource #science
🔥19❤1
В рубрике интересных наборов данных и проектов на данных HydroSheds [1] включающий наборы геоданных со всеми озёрами, реками, речными бассейнами, речной сетью, побережью озёр и так далее. Множество датасетов в форматах GDP и SHP и общим объёмом в несколько десятков, может быть, более 100ГБ сжатом виде.
Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.
Ссылки:
[1] https://www.hydrosheds.org
#opendata #geodata #hydrology #openaccess
Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.
Ссылки:
[1] https://www.hydrosheds.org
#opendata #geodata #hydrology #openaccess
1👍15
Anthropic запустили программу AI for Science [1] обещая выдавать существенное количество кредитов для запросов к их AI моделям. Акцент в их программе на проекты в областях биологии и наук о жизни, обещают выдавать кредитов до 20 тысяч USD, так что это вполне себе серьёзные гранты для небольших целевых проектов. Ограничения по странам не указаны, но указание научного учреждения и ещё многих других данных в заявке обязательно.
И на близкую тему Charting the AI for Good Landscape – A New Look [2] о инициативах в области ИИ затрагивающих НКО и инициативы по улучшению жизни, так называемые AI for Good. Применение AI в науках о жизни - это почти всегда AI for Good, так что всё это очень взаимосвязано.
Ссылки:
[1] https://www.anthropic.com/news/ai-for-science-program
[2] https://data.org/news/charting-the-ai-for-good-landscape-a-new-look/
#openaccess #openscience #ai #grants #readings
И на близкую тему Charting the AI for Good Landscape – A New Look [2] о инициативах в области ИИ затрагивающих НКО и инициативы по улучшению жизни, так называемые AI for Good. Применение AI в науках о жизни - это почти всегда AI for Good, так что всё это очень взаимосвязано.
Ссылки:
[1] https://www.anthropic.com/news/ai-for-science-program
[2] https://data.org/news/charting-the-ai-for-good-landscape-a-new-look/
#openaccess #openscience #ai #grants #readings
Anthropic
Introducing Anthropic's AI for Science Program
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
👍3✍2
В рубрике как это устроено у них репозитории открытых научных данных Dataverse [1] - это программный продукт с открытым кодом репозитория научных данных, разработанный в Гарварде и имеющий более 129 инсталляций в мире, используемый для публикации именно научных данных с учётом их специфики: выдачи DOI, поддержки OAI-PMH, расширенных метаданных, разных режимов доступа и так далее.
Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]
Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.
Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/
#opendata #openaccess #datacatalogs
Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]
Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.
Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/
#opendata #openaccess #datacatalogs
✍4❤1❤🔥1
26-29 июня пройдет V международная летняя школа молодых ученых по исторической информатике [1] где я 29-го числа дистанционно выступлю с докладом Особенности открытого доступа и открытых данных в гуманитарных науках
Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.
Ссылки:
[1] https://aik.timepad.ru/event/3375051/
#opendata #openaccess
Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.
Ссылки:
[1] https://aik.timepad.ru/event/3375051/
#opendata #openaccess
aik.timepad.ru
V международная летняя школа молодых ученых по исторической информатике / События на TimePad.ru
Ассоциация исследователей в области исторической информатики (АИК) и Исторический факультет МГУ имени М.В. Ломоносова 26 – 29 июня 2025 г. проводят международную летнюю школу молодых ученых по исторической информатике — «Историческая информатика – 2025».
👍11⚡5❤🔥3
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.
Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/
#openaccess #glam #libraries #opendata #data
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.
Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/
#openaccess #glam #libraries #opendata #data
👍8⚡4
Для тех кто интересуется моя презентация Особенности открытого доступа и открытых данных в гуманитарных науках [1] в открытом доступе, с обзором открытого доступа и открытых научных данных
Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk
#opendata #openaccess
Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk
#opendata #openaccess
1👍17
Свежий инструмент для исследователей ORKG Ask даёт структурированные ответы на вопросы на основе CORE Dataset, крупнейшей базы научных статей открытого доступа в мире (418 миллионов статей)
Основное применение тут в виде подборок статей для цитирования.
#openaccess #opensource
Основное применение тут в виде подборок статей для цитирования.
#openaccess #opensource
👍6
В рубрике как это устроено у них BioImage портал с ИИ моделями для анализа биоизображений, приложениями на основе этих моделей и наборами данных используемыми исследователями для разработки этих моделей. Создаётся в AI4Life consortium за счёт поддержки Евросоюза (программа Horizon). Большая часть каталога наборов данных собрана из разбросанных по сайтам исследовательских центров датасетов, порталов с данными вроде Zenodo и тд.
#opendata #datacatalogs #datasets #eu #openaccess
#opendata #datacatalogs #datasets #eu #openaccess
👍3
Кстати, как человек любящий не только цифровые архивы, но и исторические книжки тоже не могу не упомянуть про очень интересный проект от Банка России с виртуальной выставкой по истории Банка. Мало какие центральные банки в мире делают такие проекты, так что это хорошо что такое появляется (если знаете аналогичные проекты в других странах, то напишите плз). Я знаю только Federal Reserve History в США.
Но интересность материалов и их доступность омрачает то что материалы есть, а можно ли их использовать? В основном нет.
Вот самые очевидные проблемы:
1. Нет нигде явным образом указанных условий использования материалов. Можно ли использовать их на своём сайте? Можно ли на их основе писать учебные материалы? Можно ли цитировать и тд. Понятно что у разных материалов может быть разный статус, но не надо забывать насколько это важно можно ли использовать такие материалы.
2. Просмотр материалов только на сайте - это никуда не годится. Возможность скачать исторические книжки нужна для бесконечного числа задач: внутренних библиотек университетов, таких проектов как Цифровой архив госфинансов и госуправления, возможность почитать книги оффлайн, возможность обучить на них ИИ, возможность создать наборы данных и многое другое.
Если делать хорошо, то делать до конца, не надо останавливаться на полпути.
#digitalpreservation #books #finances #digitalhumanities #openaccess
Но интересность материалов и их доступность омрачает то что материалы есть, а можно ли их использовать? В основном нет.
Вот самые очевидные проблемы:
1. Нет нигде явным образом указанных условий использования материалов. Можно ли использовать их на своём сайте? Можно ли на их основе писать учебные материалы? Можно ли цитировать и тд. Понятно что у разных материалов может быть разный статус, но не надо забывать насколько это важно можно ли использовать такие материалы.
2. Просмотр материалов только на сайте - это никуда не годится. Возможность скачать исторические книжки нужна для бесконечного числа задач: внутренних библиотек университетов, таких проектов как Цифровой архив госфинансов и госуправления, возможность почитать книги оффлайн, возможность обучить на них ИИ, возможность создать наборы данных и многое другое.
Если делать хорошо, то делать до конца, не надо останавливаться на полпути.
#digitalpreservation #books #finances #digitalhumanities #openaccess
🔥7❤4👍4💯1
Forwarded from Инфокультура
Объявлен приём заявок на Премию «Открытый доступ к данным в гуманитарных науках»
АНО «Инфокультура» приглашает студентов, аспирантов, преподавателей, исследователей и сотрудников вузов и научных организаций принять участие в конкурсе проектов, способствующих развитию открытой науки в гуманитарной сфере.
📌 Что можно подать:
– результаты научных исследований,
– цифровые проекты, связанные с гуманитарными дисциплинами,
– дипломные и курсовые проекты,
– иные работы, представляющие гуманитарные данные в открытом доступе.
📚 Номинации Премии:
• История
• Филология
• Культура
• Искусство
• Иные гуманитарные науки
Номинировать проект может как сам автор (или коллектив авторов), так и любой человек или организация, знакомые с проектом. Год публикации работы не имеет значения.
🏅 Лауреаты получат памятные награды, сертификаты и специальные призы от организаторов и партнёров Премии.
📝 Приём заявок уже открыт!
🔗 https://humawards.ru
#opendata #openaccess #humanitarian #contest
АНО «Инфокультура» приглашает студентов, аспирантов, преподавателей, исследователей и сотрудников вузов и научных организаций принять участие в конкурсе проектов, способствующих развитию открытой науки в гуманитарной сфере.
📌 Что можно подать:
– результаты научных исследований,
– цифровые проекты, связанные с гуманитарными дисциплинами,
– дипломные и курсовые проекты,
– иные работы, представляющие гуманитарные данные в открытом доступе.
📚 Номинации Премии:
• История
• Филология
• Культура
• Искусство
• Иные гуманитарные науки
Номинировать проект может как сам автор (или коллектив авторов), так и любой человек или организация, знакомые с проектом. Год публикации работы не имеет значения.
🏅 Лауреаты получат памятные награды, сертификаты и специальные призы от организаторов и партнёров Премии.
📝 Приём заявок уже открыт!
🔗 https://humawards.ru
#opendata #openaccess #humanitarian #contest
❤🔥8👍5❤2🤝2
К вопросу о работе с данными в гуманитарных науках, я, честно говоря, долго об этом думал в контексте что много что команда Инфокультуры и я лично делаем в этой теме хотя и гуманитарные науки для нас совсем не основная тема. Но есть, как минимум, такие проекты как finlibrary.ru и Ruarxive.org, а также множество других меньшего масштаба по сохранению цифрового и аналогового культурного наследия.
И вот посмотрев на окружающий мир лично я понял что слишком мало я знаю о том кто что хорошого открытого и цифрового в области культуры делает. Причем именно в такой комбинации, на первом месте открытость и лишь на втором месте цифра. Не просто какой-то интерактивный проект или работа, а под свободными лицензиями, с открытым кодом и открытыми данными.
Поэтому мы организовали премию цель которой найти лучшие и вдохновляющие примеры того что делают исследователи в гуманитарных науках. Потому что в других науках и так много всего происходит, а в гуманитарных очень многое не на поверхности, не очевидно, но интересно.
Не стесняйтесь подавать собственные проекты, не стесняйтесь номинировать уже сделанное. Это не конкурс и не хакатон, тут не надо делать что-то на заказ, можно и нужно номинировать существующее.
#opendata #openaccess #humanitarian #contest
И вот посмотрев на окружающий мир лично я понял что слишком мало я знаю о том кто что хорошого открытого и цифрового в области культуры делает. Причем именно в такой комбинации, на первом месте открытость и лишь на втором месте цифра. Не просто какой-то интерактивный проект или работа, а под свободными лицензиями, с открытым кодом и открытыми данными.
Поэтому мы организовали премию цель которой найти лучшие и вдохновляющие примеры того что делают исследователи в гуманитарных науках. Потому что в других науках и так много всего происходит, а в гуманитарных очень многое не на поверхности, не очевидно, но интересно.
Не стесняйтесь подавать собственные проекты, не стесняйтесь номинировать уже сделанное. Это не конкурс и не хакатон, тут не надо делать что-то на заказ, можно и нужно номинировать существующее.
#opendata #openaccess #humanitarian #contest
❤8🔥4👍2
В контексте премии по открытому доступу в гуманитарных науках (humawards.ru) о том как предоставлять материалы в открытом доступе.
1. В основе открытости данных исследователей лежат принципы FAIR (Findability, Accessibility, Interoperability, Reuse). Описание на русском языке есть в русскоязычной википедии и многих онлайн ресурсах, их легко найти по ключевым словам "принципы FAIR".
2. Ключевое в этих принципах в публикации данных результатов исследований таким образом чтобы их могли использовать другие и в использовании данных другими опубликованные. Использование включает юридические права (свободные лицензии), техническую возможность (удобные форматы и документация) и находимость (возможность найти эти данные).
3. Для публикации данных исследователи в мире чаще всего используют такие порталы как Zenodo, Figshare, Dataverse, институциональные репозитории и специализированные репозитории данных по своим дисциплинам.
4. Альтернативно часто данные публикуются на открытых платформах для публикации исходного кода таких как Github и Gitlab или же через развертывание собственных порталов для данных, к примеру Инфокультура поддерживает портал hubofdata.ru в России.
5. Кроме публикации данных к открытому доступу можно отнести и публикацию открытого кода, как правило, также публикуемого на платформах вроде Github или Gitlab, реже на других сайтах.
6. Конечно, кроме этого существует многие материалы по открытому доступу которые не являются данными или кодом, это могут быть курсы, лекции, просветительские материалы, для которых, впрочем, хорошей практикой является их публикация под свободными лицензиями такими как CC0, CC-BY и им подобные.
В итоге на премию по Открытому доступу (humawards.ru) можно, как существующий проект/результат работы, так и открыть ранее созданный. Опубликовать исходный код, открытые данные, выложить материалы под свободными лицензиями и так далее.
Всё это хорошие и полезные практики вне зависимости от премии, так что потерять тут что-либо сложно, а приобрести репутацию, карму и единомышленников возможно.
Я бы описал подробнее что хотелось бы увидеть в заявках на премию, но премия - это оценка уже созданного, а не конкурс. Это понимание для организаторов текущей среды появления открытых и цифровых проектов с акцентом именно на открытость, потому что лично я убежден что в гуманитарных науках цифровизация без открытости не ведет к формированию общественного блага, а ничем другим инициативы в области культуры, истории и тд. быть не могут.
#opendata #openaccess #contest #humanitarian #opensource
1. В основе открытости данных исследователей лежат принципы FAIR (Findability, Accessibility, Interoperability, Reuse). Описание на русском языке есть в русскоязычной википедии и многих онлайн ресурсах, их легко найти по ключевым словам "принципы FAIR".
2. Ключевое в этих принципах в публикации данных результатов исследований таким образом чтобы их могли использовать другие и в использовании данных другими опубликованные. Использование включает юридические права (свободные лицензии), техническую возможность (удобные форматы и документация) и находимость (возможность найти эти данные).
3. Для публикации данных исследователи в мире чаще всего используют такие порталы как Zenodo, Figshare, Dataverse, институциональные репозитории и специализированные репозитории данных по своим дисциплинам.
4. Альтернативно часто данные публикуются на открытых платформах для публикации исходного кода таких как Github и Gitlab или же через развертывание собственных порталов для данных, к примеру Инфокультура поддерживает портал hubofdata.ru в России.
5. Кроме публикации данных к открытому доступу можно отнести и публикацию открытого кода, как правило, также публикуемого на платформах вроде Github или Gitlab, реже на других сайтах.
6. Конечно, кроме этого существует многие материалы по открытому доступу которые не являются данными или кодом, это могут быть курсы, лекции, просветительские материалы, для которых, впрочем, хорошей практикой является их публикация под свободными лицензиями такими как CC0, CC-BY и им подобные.
В итоге на премию по Открытому доступу (humawards.ru) можно, как существующий проект/результат работы, так и открыть ранее созданный. Опубликовать исходный код, открытые данные, выложить материалы под свободными лицензиями и так далее.
Всё это хорошие и полезные практики вне зависимости от премии, так что потерять тут что-либо сложно, а приобрести репутацию, карму и единомышленников возможно.
Я бы описал подробнее что хотелось бы увидеть в заявках на премию, но премия - это оценка уже созданного, а не конкурс. Это понимание для организаторов текущей среды появления открытых и цифровых проектов с акцентом именно на открытость, потому что лично я убежден что в гуманитарных науках цифровизация без открытости не ведет к формированию общественного блага, а ничем другим инициативы в области культуры, истории и тд. быть не могут.
#opendata #openaccess #contest #humanitarian #opensource
❤5👍5✍4🏆3⚡1
В рубрике как это устроено у них каталог открытого ПО для исследователей Research Software Repository (RSD)
Включает 1066 программных продуктов привязанных к 352 научным проектам, 529 организациям с упоминанием 2134 контрибьюторов и 27994 упоминания в научных работах.
Проект создан в eScienceCenter в Нидерландах и сам тоже с открытым кодом.
Кроме всего прочего они еще и скрейпят коммиты в Git репозитории на Github и других платформах и показывают уровень активности работы над репозиториями.
Сам проект тоже с открытым кодом.
Учитывая что большая часть ПО создано в рамках государственных научных программ, этот проект можно также рассматривать как портал систематизации, раскрытия и поиска государственного ПО в части научных исследований.
#opensource #research #openaccess
Включает 1066 программных продуктов привязанных к 352 научным проектам, 529 организациям с упоминанием 2134 контрибьюторов и 27994 упоминания в научных работах.
Проект создан в eScienceCenter в Нидерландах и сам тоже с открытым кодом.
Кроме всего прочего они еще и скрейпят коммиты в Git репозитории на Github и других платформах и показывают уровень активности работы над репозиториями.
Сам проект тоже с открытым кодом.
Учитывая что большая часть ПО создано в рамках государственных научных программ, этот проект можно также рассматривать как портал систематизации, раскрытия и поиска государственного ПО в части научных исследований.
#opensource #research #openaccess
✍3👍3