Я ранее писал про сервис ExplainPaper [1] который генерировал сжатое изложение научных статей понятным языком. С той поры сервис быстро коммерциализировался, так что, очень похоже, что услуга эта востребована, а с появлением ChatGPT, GPT-4 и других языковых моделей ещё не раз реинкарнирует.
Из свежих подобных продуктов стартап OpenRead [2]. Сервис автоматически генерирует краткое изложение, так называемое Paper Expresso и позволяет естественным языком задать вопросы по научной статье и получить развернутые ответы. Я проверил на нескольких статьях которые сам читаю, перечитываю, учитываю в своей работе и результаты вполне практичные. Я, правда, не считаю что такие сервисы должны быть сами по себе, гораздо естественнее они будут как часть платформ вроде Google Scholar, Semantic Scholar или Arxive.org и др.
Например, будучи подписанным на рассылки Semantic Scholar по нескольким научным темам могу сказать что главное неудобство в отсутствии кратких понятных аннотаций к статьям. Но это только самое очевидное применение, более интересные модели в уже более серьёзном применении ИИ с предобучением на научных статьях по направлениям, почти наверняка такие AI ассистенты появятся (уже появились?) в ближайшем будущем.
Ссылки։
[1] https://t.me/begtin/4346
[2] https://www.openread.academy
#startups #ai #science #papers #readings
Из свежих подобных продуктов стартап OpenRead [2]. Сервис автоматически генерирует краткое изложение, так называемое Paper Expresso и позволяет естественным языком задать вопросы по научной статье и получить развернутые ответы. Я проверил на нескольких статьях которые сам читаю, перечитываю, учитываю в своей работе и результаты вполне практичные. Я, правда, не считаю что такие сервисы должны быть сами по себе, гораздо естественнее они будут как часть платформ вроде Google Scholar, Semantic Scholar или Arxive.org и др.
Например, будучи подписанным на рассылки Semantic Scholar по нескольким научным темам могу сказать что главное неудобство в отсутствии кратких понятных аннотаций к статьям. Но это только самое очевидное применение, более интересные модели в уже более серьёзном применении ИИ с предобучением на научных статьях по направлениям, почти наверняка такие AI ассистенты появятся (уже появились?) в ближайшем будущем.
Ссылки։
[1] https://t.me/begtin/4346
[2] https://www.openread.academy
#startups #ai #science #papers #readings
О том как развивается научная инфраструктура, на примере, Австралии где с 1 января 2023 года начался полугодовой проект Australian National Persistent Identifier (PID) Strategy and Roadmap [1] по разработке дорожной карты и стратегии внедрения постоянных идентификаторов (PID) ко всем результатам, процессам, объектам, субъектам и вообще всему значимому в научной деятельности.
Этому проекту предшествовал доклад Incentives to Invest in Identifiers [2] о том как сейчас постоянные идентификаторы используются австралийскими исследовательскими центрами и, если вкратце, то там сложилась уже весьма зрелая инфраструктура с использованием DOI (Crossref, Datacite), Handle, PURL, ORCID, RoR, RaiD, IGSN и ещё многих других идентификаторов.
В исследовании есть отсылка к тому что подобная же работа идёт в Великобритании.
Похожий системный подход к постоянным идентификаторам есть в Китае, где наряду с DOI используют свой национальный идентификатор CSTR, но китайский опыт, почему-то, австралийцы в исследовании не упоминают.
Почему это важно? Для анализа любых научных данных критично иметь возможность "связывать данные" многочисленных систем учёта и управления научной деятельностью. В публичном доступе используются открытые и коммерческие графы знаний которые построены на такой связности идентификаторы, в непубличном доступе есть возможность связывать с другими данными.
Что интересно в австралийской инициативе - это взгляд на весь этот процесс с точки зрения экономии времени исследователей и средств государства, и в докладе, и в стратегии закладывается финансово-экономическое обоснование всего проекта.
Ссылки։
[1] https://ardc.edu.au/project/australian-national-persistent-identifier-pid-strategy-and-roadmap/
[2] https://ardc.edu.au/resource/incentives-to-invest-in-identifiers-report/
[3] https://www.cstr.cn/en/
#openaccess #science #persistentidentifier #scientificifrastructure
Этому проекту предшествовал доклад Incentives to Invest in Identifiers [2] о том как сейчас постоянные идентификаторы используются австралийскими исследовательскими центрами и, если вкратце, то там сложилась уже весьма зрелая инфраструктура с использованием DOI (Crossref, Datacite), Handle, PURL, ORCID, RoR, RaiD, IGSN и ещё многих других идентификаторов.
В исследовании есть отсылка к тому что подобная же работа идёт в Великобритании.
Похожий системный подход к постоянным идентификаторам есть в Китае, где наряду с DOI используют свой национальный идентификатор CSTR, но китайский опыт, почему-то, австралийцы в исследовании не упоминают.
Почему это важно? Для анализа любых научных данных критично иметь возможность "связывать данные" многочисленных систем учёта и управления научной деятельностью. В публичном доступе используются открытые и коммерческие графы знаний которые построены на такой связности идентификаторы, в непубличном доступе есть возможность связывать с другими данными.
Что интересно в австралийской инициативе - это взгляд на весь этот процесс с точки зрения экономии времени исследователей и средств государства, и в докладе, и в стратегии закладывается финансово-экономическое обоснование всего проекта.
Ссылки։
[1] https://ardc.edu.au/project/australian-national-persistent-identifier-pid-strategy-and-roadmap/
[2] https://ardc.edu.au/resource/incentives-to-invest-in-identifiers-report/
[3] https://www.cstr.cn/en/
#openaccess #science #persistentidentifier #scientificifrastructure
Любопытный исследовательский проект ORKG [1] дословно The Open Research Knowledge Graph (ORKG) aims to describe research papers in a structured manner. With the ORKG, papers are easier to find and compare.
А в переводе на русский язык посвящённый структуризации научных публикаций. Обратите внимание, не упрощённое понятное понимание, а именно структуризация. Фактически - это перевод научной статьи в данные/граф знаний с привязкой к Wikidata. Делает его команда TIB – Leibniz Information Centre for Science and Technology которые под руководством Сорена Ауэра, команда которого когда-то создавала DbPedia. Фактически проект создаёт структурированную базу научных статей, задача эта очень непростая, но реалистичная и наукоёмкая.
Да, у них открытое API, точки подключения к SPARQL и много чего открытого.
Ссылки:
[1] https://orkg.org
#opendata #openapi #openscience #knowledge #science
А в переводе на русский язык посвящённый структуризации научных публикаций. Обратите внимание, не упрощённое понятное понимание, а именно структуризация. Фактически - это перевод научной статьи в данные/граф знаний с привязкой к Wikidata. Делает его команда TIB – Leibniz Information Centre for Science and Technology которые под руководством Сорена Ауэра, команда которого когда-то создавала DbPedia. Фактически проект создаёт структурированную базу научных статей, задача эта очень непростая, но реалистичная и наукоёмкая.
Да, у них открытое API, точки подключения к SPARQL и много чего открытого.
Ссылки:
[1] https://orkg.org
#opendata #openapi #openscience #knowledge #science
В рубрике интересных наборов данных CloudDrift, a platform for accelerating research with Lagrangian climate data [1] - это программная библиотека для доступа к данным собираемым с 25 тысяч дрейфующих буев в рамках программы Global Drifter Program (GDP) [2] реализуемой Национальным управлением океанических и атмосферных исследований США. Сами данные размещены на серверах Amazon и доступны в их сервисе S3 [3].
Особенность Clouddrift в том к конкретным датасетам публикуется ещё и полноценная библиотека для доступа к ним и анализа с учётом специфики данных и контекста. Авторы не первые и не единственные кто так делает, для Python есть какое-то количество программных библиотек реализованных на том же принципе, когда данные доступны не только как файлы и API, но и сразу в виде DataFrame для Pandas или как XArray в данном случае.
Что характерно, этот проект один из десятков проектов данных и инструментов о Земле финансируемый Национальным научным фондом США в рамках сообщества и программы EarthCube [4]
Ссылки:
[1] https://cloud-drift.github.io/clouddrift/
[2] https://www.aoml.noaa.gov/phod/gdp/
[3] https://registry.opendata.aws/noaa-oar-hourly-gdp/
[4] https://www.earthcube.org/funded-projects
#opendata #opensource #science #usa #earthsciences #geodata
Особенность Clouddrift в том к конкретным датасетам публикуется ещё и полноценная библиотека для доступа к ним и анализа с учётом специфики данных и контекста. Авторы не первые и не единственные кто так делает, для Python есть какое-то количество программных библиотек реализованных на том же принципе, когда данные доступны не только как файлы и API, но и сразу в виде DataFrame для Pandas или как XArray в данном случае.
Что характерно, этот проект один из десятков проектов данных и инструментов о Земле финансируемый Национальным научным фондом США в рамках сообщества и программы EarthCube [4]
Ссылки:
[1] https://cloud-drift.github.io/clouddrift/
[2] https://www.aoml.noaa.gov/phod/gdp/
[3] https://registry.opendata.aws/noaa-oar-hourly-gdp/
[4] https://www.earthcube.org/funded-projects
#opendata #opensource #science #usa #earthsciences #geodata
В рубрике интересных продуктов на данных SemOpenAlex [1] граф знаний на 26 миллиардов RDF triples с базой из более чем 249 миллионов научных работ от 135 миллионов авторов и из 226 тысяч источников.
Проект включает открытое API и возможность скачать дамп целиком [2].
Данные и API доступны под лицензией CC0 и имеют множество возможных применений во всём что касается картирования науки и научной деятельности.
Ссылки:
[1] https://semopenalex.org
[2] https://semopenalex.org/resource/?uri=http%3A%2F%2Fdatasets.metaphacts.com%2Fsemopenalex
#opendata #datasets #researchdata #science #semanticdata
Проект включает открытое API и возможность скачать дамп целиком [2].
Данные и API доступны под лицензией CC0 и имеют множество возможных применений во всём что касается картирования науки и научной деятельности.
Ссылки:
[1] https://semopenalex.org
[2] https://semopenalex.org/resource/?uri=http%3A%2F%2Fdatasets.metaphacts.com%2Fsemopenalex
#opendata #datasets #researchdata #science #semanticdata
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.
Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194
#opendata #openaccess #research #science
Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194
#opendata #openaccess #research #science
В рубрике как это устроено у них открытые научные данные в такой, далеко не всем известной научной дисциплине как материаловедение.
Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.
Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов
У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.
Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.
Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/
#opendata #openaccess #openscience #science #research #materials #molecules
Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.
Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов
У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.
Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.
Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/
#opendata #openaccess #openscience #science #research #materials #molecules