В рубрике интересных проектов на данных Open Syllabus [1] проект по сбору базы данных и визуализации информации о литературе для чтения рекомендуемой на курсах в университетах и колледжах. Огромный охват курсов по США, Великобритании и другим англосаксонским странам, в меньшей степени по странам Европы, а также довольно много по Японии, Тайваню и ряду других стран. Сразу скажу что из постсоветских стран там нет России, Туркменистана, Азербайджана, Таджикистана, остальные есть, но, как я понимаю, только в англоязычной их части и привязанные к англоязычным курсам.
В то же время проект очень наглядный, хорошо демонстрирующий влияние писателей и произведений на образование. Из российских писателей времен империи ожидаемо акцент на Достоевском.
Все источники открытые, явно немало ручной работы. Сам проект имеет открытый контур в виде базы, рейтингов, визуализаций и тд.
А монетизация идёт через сервис аналитики для методистов [2].
Ссылки:
[1] https://www.opensyllabus.org
[2] https://analytics.opensyllabus.org
#opendata #readings #texts #syllabus
В то же время проект очень наглядный, хорошо демонстрирующий влияние писателей и произведений на образование. Из российских писателей времен империи ожидаемо акцент на Достоевском.
Все источники открытые, явно немало ручной работы. Сам проект имеет открытый контур в виде базы, рейтингов, визуализаций и тд.
А монетизация идёт через сервис аналитики для методистов [2].
Ссылки:
[1] https://www.opensyllabus.org
[2] https://analytics.opensyllabus.org
#opendata #readings #texts #syllabus
Governing Urban Data for the Public Interest [1] свежий документ от команды The New Institute and the Free and Hanseatic City of Hamburg подготовленный в рамках инициативы The New Hanse (Новая Ганза) и посвящённый управлению данными и открытым данным в Гамбурге. Документ раскрывает темы Urban Data Platform (UDP) / Городской платформы данных (ГПД) и подход через посредников в работе с данными (data intermediaries).
Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.
Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.
В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.
Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/
#opendata #cities #europe #readings
Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.
Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.
В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.
Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/
#opendata #cities #europe #readings
International Data Spaces
Home - International Data Spaces
The International Data Spaces Association (IDSA) is on a mission to create the future of the global, digital economy with IDS, a secure, sovereign system of data exchange in which all participants can realize the full value of their data. IDS enables new…
В рубрике регулярного чтения про данные, технологии и не только:
Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.
Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage
Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.
Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.
Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en
#readings #opensource #data #datatools #ai #privacy
Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.
Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage
Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.
Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.
Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en
#readings #opensource #data #datatools #ai #privacy
www.canada.ca
Minister Anand announces a ban on the use of WeChat and Kaspersky suite of applications on government mobile devices - Canada.ca
President of the Treasury Board, Anita Anand, announced a ban on the use of the WeChat and Kaspersky suite of applications on government-issued mobile devices.
Команда исследователей из Microsoft и Github'а разместили препринт статьи Open Data on GitHub: Unlocking the Potential of AI [1], о том что на Github'е хостится порядка 800 миллионов файлов открытых данных общим объёмом около 142 терабайт.
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.
Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23
#ai #opendata #wikidata #datasets #research #readings
Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23
#ai #opendata #wikidata #datasets #research #readings
В рубрике как это устроено у них в открытых данных:
- в Евросоюзе активно развивается проект Open Maps For Europe 2 (OME2) [1] по созданию единых продуктов геоданных и на геоданных покрывающих все страны ЕС и стран входящих в партнерства со странами ЕС. В основе проекта директива о публикации особо ценных наборов данных и ранее созданный проект Maps For Europe [2]. Можно обратить внимание что занимается проектом Eurogeographic, ассоциация из 60 организаций из 46 стран. Большая часть организаций - это государственные кадастровые комитеты. Среди них есть, например, кадастровые службы Армении, Белоруссии, Турции и Азебайджана. И, ожидаемо, нет российской кадастровой службы
- в США в MIT раздают награды учёным публикующим открытые научные данные [3] всего 11 победителей из 80 номинантов, с призами в $2500. Поощряются исследователи опубликовавшие востребованные исследовательские данные как часть своих научных работ, а также создателей инструментов с открытым кодом по удобной работе с этими данными. Среди работ много интересного, например, ITU Compliance Assessment Monitor [4] инструмент и наборы данных мониторинга того как операторы геостационарных спутников отчитываются перед Международным союзом электросвязи (ITU), спойлер: чаще всего игнорируют необходимость предоставления информации. А вот другой пример, база данных WormWideWeb [5] собранная из общедоступных баз нейронов нематод C. Elegans.
- Open Government Partnership, партнерство открытых правительств, активно расширяется на уровне городов, в OGP Local [6] уже участвует около 100 городов и в течение 2024 года собираются принять около 50 [7], в том числе из стран не входящих в партнерство. Эдакое погружение в суб-национальный уровень и, похоже, набирающее обороты. Среди постсоветских городов там присутствуют: Армавир, Гюмри, Ереван и Ванадзор в Армении, 6 городов в Грузии, Бишкек из Киргизии, 3 города Украины. В общем-то не так мало. Но более всего мексиканских и индонезийских городов. Частично вся эта инициатива пересекается с Open Data Charter [8] (Хартия открытых данных) которую подписали власти многих городов.
- во Франции трекер публикации открытых данных на портале data.gouv.fr [9] можно убедиться что кроме того что данные опубликованы, они продолжают регулярно раскрываться по запросу пользователей, многое запланировано к публикации и многие запросы ещё анализируются. В целом французский портал открытых данных наиболее системно развивается, они достаточно давно переходят от публикации файлов наборов данных, к публикации их согласно схемам данных которые ведутся в отдельном реестре.
Ссылки:
[1] https://eurogeographics.org/open-maps-for-europe/ome2-progress/
[2] https://www.mapsforeurope.org
[3] https://news.mit.edu/2023/rewarding-excellence-in-open-data-1116
[4] https://github.com/ThomasGRoberts/ITU-Compliance-Assessment-Monitor
[5] https://wormwideweb.org/
[6] https://www.opengovpartnership.org/ogp-local/
[7] https://www.opengovpartnership.org/ogp-local/join-ogp-local-call-for-expressions-of-interest-2023/
[8] https://opendatacharter.net/
[9] https://ouverture.data.gouv.fr/?status=Planifi%C3%A9
#opendata #readings
- в Евросоюзе активно развивается проект Open Maps For Europe 2 (OME2) [1] по созданию единых продуктов геоданных и на геоданных покрывающих все страны ЕС и стран входящих в партнерства со странами ЕС. В основе проекта директива о публикации особо ценных наборов данных и ранее созданный проект Maps For Europe [2]. Можно обратить внимание что занимается проектом Eurogeographic, ассоциация из 60 организаций из 46 стран. Большая часть организаций - это государственные кадастровые комитеты. Среди них есть, например, кадастровые службы Армении, Белоруссии, Турции и Азебайджана. И, ожидаемо, нет российской кадастровой службы
- в США в MIT раздают награды учёным публикующим открытые научные данные [3] всего 11 победителей из 80 номинантов, с призами в $2500. Поощряются исследователи опубликовавшие востребованные исследовательские данные как часть своих научных работ, а также создателей инструментов с открытым кодом по удобной работе с этими данными. Среди работ много интересного, например, ITU Compliance Assessment Monitor [4] инструмент и наборы данных мониторинга того как операторы геостационарных спутников отчитываются перед Международным союзом электросвязи (ITU), спойлер: чаще всего игнорируют необходимость предоставления информации. А вот другой пример, база данных WormWideWeb [5] собранная из общедоступных баз нейронов нематод C. Elegans.
- Open Government Partnership, партнерство открытых правительств, активно расширяется на уровне городов, в OGP Local [6] уже участвует около 100 городов и в течение 2024 года собираются принять около 50 [7], в том числе из стран не входящих в партнерство. Эдакое погружение в суб-национальный уровень и, похоже, набирающее обороты. Среди постсоветских городов там присутствуют: Армавир, Гюмри, Ереван и Ванадзор в Армении, 6 городов в Грузии, Бишкек из Киргизии, 3 города Украины. В общем-то не так мало. Но более всего мексиканских и индонезийских городов. Частично вся эта инициатива пересекается с Open Data Charter [8] (Хартия открытых данных) которую подписали власти многих городов.
- во Франции трекер публикации открытых данных на портале data.gouv.fr [9] можно убедиться что кроме того что данные опубликованы, они продолжают регулярно раскрываться по запросу пользователей, многое запланировано к публикации и многие запросы ещё анализируются. В целом французский портал открытых данных наиболее системно развивается, они достаточно давно переходят от публикации файлов наборов данных, к публикации их согласно схемам данных которые ведутся в отдельном реестре.
Ссылки:
[1] https://eurogeographics.org/open-maps-for-europe/ome2-progress/
[2] https://www.mapsforeurope.org
[3] https://news.mit.edu/2023/rewarding-excellence-in-open-data-1116
[4] https://github.com/ThomasGRoberts/ITU-Compliance-Assessment-Monitor
[5] https://wormwideweb.org/
[6] https://www.opengovpartnership.org/ogp-local/
[7] https://www.opengovpartnership.org/ogp-local/join-ogp-local-call-for-expressions-of-interest-2023/
[8] https://opendatacharter.net/
[9] https://ouverture.data.gouv.fr/?status=Planifi%C3%A9
#opendata #readings
EuroGeographics
OME2 Progress | EuroGeographics
A foundation for future pan-European high-value datasets Open Maps For Europe 2 (OME2) is a new project that will develop a new production process and technical specification for free-to-use, edge-matched […]
В рубрике интересных наборов данных WikiTables [1] набор данных из 1.6 миллионов таблиц извлечённых из английской Википедии и сопровождающий его набор состоящих из записей в этих таблицах слинкованными с объектами в DBPedia. Помимо того что это само по себе интересная и важная задача при создании связанного графа знаний, это ещё и огромная база для обучения разного рода алгоритмом.
Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.
Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.
Ссылки:
[1] http://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df
#readings #data #datasets #research #understandingdata #datadiscovery
Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.
Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.
Ссылки:
[1] http://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df
#readings #data #datasets #research #understandingdata #datadiscovery
www.semanticscholar.org
[PDF] TabEL: Entity Linking in Web Tables | Semantic Scholar
TabEL differs from previous work by weakening the assumption that the semantics of a table can be mapped to pre-defined types and relations found in the target KB, and enforces soft constraints in the form of a graphical model that assigns higher likelihood…
Про интересные данные в геополитике, исследование Belt and Road Reboot: Beijing’s Bid to De-Risk Its Global Infrastructure Initiative [1] с результатами анализа чуть менее 21 тысячи проектов профинансированных и поддержанных Китаем за 2000-2021 годы в 165 развивающихся странах и странах со средними доходами. К этому же отчёту набор данных AidData's Global Chinese Development Finance Dataset, Version 3.0 [2] со всеми этими данными.
Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.
Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.
Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0
#opendata #international #china #readings #datasets
Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.
Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.
Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0
#opendata #international #china #readings #datasets
Незаслуженно упущенный мной документ GENERATIVE ARTIFICIAL INTELLIGENCE. OPPORTUNITIES, RISKS AND POLICY CHALLENGES [1] отчет European Parliamentary Technology Assessment о генеративном ИИ с точки зрения регуляторов в Евросоюзе и немного в Японии в контексте влияния ИИ на демократию. В целом весьма полезный обзорный документ.
И туда же вдогонку публикация про норвежский бюджет 2024 года [2] и упоминания расходов на ИИ в нём.
Ссылки:
[1] https://teknologiradet.no/en/publication/epta-report-2023-generative-artificial-intelligence-opportunities-risks-and-policy-challenges/
[2] https://medium.com/ethical-ai-resources/artificial-intelligence-in-the-norwegian-national-budget-for-2024-4f4d5bdde6fc
#ai #readings #eu #norway
И туда же вдогонку публикация про норвежский бюджет 2024 года [2] и упоминания расходов на ИИ в нём.
Ссылки:
[1] https://teknologiradet.no/en/publication/epta-report-2023-generative-artificial-intelligence-opportunities-risks-and-policy-challenges/
[2] https://medium.com/ethical-ai-resources/artificial-intelligence-in-the-norwegian-national-budget-for-2024-4f4d5bdde6fc
#ai #readings #eu #norway
Teknologirådet
EPTA Report 2023: Generative Artificial Intelligence - Opportunities, Risks and Policy Challenges
The 2023 EPTA report on Generative AI was released at the annual EPTA conference in Barcelona and is the result of the collaborative efforts of the European Parliamentary Technology Assessment (EPTA) network.
Подборка полезных ссылок для чтения про данные и не только:
- WikiCrow [1] генератор статей для Википедии/другой вики посвящённых научным явлениям, в демо показывают генерацию статей по человеческим генам. Используют внутреннюю LLM без галлюцинаций и сравнивают результат со статьями в Википедии подчёркивая большую полноту и качество созданных статей. Уже интересно, подключат такой движок к Википедии или запретят подобное и появятся новые вики проекты подготовленные ИИ?
- How to make data open? Stop overlooking librarians [2] заметка в Nature про то что не надо игнорировать библиотекарей при подготовке открытых научных данных к публикации. С упоминанием инструментов Bitcurator и ReproZIP, но почему-то не упоминает автор про FrictionlessData.
- Meta is giving researchers more access to Facebook and Instagram data [3] в Meta сдвинулись в сторону предоставления доступа к данным соцсетей для исследователей. Весьма интересно, хорошо бы узнать потом в каких научных работах это будет упоминаться. Подозреваю что высока вероятность что первыми туда придут политологи в США чтобы изучать политическую рекламу.
- The oligopoly’s shift to open access: How the big five academic publishers profit from article processing charges [4] статья с оценками того сколько олигополия академических издательств зарабатывает на платежах за обработку научных статей. Подсказка - много, возможно слишком много.
Ссылки:
[1] https://www.futurehouse.org/wikicrow
[2] https://www.nature.com/articles/d41586-023-03935-1
[3] https://www.technologyreview.com/2023/11/21/1083760/meta-transparency-research-database-nick-clegg/
[4] https://direct.mit.edu/qss/article/doi/10.1162/qss_a_00272/118070/The-Oligopoly-s-Shift-to-Open-Access-How-the-Big
#opendata #data #ai #openaccess #readings
- WikiCrow [1] генератор статей для Википедии/другой вики посвящённых научным явлениям, в демо показывают генерацию статей по человеческим генам. Используют внутреннюю LLM без галлюцинаций и сравнивают результат со статьями в Википедии подчёркивая большую полноту и качество созданных статей. Уже интересно, подключат такой движок к Википедии или запретят подобное и появятся новые вики проекты подготовленные ИИ?
- How to make data open? Stop overlooking librarians [2] заметка в Nature про то что не надо игнорировать библиотекарей при подготовке открытых научных данных к публикации. С упоминанием инструментов Bitcurator и ReproZIP, но почему-то не упоминает автор про FrictionlessData.
- Meta is giving researchers more access to Facebook and Instagram data [3] в Meta сдвинулись в сторону предоставления доступа к данным соцсетей для исследователей. Весьма интересно, хорошо бы узнать потом в каких научных работах это будет упоминаться. Подозреваю что высока вероятность что первыми туда придут политологи в США чтобы изучать политическую рекламу.
- The oligopoly’s shift to open access: How the big five academic publishers profit from article processing charges [4] статья с оценками того сколько олигополия академических издательств зарабатывает на платежах за обработку научных статей. Подсказка - много, возможно слишком много.
Ссылки:
[1] https://www.futurehouse.org/wikicrow
[2] https://www.nature.com/articles/d41586-023-03935-1
[3] https://www.technologyreview.com/2023/11/21/1083760/meta-transparency-research-database-nick-clegg/
[4] https://direct.mit.edu/qss/article/doi/10.1162/qss_a_00272/118070/The-Oligopoly-s-Shift-to-Open-Access-How-the-Big
#opendata #data #ai #openaccess #readings
www.futurehouse.org
WikiCrow | Future House
Future House is automating synthesis of human scientific knowledge