В рубрике как это работает у них открытые данные по доменам в зоне .fr (Франция) на сайте Afnic [1] В том числе руководство [2] (на французском языке).
В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.
Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.
Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf
#opendata #france #domains
В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.
Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.
Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf
#opendata #france #domains
Afnic
Données partagées : l’open-data du .fr Data : les services d’exploitation des données du .fr - Afnic
Avec les services Open Data, SQUAW et la liste quotidienne des noms de domaine enregistrés, l’Afnic partage des millions de données d’activité du .fr.
👍3
В рубрике как это устроено у них Hakala [1] французский репозиторий данных для гуманитарных и социальных наук. Предоставляет открытое API [2], интерфейс OAI-PMH [3] и содержит чуть менее 800 тысяч цифровых объектов.
Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.
Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.
Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.
А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.
Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr
#opendata #data #openaccess #france #datacatalogs
Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.
Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.
Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.
А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.
Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr
#opendata #data #openaccess #france #datacatalogs
👍8🌚3❤2
В рубрике как это устроено у них я уже несколько раз писал про проект DBNomics [1] от французского think tank'а Cepremap и поддерживаемый пр-вом Франции.
Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.
Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.
Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.
Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.
До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.
А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.
Ссылки:
[1] https://db.nomics.world
#opendata #statistics #indicators #france #dateno
Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.
Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.
Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.
Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.
До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.
А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.
Ссылки:
[1] https://db.nomics.world
#opendata #statistics #indicators #france #dateno
Тем временем французы на национальном портале открытых данных Франции data.gouv.fr добавили возможность получать данные в формате Parquet [1]
Какие молодцы!
Ссылки:
[1] https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/
#opendata #parquet #france #dataengineering
Какие молодцы!
Ссылки:
[1] https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/
#opendata #parquet #france #dataengineering
👍9
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.
Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.
Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.
Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].
Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.
Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/
#opendata #datasets #france #data
Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.
Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.
Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].
Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.
Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/
#opendata #datasets #france #data
✍3
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.
Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.
Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.
А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.
Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/
#opendata #datasets #data #datatools #france
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.
Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.
Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.
А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.
Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/
#opendata #datasets #data #datatools #france
👍4🔥2
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.
У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.
Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.
У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.
При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.
Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.
Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets
#opendata #education #france #datasets #data #datacatalogs
У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.
Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.
У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.
При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.
Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.
Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets
#opendata #education #france #datasets #data #datacatalogs
🔥4✍3⚡1
В рубрике как это устроено у них статистический портал Банка Франции Webstat [1]. Содержит более 40 тысяч временных рядов из 38 баз данных/наборов данных.
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
✍5
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode
🔥7✍1
В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
✍4❤2
Во Франции власти с 1 сентября для госслужащих стал обязательным мессенжер Tchap для всех рабочих коммуникаций.
Что важно про него знать:
1. Это мессенжер только для госслужащих, он не имеет статус "национального", граждане там не планируются
2. Он основан на открытом протоколе Matrix и сам он на базе открытого кода https://github.com/tchapgouv
3. Разработан французским министерством DINUM (вернее компанией Element по их заказу)
4. Это именно мессенжер, без всяких там функций медиа вроде каналов и тд. Он ориентирован на организацию приватного общения и только
5. Аналогичный госмессенжер есть в Германии, называется BundesMessenger, он ещё не обязательный для госслужащих, но потенциально может таким быть. Тоже с открытым кодом, тоже на базе протокола Matrix, тоже имеющий официальный статус.
6. В обоих мессенжерах французском и германском отсутствует слежка за пользователями, там нет встроенных коммерческих трекеров и это легко проверяется благодаря открытости кода.
Больше информации о Tchap в их презентации от сентября 2024 г. с конференции Matrix, можно узнать что и до обязательности он уже активно использовался.
#opensource #france #germany
Что важно про него знать:
1. Это мессенжер только для госслужащих, он не имеет статус "национального", граждане там не планируются
2. Он основан на открытом протоколе Matrix и сам он на базе открытого кода https://github.com/tchapgouv
3. Разработан французским министерством DINUM (вернее компанией Element по их заказу)
4. Это именно мессенжер, без всяких там функций медиа вроде каналов и тд. Он ориентирован на организацию приватного общения и только
5. Аналогичный госмессенжер есть в Германии, называется BundesMessenger, он ещё не обязательный для госслужащих, но потенциально может таким быть. Тоже с открытым кодом, тоже на базе протокола Matrix, тоже имеющий официальный статус.
6. В обоих мессенжерах французском и германском отсутствует слежка за пользователями, там нет встроенных коммерческих трекеров и это легко проверяется благодаря открытости кода.
Больше информации о Tchap в их презентации от сентября 2024 г. с конференции Matrix, можно узнать что и до обязательности он уже активно использовался.
#opensource #france #germany
👏22👍11🔥3
В рубрике как это устроено у них данные о стоимости земель во Франциии. Доступны в виде датасетов размером около 450MB и включают более 3.4 миллионов строк только за 2024 год, а также доступны данные начиная с 2020 года.
Данные О=рпубликованы на национальном портале data.gouv.fr и являются одним из наиболее востребованных наборов данных с 1.4 миллионами просмотров и 111 примеров повторного использования в виде визуализаций, общественных и коммерческих приложений созданных на их основе.
Один из способов оценки потенциальной востребованности данных в том чтобы смотреть на популярность данных опубликованных в других странах. Скажу сразу почти всегда наиболее популярны геоданные, особенно данные по стоимости земель, национальные базы адресов и официальная статистика в максимально детализированной форме.
#opendata #france #datasets
Данные О=рпубликованы на национальном портале data.gouv.fr и являются одним из наиболее востребованных наборов данных с 1.4 миллионами просмотров и 111 примеров повторного использования в виде визуализаций, общественных и коммерческих приложений созданных на их основе.
Один из способов оценки потенциальной востребованности данных в том чтобы смотреть на популярность данных опубликованных в других странах. Скажу сразу почти всегда наиболее популярны геоданные, особенно данные по стоимости земель, национальные базы адресов и официальная статистика в максимально детализированной форме.
#opendata #france #datasets
✍3⚡1❤1
В рубрике как это устроено у них французский проект La Fabrique Numérique du Passé (Цифровая история прошлого) включает 199 научных наборов данных, 32 лаборатории и 14 проектов посвященных истории, в первую очередь Франции и немного по другим странам. Включает атласы и планы застройки ряда европейских городов, иные исторические данные и инструменты визуализации данных на картах и в виде графиков.
Создан в рамках проекта PARCEDES Французской академии наук (ANR) который направлен на изучение организации и эволюции аграрных земельных или полевых границ от протоистории до наших дней.
#opendata #france #history #humanities
Создан в рамках проекта PARCEDES Французской академии наук (ANR) который направлен на изучение организации и эволюции аграрных земельных или полевых границ от протоистории до наших дней.
#opendata #france #history #humanities
👍4