Forwarded from Daniilak — Канал
Опубликовал новый датасет на Kaggle: Кадастровые данные Чебоксар с полигонами
Содержит подробные кадастровые данные о земельных участках и объектах капитального строительства в Чебоксарах, включая геометрические данные в виде полигонов.
🔎 Вот некоторые из полей, которые вы найдете в этом датасете:
- Кадастровый номер объекта
- Тип объекта (например, Земельный участок)
- Площадь объекта в квадратных метрах
- Адрес объекта
- Категория земельного участка (например, Земли населенных пунктов)
- Разрешенное использование объекта
- Кадастровая стоимость объекта
- В геометрии объекта представлены полигоны
Cheboksary Cadastral Data with Polygons
#dataset
Содержит подробные кадастровые данные о земельных участках и объектах капитального строительства в Чебоксарах, включая геометрические данные в виде полигонов.
🔎 Вот некоторые из полей, которые вы найдете в этом датасете:
- Кадастровый номер объекта
- Тип объекта (например, Земельный участок)
- Площадь объекта в квадратных метрах
- Адрес объекта
- Категория земельного участка (например, Земли населенных пунктов)
- Разрешенное использование объекта
- Кадастровая стоимость объекта
- В геометрии объекта представлены полигоны
Cheboksary Cadastral Data with Polygons
#dataset
Я ранее писал про некоторые каталоги данными с открытыми языковыми ресурсами и про испанский национальный проект по созданию языковых моделей и открытых датасетов, но этот пример далеко не единственный.
В рубрике как это устроено у них, создание открытых данных и языковых моделей в других странах.
Норвегия
- наборы данных и модели в AI-Lab при Национальной библиотеке страны [1]. Датасеты в parquet формате и модели публикуются сразу на платформе Hugging Face. Например, The Norwegian Colossal Corpus [2] датасет в 45ГБ на основе открытых текстов
- ресурсный каталог The Norwegian Language Bank [2] включает 1888 ресурсов, большая часть из которых открытые датасеты и открытый исходный код для работы с ними. Являются частью национального проекта CLARINO [3]
Финляндия
- каталог датасетов Национальной библиотеки Финляндии [4] включает метаданные, справочники, API и полнотекстовые датасеты на финском языке.
- также этот каталог, документация к API и дампы доступны в каталоге данных Национальной библиотеки [5] включая SPARQL и связанные данные в RDF
- есть официальное API [6] к Национальному каталогу культурных объектов Finna (объединение каталогов ведущих культурных организаций страны, аналог Europeana в ЕС или Trove в Австралии)
Австралия и Новая Зеландия
- GLAM-Workbench [7] проект Тима Шератта, историка и хакера, по систематизации всех онлайн датасетов и API Австралии и Новой Зеландии. Он получил несколько грантов за/на эту работу, собрал впечатляющее число ресурсов и огромное число тетрадок для Jupyter Notebook и создал множество датасетов и инструментов для работы с ними
- открытое API Trove [8] проекта Национальной библиотеки страны в партнерстве с сотнями культурных организаций по созданию единого каталога изображений, текстов, видео и других оцифрованных и digital-born материалов
- открытое API музея ACMI [9] посвящённого движущимся изображениям (видео и мультимедиа)
США
- открытое API у Библиотеки Конгресс [10], а также их многочисленные репозитории с открытыми данными [11] включая датасеты веб архивов за последние десятилетия [12]
- весь каталог национальных архивов США [13] и множество других датасетов большого объёма от Национальных архивного агентства США
- множество других источников и датасетов, чаще всего API музеев, библиотек и архивов
Сингапур
- коллекция наборов данных Национальной библиотеки Сингапура [14], по большей части метаданные, но охватывают большую часть коллекций. Публикуются все через национальный портал открытых данных страны data.gov.sg на постоянной основе
Ссылки:
[1] https://ai.nb.no/datasets/
[2] https://huggingface.co/datasets/NbAiLab/NCC
[3] https://www.nb.no/sprakbanken/en/resource-catalogue/
[4] https://www.kiwi.fi/display/Datacatalog/Data+sets
[5] https://data.nationallibrary.fi/
[6] https://api.finna.fi/swagger-ui/?url=%2Fapi%2Fv1%3Fswagger
[7] https://glam-workbench.net/
[8] https://trove.nla.gov.au/about/create-something/using-api
[9] https://www.acmi.net.au/api/
[10] https://www.loc.gov/apis/
[11] https://guides.loc.gov/datasets/repositories
[12] https://labs.loc.gov/work/experiments/webarchive-datasets/
[13] https://www.archives.gov/developer/national-archives-catalog-dataset
[14] https://www.nlb.gov.sg/main/discover-and-learn/discover-our-collections/national%20library%20datasets
#opendata #dataset #glam #openglam #datacatalogs
В рубрике как это устроено у них, создание открытых данных и языковых моделей в других странах.
Норвегия
- наборы данных и модели в AI-Lab при Национальной библиотеке страны [1]. Датасеты в parquet формате и модели публикуются сразу на платформе Hugging Face. Например, The Norwegian Colossal Corpus [2] датасет в 45ГБ на основе открытых текстов
- ресурсный каталог The Norwegian Language Bank [2] включает 1888 ресурсов, большая часть из которых открытые датасеты и открытый исходный код для работы с ними. Являются частью национального проекта CLARINO [3]
Финляндия
- каталог датасетов Национальной библиотеки Финляндии [4] включает метаданные, справочники, API и полнотекстовые датасеты на финском языке.
- также этот каталог, документация к API и дампы доступны в каталоге данных Национальной библиотеки [5] включая SPARQL и связанные данные в RDF
- есть официальное API [6] к Национальному каталогу культурных объектов Finna (объединение каталогов ведущих культурных организаций страны, аналог Europeana в ЕС или Trove в Австралии)
Австралия и Новая Зеландия
- GLAM-Workbench [7] проект Тима Шератта, историка и хакера, по систематизации всех онлайн датасетов и API Австралии и Новой Зеландии. Он получил несколько грантов за/на эту работу, собрал впечатляющее число ресурсов и огромное число тетрадок для Jupyter Notebook и создал множество датасетов и инструментов для работы с ними
- открытое API Trove [8] проекта Национальной библиотеки страны в партнерстве с сотнями культурных организаций по созданию единого каталога изображений, текстов, видео и других оцифрованных и digital-born материалов
- открытое API музея ACMI [9] посвящённого движущимся изображениям (видео и мультимедиа)
США
- открытое API у Библиотеки Конгресс [10], а также их многочисленные репозитории с открытыми данными [11] включая датасеты веб архивов за последние десятилетия [12]
- весь каталог национальных архивов США [13] и множество других датасетов большого объёма от Национальных архивного агентства США
- множество других источников и датасетов, чаще всего API музеев, библиотек и архивов
Сингапур
- коллекция наборов данных Национальной библиотеки Сингапура [14], по большей части метаданные, но охватывают большую часть коллекций. Публикуются все через национальный портал открытых данных страны data.gov.sg на постоянной основе
Ссылки:
[1] https://ai.nb.no/datasets/
[2] https://huggingface.co/datasets/NbAiLab/NCC
[3] https://www.nb.no/sprakbanken/en/resource-catalogue/
[4] https://www.kiwi.fi/display/Datacatalog/Data+sets
[5] https://data.nationallibrary.fi/
[6] https://api.finna.fi/swagger-ui/?url=%2Fapi%2Fv1%3Fswagger
[7] https://glam-workbench.net/
[8] https://trove.nla.gov.au/about/create-something/using-api
[9] https://www.acmi.net.au/api/
[10] https://www.loc.gov/apis/
[11] https://guides.loc.gov/datasets/repositories
[12] https://labs.loc.gov/work/experiments/webarchive-datasets/
[13] https://www.archives.gov/developer/national-archives-catalog-dataset
[14] https://www.nlb.gov.sg/main/discover-and-learn/discover-our-collections/national%20library%20datasets
#opendata #dataset #glam #openglam #datacatalogs