Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Daniilak — Канал
Опубликовал новый датасет на Kaggle: Кадастровые данные Чебоксар с полигонами

Содержит подробные кадастровые данные о земельных участках и объектах капитального строительства в Чебоксарах, включая геометрические данные в виде полигонов.

🔎 Вот некоторые из полей, которые вы найдете в этом датасете:

- Кадастровый номер объекта
- Тип объекта (например, Земельный участок)
- Площадь объекта в квадратных метрах
- Адрес объекта
- Категория земельного участка (например, Земли населенных пунктов)
- Разрешенное использование объекта
- Кадастровая стоимость объекта
- В геометрии объекта представлены полигоны

Cheboksary Cadastral Data with Polygons

#dataset
Я ранее писал про некоторые каталоги данными с открытыми языковыми ресурсами и про испанский национальный проект по созданию языковых моделей и открытых датасетов, но этот пример далеко не единственный.

В рубрике как это устроено у них, создание открытых данных и языковых моделей в других странах.

Норвегия
- наборы данных и модели в AI-Lab при Национальной библиотеке страны [1]. Датасеты в parquet формате и модели публикуются сразу на платформе Hugging Face. Например, The Norwegian Colossal Corpus [2] датасет в 45ГБ на основе открытых текстов
- ресурсный каталог The Norwegian Language Bank [2] включает 1888 ресурсов, большая часть из которых открытые датасеты и открытый исходный код для работы с ними. Являются частью национального проекта CLARINO [3]

Финляндия
- каталог датасетов Национальной библиотеки Финляндии [4] включает метаданные, справочники, API и полнотекстовые датасеты на финском языке.
- также этот каталог, документация к API и дампы доступны в каталоге данных Национальной библиотеки [5] включая SPARQL и связанные данные в RDF
- есть официальное API [6] к Национальному каталогу культурных объектов Finna (объединение каталогов ведущих культурных организаций страны, аналог Europeana в ЕС или Trove в Австралии)

Австралия и Новая Зеландия
- GLAM-Workbench [7] проект Тима Шератта, историка и хакера, по систематизации всех онлайн датасетов и API Австралии и Новой Зеландии. Он получил несколько грантов за/на эту работу, собрал впечатляющее число ресурсов и огромное число тетрадок для Jupyter Notebook и создал множество датасетов и инструментов для работы с ними
- открытое API Trove [8] проекта Национальной библиотеки страны в партнерстве с сотнями культурных организаций по созданию единого каталога изображений, текстов, видео и других оцифрованных и digital-born материалов
- открытое API музея ACMI [9] посвящённого движущимся изображениям (видео и мультимедиа)

США
- открытое API у Библиотеки Конгресс [10], а также их многочисленные репозитории с открытыми данными [11] включая датасеты веб архивов за последние десятилетия [12]
- весь каталог национальных архивов США [13] и множество других датасетов большого объёма от Национальных архивного агентства США
- множество других источников и датасетов, чаще всего API музеев, библиотек и архивов

Сингапур
- коллекция наборов данных Национальной библиотеки Сингапура [14], по большей части метаданные, но охватывают большую часть коллекций. Публикуются все через национальный портал открытых данных страны data.gov.sg на постоянной основе

Ссылки:
[1] https://ai.nb.no/datasets/
[2] https://huggingface.co/datasets/NbAiLab/NCC
[3] https://www.nb.no/sprakbanken/en/resource-catalogue/
[4] https://www.kiwi.fi/display/Datacatalog/Data+sets
[5] https://data.nationallibrary.fi/
[6] https://api.finna.fi/swagger-ui/?url=%2Fapi%2Fv1%3Fswagger
[7] https://glam-workbench.net/
[8] https://trove.nla.gov.au/about/create-something/using-api
[9] https://www.acmi.net.au/api/
[10] https://www.loc.gov/apis/
[11] https://guides.loc.gov/datasets/repositories
[12] https://labs.loc.gov/work/experiments/webarchive-datasets/
[13] https://www.archives.gov/developer/national-archives-catalog-dataset
[14] https://www.nlb.gov.sg/main/discover-and-learn/discover-our-collections/national%20library%20datasets

#opendata #dataset #glam #openglam #datacatalogs