Ivan Begtin
8.02K subscribers
1.74K photos
3 videos
101 files
4.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
К вопросу об открытости и её формах и устойчивости проектов на открытых данных. Недавно я обнаружил что в проекте Zenodo (агрегатор научных данных) ввели ограничения объём данных в рамках одного запроса. Это не только Rate Limiting с ограничением числа запросов в минуту, но и то что в рамках одного поискового запроса, неважно, листая по 10 записей или по 100, можно получить не более 10 тысяч записей.

При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.

При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.

Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.

Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.

С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.

Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.

#opendata #zenodo #datasets