К вопросу об открытости и её формах и устойчивости проектов на открытых данных. Недавно я обнаружил что в проекте Zenodo (агрегатор научных данных) ввели ограничения объём данных в рамках одного запроса. Это не только Rate Limiting с ограничением числа запросов в минуту, но и то что в рамках одного поискового запроса, неважно, листая по 10 записей или по 100, можно получить не более 10 тысяч записей.
При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.
При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.
Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.
Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.
С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.
Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.
#opendata #zenodo #datasets
При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.
При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.
Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.
Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.
С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.
Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.
#opendata #zenodo #datasets