Ivan Begtin

Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru

Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания, а с другой стороны нет открытого API или массовой выгрузки (bulk download), а для многих гуманитарных/окологуманитарных проектов нужны метаданные оттуда.

Как вы понимаете написать сейчас парсер с помощью ИИ несложно, сложно и требует времени на то чтобы собрать все имеющиеся там метаданные в сохранить их.

Поэтому нужен не просто парсер НЭБа, а кто-то кто с его помощью сможет все метаданные по всем публикациям собрать и сохранить в сжатый/сжатые JSON lines файлы и передать их.

Хорошо если есть волонтер под такое, а если кто-то готов, но за деньги, то напишите мне о том сколько денег и сколько времени нужно - если ценник не безумный я их найду.

Что необходимо собрать: все метаданные с карточки описания каждой публикации включая автора, название, описание, дату и место публикации, тематики, каждый атрибут блока "Детальная информация", запись MARC21, ссылку на PDF файл.

Сами файлы выкачивать не нужно!

Систематизировать атрибуты метаданных и сделать также файл Parquet с ними будет большим плюсом.

Итоговый датасет будет открытым, выложу его на одном из порталов открытых данных.

#opencall #datasets

🔥11👍7❤‍🔥5❤1🤝1

1.98K viewsIvan Begtin, edited 12:09

About

Blog

Apps

Platform