Ivan Begtin
9.02K subscribers
2.64K photos
5 videos
114 files
5.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru

Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания, а с другой стороны нет открытого API или массовой выгрузки (bulk download), а для многих гуманитарных/окологуманитарных проектов нужны метаданные оттуда.

Как вы понимаете написать сейчас парсер с помощью ИИ несложно, сложно и требует времени на то чтобы собрать все имеющиеся там метаданные в сохранить их.

Поэтому нужен не просто парсер НЭБа, а кто-то кто с его помощью сможет все метаданные по всем публикациям собрать и сохранить в сжатый/сжатые JSON lines файлы и передать их.

Хорошо если есть волонтер под такое, а если кто-то готов, но за деньги, то напишите мне о том сколько денег и сколько времени нужно - если ценник не безумный я их найду.

Что необходимо собрать: все метаданные с карточки описания каждой публикации включая автора, название, описание, дату и место публикации, тематики, каждый атрибут блока "Детальная информация", запись MARC21, ссылку на PDF файл.

Сами файлы выкачивать не нужно!

Систематизировать атрибуты метаданных и сделать также файл Parquet с ними будет большим плюсом.

Итоговый датасет будет открытым, выложу его на одном из порталов открытых данных.

#opencall #datasets
🔥11👍6❤‍🔥51🤝1