Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания, а с другой стороны нет открытого API или массовой выгрузки (bulk download), а для многих гуманитарных/окологуманитарных проектов нужны метаданные оттуда.
Как вы понимаете написать сейчас парсер с помощью ИИ несложно, сложно и требует времени на то чтобы собрать все имеющиеся там метаданные в сохранить их.
Поэтому нужен не просто парсер НЭБа, а кто-то кто с его помощью сможет все метаданные по всем публикациям собрать и сохранить в сжатый/сжатые JSON lines файлы и передать их.
Хорошо если есть волонтер под такое, а если кто-то готов, но за деньги, то напишите мне о том сколько денег и сколько времени нужно - если ценник не безумный я их найду.
Что необходимо собрать: все метаданные с карточки описания каждой публикации включая автора, название, описание, дату и место публикации, тематики, каждый атрибут блока "Детальная информация", запись MARC21, ссылку на PDF файл.
Сами файлы выкачивать не нужно!
Систематизировать атрибуты метаданных и сделать также файл Parquet с ними будет большим плюсом.
Итоговый датасет будет открытым, выложу его на одном из порталов открытых данных.
#opencall #datasets
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания, а с другой стороны нет открытого API или массовой выгрузки (bulk download), а для многих гуманитарных/окологуманитарных проектов нужны метаданные оттуда.
Как вы понимаете написать сейчас парсер с помощью ИИ несложно, сложно и требует времени на то чтобы собрать все имеющиеся там метаданные в сохранить их.
Поэтому нужен не просто парсер НЭБа, а кто-то кто с его помощью сможет все метаданные по всем публикациям собрать и сохранить в сжатый/сжатые JSON lines файлы и передать их.
Хорошо если есть волонтер под такое, а если кто-то готов, но за деньги, то напишите мне о том сколько денег и сколько времени нужно - если ценник не безумный я их найду.
Что необходимо собрать: все метаданные с карточки описания каждой публикации включая автора, название, описание, дату и место публикации, тематики, каждый атрибут блока "Детальная информация", запись MARC21, ссылку на PDF файл.
Сами файлы выкачивать не нужно!
Систематизировать атрибуты метаданных и сделать также файл Parquet с ними будет большим плюсом.
Итоговый датасет будет открытым, выложу его на одном из порталов открытых данных.
#opencall #datasets
🔥11👍6❤🔥5❤1🤝1