Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Forwarded from Open Data Armenia
Всем привет! Для тех у кого есть немного времени помочь сообществу мы подготовили несколько задач для волонтеров по сбору данных. Наша цель наполнить каталог данных data.opendata.am большим числом наборов данных посвященных культуре Армении и армян по всему миру опубликованные в разных странах и на разных языках.

Для этого есть две задачи сейчас и чуть позже появится большой перечень задач:
1. Сбор слов посвященных Армении и армянам на разных языках

У нас есть репозиторий armenian-keywords где уже собраны ключевые слова (имена, фамилии, места, просто слова) идентифицируемые как армянские или к относящиеся к Армении и историческим местам связанным с армянской культурой. Сейчас в репозитории 4074 слова на русском языке и немного на английском. В планах собрать списки слов на английском, французском, испанском, португальском, немецком, итальянском, турецком и арабском языках как наиболее приоритетных.

Эти списки слов будут использоваться для поиска контента в самых разных источниках и каталогах культурного наследия.

Если Вы умеете работать с открытым кодом и данными в CSV, то можете создавать обновления и правки прямо в этот репозиторий, а если Вы не работаете с кодом и данными, но хотели бы помочь, то можете отправить в issues (задачи в репозитории) списки слов или ссылки на страницы/сайты где они могут быть.

Если у Вас есть идеи как можно этот процесс дополнить и улучшить то они всячески приветствуются!

2. Извлечение информации о армянском культурном наследии из Госкаталога музейного фонда РФ (goskatalog.ru)

В госкаталоге музейного фонда РФ (goskatalog.ru) собрано немало записей о культурных объектах советского и имперского периодов истории России и СССР. В том числе немало этих объектов относятся к Армении напрямую или к художниках/композиторам/скульпторам и тд. армянского происхождения.

Мы выгрузили все содержание каталога в форме специального файла с данными в формате Parquet и он доступен для анализа и обработки. Если кто-то из участников имеет опыт в дата инженерии и науке о данных, то полезной помощью для нас было бы найти и извлечь из этого файла записи относящиеся к Армении и армянской культуре используя ранее собранные ключевые слова из репозитория armenian-keywords. Это не очень сложная, но и не простая задача, поскольку в файле более 30 миллионов записей и в сжатом виде он составляет 3GB

Чуть позже будут дополнительные задачи по сбору данных из других источников культурного наследия в разных странах.

Спасибо всем кто готов помогать создавая открытые данные!

#opendata #armenia #culture #volunteering #helpneeded
👍543
Полезное чтение про данные, технологии и не только:
- How to Stay Ahead of AI as an Early-Career Engineer в IEEE Spectrum о том как меняются требования к джуниорам в ИТ на фоне применения ИИ. Если вкратце то требования к кандидатам растут, хуже всего тем кто умеет не начальном уровне кодить и не вкладывался в собственное развитие многие годы. Ключевой вопрос в том как должно меняться образование?
- Congress: Protect NCAR and Climate Research союзе обеспокоенных ученых в США призывает остановить закрытие Национального центра атмосферных исследований (NCAR) США которое недавно было анонсировано администрацией Трампа
- The Hidden Price of Data статья в журнале IMF про то как измерять стоимость данных в экономике и экономическими методами, автор статьи написала книгу на эту тему, тоже полезную для понимания того как экономика данных устроена.
- Instagram CLI для тех кто любит текстовые терминалы и серьезное намерен бороться с "гниеним мозга" (brainrot) утилита для работы с инстаграмом с командной строки. Я бы пошел дальше и вместо отображения изображения сразу бы давал текстовое описание извлеченное из него с помощью LLM

#ai #instagram #data #careers #it
👍5🔥1