Forwarded from Open Data Armenia
Всем привет! Для тех у кого есть немного времени помочь сообществу мы подготовили несколько задач для волонтеров по сбору данных. Наша цель наполнить каталог данных data.opendata.am большим числом наборов данных посвященных культуре Армении и армян по всему миру опубликованные в разных странах и на разных языках.
Для этого есть две задачи сейчас и чуть позже появится большой перечень задач:
1. Сбор слов посвященных Армении и армянам на разных языках
У нас есть репозиторий armenian-keywords где уже собраны ключевые слова (имена, фамилии, места, просто слова) идентифицируемые как армянские или к относящиеся к Армении и историческим местам связанным с армянской культурой. Сейчас в репозитории 4074 слова на русском языке и немного на английском. В планах собрать списки слов на английском, французском, испанском, португальском, немецком, итальянском, турецком и арабском языках как наиболее приоритетных.
Эти списки слов будут использоваться для поиска контента в самых разных источниках и каталогах культурного наследия.
Если Вы умеете работать с открытым кодом и данными в CSV, то можете создавать обновления и правки прямо в этот репозиторий, а если Вы не работаете с кодом и данными, но хотели бы помочь, то можете отправить в issues (задачи в репозитории) списки слов или ссылки на страницы/сайты где они могут быть.
Если у Вас есть идеи как можно этот процесс дополнить и улучшить то они всячески приветствуются!
2. Извлечение информации о армянском культурном наследии из Госкаталога музейного фонда РФ (goskatalog.ru)
В госкаталоге музейного фонда РФ (goskatalog.ru) собрано немало записей о культурных объектах советского и имперского периодов истории России и СССР. В том числе немало этих объектов относятся к Армении напрямую или к художниках/композиторам/скульпторам и тд. армянского происхождения.
Мы выгрузили все содержание каталога в форме специального файла с данными в формате Parquet и он доступен для анализа и обработки. Если кто-то из участников имеет опыт в дата инженерии и науке о данных, то полезной помощью для нас было бы найти и извлечь из этого файла записи относящиеся к Армении и армянской культуре используя ранее собранные ключевые слова из репозитория armenian-keywords. Это не очень сложная, но и не простая задача, поскольку в файле более 30 миллионов записей и в сжатом виде он составляет 3GB
—
Чуть позже будут дополнительные задачи по сбору данных из других источников культурного наследия в разных странах.
Спасибо всем кто готов помогать создавая открытые данные!
#opendata #armenia #culture #volunteering #helpneeded
Для этого есть две задачи сейчас и чуть позже появится большой перечень задач:
1. Сбор слов посвященных Армении и армянам на разных языках
У нас есть репозиторий armenian-keywords где уже собраны ключевые слова (имена, фамилии, места, просто слова) идентифицируемые как армянские или к относящиеся к Армении и историческим местам связанным с армянской культурой. Сейчас в репозитории 4074 слова на русском языке и немного на английском. В планах собрать списки слов на английском, французском, испанском, португальском, немецком, итальянском, турецком и арабском языках как наиболее приоритетных.
Эти списки слов будут использоваться для поиска контента в самых разных источниках и каталогах культурного наследия.
Если Вы умеете работать с открытым кодом и данными в CSV, то можете создавать обновления и правки прямо в этот репозиторий, а если Вы не работаете с кодом и данными, но хотели бы помочь, то можете отправить в issues (задачи в репозитории) списки слов или ссылки на страницы/сайты где они могут быть.
Если у Вас есть идеи как можно этот процесс дополнить и улучшить то они всячески приветствуются!
2. Извлечение информации о армянском культурном наследии из Госкаталога музейного фонда РФ (goskatalog.ru)
В госкаталоге музейного фонда РФ (goskatalog.ru) собрано немало записей о культурных объектах советского и имперского периодов истории России и СССР. В том числе немало этих объектов относятся к Армении напрямую или к художниках/композиторам/скульпторам и тд. армянского происхождения.
Мы выгрузили все содержание каталога в форме специального файла с данными в формате Parquet и он доступен для анализа и обработки. Если кто-то из участников имеет опыт в дата инженерии и науке о данных, то полезной помощью для нас было бы найти и извлечь из этого файла записи относящиеся к Армении и армянской культуре используя ранее собранные ключевые слова из репозитория armenian-keywords. Это не очень сложная, но и не простая задача, поскольку в файле более 30 миллионов записей и в сжатом виде он составляет 3GB
—
Чуть позже будут дополнительные задачи по сбору данных из других источников культурного наследия в разных странах.
Спасибо всем кто готов помогать создавая открытые данные!
#opendata #armenia #culture #volunteering #helpneeded
👍5❤4⚡3
Полезное чтение про данные, технологии и не только:
- How to Stay Ahead of AI as an Early-Career Engineer в IEEE Spectrum о том как меняются требования к джуниорам в ИТ на фоне применения ИИ. Если вкратце то требования к кандидатам растут, хуже всего тем кто умеет не начальном уровне кодить и не вкладывался в собственное развитие многие годы. Ключевой вопрос в том как должно меняться образование?
- Congress: Protect NCAR and Climate Research союзе обеспокоенных ученых в США призывает остановить закрытие Национального центра атмосферных исследований (NCAR) США которое недавно было анонсировано администрацией Трампа
- The Hidden Price of Data статья в журнале IMF про то как измерять стоимость данных в экономике и экономическими методами, автор статьи написала книгу на эту тему, тоже полезную для понимания того как экономика данных устроена.
- Instagram CLI для тех кто любит текстовые терминалы и серьезное намерен бороться с "гниеним мозга" (brainrot) утилита для работы с инстаграмом с командной строки. Я бы пошел дальше и вместо отображения изображения сразу бы давал текстовое описание извлеченное из него с помощью LLM
#ai #instagram #data #careers #it
- How to Stay Ahead of AI as an Early-Career Engineer в IEEE Spectrum о том как меняются требования к джуниорам в ИТ на фоне применения ИИ. Если вкратце то требования к кандидатам растут, хуже всего тем кто умеет не начальном уровне кодить и не вкладывался в собственное развитие многие годы. Ключевой вопрос в том как должно меняться образование?
- Congress: Protect NCAR and Climate Research союзе обеспокоенных ученых в США призывает остановить закрытие Национального центра атмосферных исследований (NCAR) США которое недавно было анонсировано администрацией Трампа
- The Hidden Price of Data статья в журнале IMF про то как измерять стоимость данных в экономике и экономическими методами, автор статьи написала книгу на эту тему, тоже полезную для понимания того как экономика данных устроена.
- Instagram CLI для тех кто любит текстовые терминалы и серьезное намерен бороться с "гниеним мозга" (brainrot) утилита для работы с инстаграмом с командной строки. Я бы пошел дальше и вместо отображения изображения сразу бы давал текстовое описание извлеченное из него с помощью LLM
#ai #instagram #data #careers #it
IEEE Spectrum
How to Stay Ahead of AI as an Early-Career Engineer
How can recent grads navigate a job market transformed by AI? Learn how to make AI work for you, not against you.
👍5🔥1