2023 год ещё не закончился, но уже время подводить итоги.
Предлагаю простую эстафету и рассказать про:
- 2 достижения в 2023 году
- 2-3 запланированных достижения/проекта/цели на 2024 год
- и одно пожелание на 2024 год.
Я не могу рассказать о многом чем занимаюсь, но об одном большом-любимом хобби переходящим в деятельность могу.
—
Достижения 2023 года:
- Создание общего индекса данных (https://github.com/commondataio/dataportals-registry, https://registry.commondata.io), около 9912+ порталов данных, репозиториев исследовательских данных, порталов с каталогами данных и т. д. MIT Лицензия
- Почти завершено исследование общих API, стандартов данных и практик, связанных с открытыми данными, включая DCAT, CKAN API, Dataverse API, OAI-PMH и около 20+ других.
Планируется на 2024 год:
- Запуск системы поиска данных на основе Common Data Index. Демо-версия уже завершена: проиндексировано около 6 миллионов наборов данных (начало 2024 г.).
- Обновить инструмент Metacrafter с открытым исходным кодом для автоматического определения семантических типов в индексе поисковой системы и создать облачную версию.
Пожелание на следующий год:
- Проиндексировать около 40-50 миллионов наборов данных в поисковой системе и, конечно, всем побольше мира.
—
Напишите в комментариях тут, или в своих телеграм каналах о своих итогах и планах, насколько работа позволяет об этом написать;)
#opendata #data #newyear #plans
Предлагаю простую эстафету и рассказать про:
- 2 достижения в 2023 году
- 2-3 запланированных достижения/проекта/цели на 2024 год
- и одно пожелание на 2024 год.
Я не могу рассказать о многом чем занимаюсь, но об одном большом-любимом хобби переходящим в деятельность могу.
—
Достижения 2023 года:
- Создание общего индекса данных (https://github.com/commondataio/dataportals-registry, https://registry.commondata.io), около 9912+ порталов данных, репозиториев исследовательских данных, порталов с каталогами данных и т. д. MIT Лицензия
- Почти завершено исследование общих API, стандартов данных и практик, связанных с открытыми данными, включая DCAT, CKAN API, Dataverse API, OAI-PMH и около 20+ других.
Планируется на 2024 год:
- Запуск системы поиска данных на основе Common Data Index. Демо-версия уже завершена: проиндексировано около 6 миллионов наборов данных (начало 2024 г.).
- Обновить инструмент Metacrafter с открытым исходным кодом для автоматического определения семантических типов в индексе поисковой системы и создать облачную версию.
Пожелание на следующий год:
- Проиндексировать около 40-50 миллионов наборов данных в поисковой системе и, конечно, всем побольше мира.
—
Напишите в комментариях тут, или в своих телеграм каналах о своих итогах и планах, насколько работа позволяет об этом написать;)
#opendata #data #newyear #plans
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Скоро надо будет подводить итоги этого года. Личные, профессиональные и всякие. У меня не получится изложить их в один текст/пост, начну с того что пришлось отложить и что пока не сделано. Всё это, идёт не первым приоритетом потому что first things first.
Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.
Про более приоритетное, особенно про Dateno, я ещё напишу позже.
Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.
#endofyear #thoughts #thinking #plans
Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.
Про более приоритетное, особенно про Dateno, я ещё напишу позже.
Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.
#endofyear #thoughts #thinking #plans