Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.

Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.

Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.

Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.

Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.

Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex

#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
Forwarded from Open Data Armenia
Для тех кто ищет данные об Армении в мире, обновился поисковый индекс проекта Dateno [1] и теперь он включает более 25 тысяч наборов данных о стране, большая часть данных это статистические индикаторы Всемирного банка, ВТО, Банка международных расчётов и других. А также иные статистические показатели и геоданные.

Ещё можно найти немало датасетов с упоминанием Еревана [2] как крупнейшего города страны

А также тысячи наборов данных доступны при поиске по слову Armenia [3], но иногда возникают пересечения с одноимённым городом в Колумбии [4]🇨🇴

Dateno доступен через веб интерфейс и через API, получить ключ можно после регистрации и проверить его с помощью утилиты командной строки [5].

P.S. Основатели Open Data Armenia также являются основателями Dateno, данные по Армении можно будет использовать на хакатонах по открытым данным, а самые интересные датасеты мы будем копировать на портал открытых данных Open Data Armenia.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Armenia
[2] https://dateno.io/search?query=Yerevan
[3] https://dateno.io/search?query=Armenia
[4] https://en.wikipedia.org/wiki/Armenia,_Colombia
[5] https://github.com/datenoio/datenocmd

#opendata #data #armenia #datasearch
В рубрике крупнейших наборов данных в мире GenBank [1] база геномной информации о человеке от Национального центра биотехнологической информации США. В общей сложности размер последней 263 версии базы GenBank составляет около 6.4 ТБ первичных данных и около 2.7 ТБ данных закодированных по ASN.1 [2]. Все эти данные доступны на сайте через веб интерфейс и для скачивания через FTP сервер.

В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.

Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.

Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.

Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/

#opendata #datasets #openaccess #genetics