Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике больших наборов данных, подборка наборов открытых данных о сетевой инфраструктуре.

- Статистика работы сервисов Tor в проекте CollectTor [1]. В общей сложности там несколько десятков гигабайт машиночитаемых данных по инфраструктуре Tor собранные с 2005 года.

- Real world networking datasets [2] - большая коллекция ссылок на наборы данных о трафике и сетевой инфраструктуре

- Project Sonar [3] наборы открытых данных результатов сканирования серверов DNS, IP адресов, подсетей и иной сетевой инфраструктуры. Десятки терабайт данных

- Censys Datasets [4] - наборы данных коммерческого проекта Censys с результатами сканирования всех адресов IPv4 (доступно только с разрешения владельца данных)

- Greynoise [5] - "серый шум", сервис отслеживания тех кто регулярно сканирует интернет и ведущий лог/базу данных всей сканирующей активности. Бесплатный ограниченный некоммерческий доступ и очень дорогой, $25k, коммерческий.

- CRAWDAD [6] архивы беспроводных данных в колледже Dartmouth. Включают данные собранные мобильными приложниями, Wifi, Bluetooth, Zigbee и др.

- RadioML [7] - датасеты естественных и симулированных записей данных радиочастот от DeepSig

Ссылки:
[1] https://metrics.torproject.org/collector.html
[2] https://gist.github.com/stefanbschneider/96602bb3c8b256b90058d59f337a0e59
[3] https://opendata.rapid7.com/
[4] https://search.censys.io/data
[5] https://www.greynoise.io
[6] https://crawdad.org/all-bydate.html

#opendata #networks #traffic #radio #datasets
Онлайн сервис поиска по данным/сайтам Algolia позволял указывать регион при создании проекта. Например, я создавал там текстовый поисковый индекс в российском регионе. Теперь они рекомендуют перенести его в регион Германия потому что есть риски потери связи с российским сегментом.

Вот такие дела. Какой-то Цифровой обитаемый остров получается.

#sanctions #networks #networkneutrality #russia
В рубрике интересных наборов данных наборы с данными по измерению скорости интернета от Measurement Lab [1] где их много и разных и почти все архивные датасеты доступны через Google Cloud.

А также датасеты OOKLA [2] по скорости сетей, которые они собирали краудсорсингом и публикуют в рамках своей Open Data Initiative. Заметим что раскрытие идёт от коммерческой компании.

Данные можно использовать самым разным образом, от измерения проникновения 5G, до мониторинга деградации качества связи или поиска мест человеческого обитания там где может показаться что людей не должно быть (шутка).

Ссылки:
[1] https://www.measurementlab.net/data/
[2] https://www.ookla.com/ookla-for-good/open-data


#opendata #datasets #networks