В рубрике интересных наборов данных, открытый датасет всех доменов в проекте Domains Project [1]. Его автор собрал домены из 1522 TLD из которых 245 относятся к доменам стран, остальные домены общего типа. Общее число собранных доменов 1.7 миллиарда (1,789,946,688 на 29 сентября 2021 г.)
Все доменные имена можно скачать по адресу dataset.domainsproject.org [2] и в репозитории на GitHub [3].
После распаковки это примерно 49 гигабайт данных.
Конечно, это не единственный крупный набор данных о сетевой инфраструктуре, но полезный для тех кто изучает инфраструктуру интернета.
Ссылки:
[1] https://domainsproject.org
[2] https://dataset.domainsproject.org
[3] https://github.com/tb0hdan/domains
#opendata #datasets #data #internet #domains
Все доменные имена можно скачать по адресу dataset.domainsproject.org [2] и в репозитории на GitHub [3].
После распаковки это примерно 49 гигабайт данных.
Конечно, это не единственный крупный набор данных о сетевой инфраструктуре, но полезный для тех кто изучает инфраструктуру интернета.
Ссылки:
[1] https://domainsproject.org
[2] https://dataset.domainsproject.org
[3] https://github.com/tb0hdan/domains
#opendata #datasets #data #internet #domains
domains
Domains Project: Processing petabytes of data so you don’t have to
World’s single largest Internet domains dataset
Многие уже написали о просрочке сертификата домена у cert.gov.ru [1], официального сайта Национального координационного центра по компьютерным инцидентам. В котором, казалось бы, должны быть люди как никто понимающие про безопасность, сертификаты, HTTPS, TLS и так далее, а, тем не менее, вот уже 8 дней с 19 января их сертификат просрочен.
Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.
Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.
Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org
#security #domains #government
Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.
Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.
Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org
#security #domains #government
GitHub
GitHub - infoculture/govdomains: Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным…
Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным учреждениям, а также региональным и муниципальным властям. - infoculture/govdomains
По поводу того что все обсуждают что Минцифры/Правительство потребовало от сайтов госорганов в РФ перенести их на российский хостинг и избавиться от зарубежных счетчиков, баннеров, кода и тд. Я несколько лет, а может уже с десяток лет писал про то насколько в России это аномально то что госсайты хостились где попало, были увешены счетчиками посещаемости и тд. Тогда это было остро-актуально в контексте приватности данных пользователей. Госорганы и госпроекты - это монополии, вешать на них счетчики - это не оставлять пользователю никакого выбора.
Сейчас все это обсуждают в контексте информационной безопасности, а я напомню несколько важных фактов:
1. Я веду полный реестр госдоменов уже несколько лет. Значительная его часть доступа в репозитории на Github [1]
2. Важно помнить что кроме госорганов в России около 100 тысяч разного рода бюджетных и муниципальных учреждений., о которых все забыли
3. Даже без госучреждений сайты ФОИВов и их проектов разбросаны по 164 сетям (ASN)
4. Счетчики, внешний код javascript, баннеры и тд. - это массовое явление, сложно даже описать все случаи когда их использовали
и т.д.
Я всё это фиксировал ещё когда приоритетом цифровой архивации были госсайты, там была регулярная проблема с сохранением сайтов до того как ликвидируют орган власти. Сейчас другие проблемы, одномоментно исчезают сайты СМИ.
Впрочем об этом я пишу в канале @ruarxive.
Ссылки:
[1] https://github.com/infoculture/govdomains
#opendata #government #domains
Сейчас все это обсуждают в контексте информационной безопасности, а я напомню несколько важных фактов:
1. Я веду полный реестр госдоменов уже несколько лет. Значительная его часть доступа в репозитории на Github [1]
2. Важно помнить что кроме госорганов в России около 100 тысяч разного рода бюджетных и муниципальных учреждений., о которых все забыли
3. Даже без госучреждений сайты ФОИВов и их проектов разбросаны по 164 сетям (ASN)
4. Счетчики, внешний код javascript, баннеры и тд. - это массовое явление, сложно даже описать все случаи когда их использовали
и т.д.
Я всё это фиксировал ещё когда приоритетом цифровой архивации были госсайты, там была регулярная проблема с сохранением сайтов до того как ликвидируют орган власти. Сейчас другие проблемы, одномоментно исчезают сайты СМИ.
Впрочем об этом я пишу в канале @ruarxive.
Ссылки:
[1] https://github.com/infoculture/govdomains
#opendata #government #domains
GitHub
GitHub - infoculture/govdomains: Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным…
Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным учреждениям, а также региональным и муниципальным властям. - infoculture/govdomains
Почему я задумался о Wikibase и аналогичным проектам, потому что Airtable поменял уже какое-то время назад тарифы и теперь поддерживать там бесплатно большие таблицы невозможно. Какие-то таблицы вроде семантических типов данных и реестра каталогов данных я уже переносил в режим их редактирования в Github'е в виде тысяч YAML файлов. А теперь у меня закончилась квота на базы редактирования доменов, международных договоров и архивов сайтов. В общем что-то с этим надо делать и, либо найти альтернативу Airtable, либо перенести на Github и эти базы.
Главное отличие в том что у этих баз много разных связанных сущностей. В этом смысле гораздо проще вести базу каталогов данных, там основная сущность - это каталог. А даже в одной только базе госсайтов сущности включают: домен, организацию, ASN, регион и несколько десятков атрибутов.
Я всерьёз подумываю о том можно ли перенести такое на Wikibase или найти разумную альтернативу Airtable.
#opendata #datasets #data #government #domains
Главное отличие в том что у этих баз много разных связанных сущностей. В этом смысле гораздо проще вести базу каталогов данных, там основная сущность - это каталог. А даже в одной только базе госсайтов сущности включают: домен, организацию, ASN, регион и несколько десятков атрибутов.
Я всерьёз подумываю о том можно ли перенести такое на Wikibase или найти разумную альтернативу Airtable.
#opendata #datasets #data #government #domains
У меня уже очень долгое время в пассиве домен "kremlin.io" который я ещё давно хотел превратить в дата-проект, но всё это время откладывал и откладывал и откладывал и в этом году тоже отложу, потому что много всего другого в работе. Тоже про данные, но всякое другое.
Применить его можно про всякое. От исторического проекта про разные кремли с их панорамами обзорами, до дата-журналистики про то какой плохой/хороший основной Кремль как политическая институция.
До какого-нибудь софтверного продукта компонента с названием Kremlin, что будет странно по нынешним временам, но почему бы и нет?
Лично я когда-то хотел этот домен использовать в двух разных сценариях:
1. Как каталог данных про РФ именно про госуправление и госполитику.
2. Как проект по мониторингу государственной ИТ/цифровой политики в РФ.
Но оба сценария сейчас не проходят фильтра в виде вопроса "Зачем?", другие сценарии не придумываются, а домен превратился в пассив.
Так что готов его отдать за очень много денег которые все пожертвую на нашу НКО.
#questions #domains #kremlin
Применить его можно про всякое. От исторического проекта про разные кремли с их панорамами обзорами, до дата-журналистики про то какой плохой/хороший основной Кремль как политическая институция.
До какого-нибудь софтверного продукта компонента с названием Kremlin, что будет странно по нынешним временам, но почему бы и нет?
Лично я когда-то хотел этот домен использовать в двух разных сценариях:
1. Как каталог данных про РФ именно про госуправление и госполитику.
2. Как проект по мониторингу государственной ИТ/цифровой политики в РФ.
Но оба сценария сейчас не проходят фильтра в виде вопроса "Зачем?", другие сценарии не придумываются, а домен превратился в пассив.
Так что готов его отдать за очень много денег которые все пожертвую на нашу НКО.
#questions #domains #kremlin
В рубрике как это работает у них открытые данные по доменам в зоне .fr (Франция) на сайте Afnic [1] В том числе руководство [2] (на французском языке).
В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.
Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.
Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf
#opendata #france #domains
В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.
Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.
Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf
#opendata #france #domains
Afnic
Données partagées : l’open-data du .fr Data : les services d’exploitation des données du .fr - Afnic
Avec les services Open Data, SQUAW et la liste quotidienne des noms de domaine enregistrés, l’Afnic partage des millions de données d’activité du .fr.
В рубрике как это устроено у них несколько проектов с открытыми данными по всем государственным доменам в США.
.gov data [1] база всех доменов в зоне .gov, создана и актуализируется Cybersecurity and Infrastructure Security Agency, доступно в виде датасетов CSV файлов и файлов зоны .gov для DNS. Ведётся как полноценный дата продукт, регулярно обновляется.
GDA/govt-urls [3] репозиторий от U.S. General Services Administration с актуальным перечнем доменов/ссылок на все домены относящиеся к государству федеральные, уровня штатов, локальные, квазигосударственные и др. Огромное их число не в домене .gov кстати
ScanGov [4] публичный проект сканирования госсайтов на предмет соблюдения обязательных требований, рекомендаций и тд. В общем, лучшие практики. Создано в Civic Hacking Agency, использует базы сайтов выше и доступны новые датасеты [5]
Analytics.USA.gov [6] монитор статистики по большинству федеральных сайтов США. Отдаёт данные датасетами и API.
Service Status Checker [7] сервис проверки, мониторинга и уведомлений о недоступности для геопространственных сервисов. Мониторит большое число государственных геопространственных API в США, в основном это сервисы на базе ArcGIS и Geoserver, но не только их.
Ссылки:
[1] https://github.com/cisagov/dotgov-data
[2] https://get.gov/about/data/
[3] https://github.com/GSA/govt-urls
[4] https://scangov.org/
[5] https://docs.scangov.org/data
[6] https://analytics.usa.gov/
[7] https://statuschecker.fgdc.gov/
#opendata #government #domains #datasets
.gov data [1] база всех доменов в зоне .gov, создана и актуализируется Cybersecurity and Infrastructure Security Agency, доступно в виде датасетов CSV файлов и файлов зоны .gov для DNS. Ведётся как полноценный дата продукт, регулярно обновляется.
GDA/govt-urls [3] репозиторий от U.S. General Services Administration с актуальным перечнем доменов/ссылок на все домены относящиеся к государству федеральные, уровня штатов, локальные, квазигосударственные и др. Огромное их число не в домене .gov кстати
ScanGov [4] публичный проект сканирования госсайтов на предмет соблюдения обязательных требований, рекомендаций и тд. В общем, лучшие практики. Создано в Civic Hacking Agency, использует базы сайтов выше и доступны новые датасеты [5]
Analytics.USA.gov [6] монитор статистики по большинству федеральных сайтов США. Отдаёт данные датасетами и API.
Service Status Checker [7] сервис проверки, мониторинга и уведомлений о недоступности для геопространственных сервисов. Мониторит большое число государственных геопространственных API в США, в основном это сервисы на базе ArcGIS и Geoserver, но не только их.
Ссылки:
[1] https://github.com/cisagov/dotgov-data
[2] https://get.gov/about/data/
[3] https://github.com/GSA/govt-urls
[4] https://scangov.org/
[5] https://docs.scangov.org/data
[6] https://analytics.usa.gov/
[7] https://statuschecker.fgdc.gov/
#opendata #government #domains #datasets