Forwarded from Национальный цифровой архив
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].
В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).
Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.
Подробнее в их блоге [2].
Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index
#opendata #webarchives #datasets
В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).
Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.
Подробнее в их блоге [2].
Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index
#opendata #webarchives #datasets
TerraMind, свежая генеративная модель по данным наблюдения за Землёй от IBM и ESA [1] также доступная на Hugging Face [2] и статья на Arxive.org [3]
Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.
Авторы пишут что она превосходит аналогичные foundation models на 8%
Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171
#geodata #opendata #ibm #ai #aimodels
Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.
Авторы пишут что она превосходит аналогичные foundation models на 8%
Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171
#geodata #opendata #ibm #ai #aimodels
Прекрасный текст I use Zip Bombs to Protect my Server [1] в котором автор рассказывает как он отбивается от ботов сканирующих его веб сайт через подсовывание им ZIP файла в 1MB который разворачивается в 1GB и это помогает "убить" большую часть ботов. Самым упоротым ботам он подсовывает уже 10MB ZIP файл и после этого не выживает уже ни один бот.
Конечно, это, в основном для ботов которые автоматически распаковывают ZIP файлы, например разные сканеры безопасности.
Эта техника называется ZIP бомбинг [2], я помню её ещё по студенческим временам, тогда её применяли не против ботов, как-нибудь ещё.
А сейчас дело это увлекательное, но способное и вред нанести. Признают ли ZIP бомбинг цифровым экстремизмом когда-нибудь?:)
Ссылки:
[1] https://idiallo.com/blog/zipbomb-protection
[2] https://en.wikipedia.org/wiki/Zip_bomb
#zip #funny
Конечно, это, в основном для ботов которые автоматически распаковывают ZIP файлы, например разные сканеры безопасности.
Эта техника называется ZIP бомбинг [2], я помню её ещё по студенческим временам, тогда её применяли не против ботов, как-нибудь ещё.
А сейчас дело это увлекательное, но способное и вред нанести. Признают ли ZIP бомбинг цифровым экстремизмом когда-нибудь?:)
Ссылки:
[1] https://idiallo.com/blog/zipbomb-protection
[2] https://en.wikipedia.org/wiki/Zip_bomb
#zip #funny
В рубрике полезных ссылок про данные, технологии и не только:
- Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран [1] статья на хабре от команды Яндекса про геокодирование. Достаточно сложно чтобы не поверхностно, недостаточно сложно чтобы было нечитабельно. Полезно для всех кто анализирует адреса.
- Data Commons: The Missing Infrastructure for Public Interest Artificial Intelligence [2] статья Stefaan Verhulst и группы исследователей про необходимость создания Data Commons, общей инфраструктуры данных и организуемого ими конкурса на эту тему. Интересна и предыдущая статья [3].
- AI is getting “creepy good” at geo-guessing [4] о том насколько облачные AI модели стали пугающе хороши в идентификации мест по фотографии в блоге MalwareBytes
- Redis is now available under the AGPLv3 open source license [5] да, СУБД Redis с 8 версии снова AGPL. Больше открытого кода и свободных лицензий
- Hyperparam Open-Source [6] Hyperparam это инструмент визуализации больших датасетов для машинного обучения. Теперь выпустили с открытым кодом компонент HighTable [7] для отображения больших таблиц. Лицензия MIT
- AI Action Plan Database [8] база данных и более чем 4700 предложений по плану действий в отношении ИИ, инициативе Президента Трампа в США, к которой многие компании прислали свои предложения. Хорошо систематизировано (с помощью ИИ) и доступен CSV датасет.
Ссылки:
[1] https://habr.com/ru/companies/yandex/articles/877086/
[2] https://www.linkedin.com/pulse/data-commons-missing-infrastructure-public-interest-verhulst-phd-k8eec/
[3] https://medium.com/data-policy/data-commons-under-threat-by-or-the-solution-for-a-generative-ai-era-rethinking-9193e35f85e6
[4] https://www.malwarebytes.com/blog/news/2025/04/ai-is-getting-creepy-good-at-geo-guessing
[5] https://redis.io/blog/agplv3/
[6] https://hyperparam.app/about/opensource
[7] https://github.com/hyparam/hightable
[8] https://www.aiactionplan.org/
#opendata #datatools #opensource #datapolicy #ai
- Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран [1] статья на хабре от команды Яндекса про геокодирование. Достаточно сложно чтобы не поверхностно, недостаточно сложно чтобы было нечитабельно. Полезно для всех кто анализирует адреса.
- Data Commons: The Missing Infrastructure for Public Interest Artificial Intelligence [2] статья Stefaan Verhulst и группы исследователей про необходимость создания Data Commons, общей инфраструктуры данных и организуемого ими конкурса на эту тему. Интересна и предыдущая статья [3].
- AI is getting “creepy good” at geo-guessing [4] о том насколько облачные AI модели стали пугающе хороши в идентификации мест по фотографии в блоге MalwareBytes
- Redis is now available under the AGPLv3 open source license [5] да, СУБД Redis с 8 версии снова AGPL. Больше открытого кода и свободных лицензий
- Hyperparam Open-Source [6] Hyperparam это инструмент визуализации больших датасетов для машинного обучения. Теперь выпустили с открытым кодом компонент HighTable [7] для отображения больших таблиц. Лицензия MIT
- AI Action Plan Database [8] база данных и более чем 4700 предложений по плану действий в отношении ИИ, инициативе Президента Трампа в США, к которой многие компании прислали свои предложения. Хорошо систематизировано (с помощью ИИ) и доступен CSV датасет.
Ссылки:
[1] https://habr.com/ru/companies/yandex/articles/877086/
[2] https://www.linkedin.com/pulse/data-commons-missing-infrastructure-public-interest-verhulst-phd-k8eec/
[3] https://medium.com/data-policy/data-commons-under-threat-by-or-the-solution-for-a-generative-ai-era-rethinking-9193e35f85e6
[4] https://www.malwarebytes.com/blog/news/2025/04/ai-is-getting-creepy-good-at-geo-guessing
[5] https://redis.io/blog/agplv3/
[6] https://hyperparam.app/about/opensource
[7] https://github.com/hyparam/hightable
[8] https://www.aiactionplan.org/
#opendata #datatools #opensource #datapolicy #ai
Хабр
Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран
Давным‑давно, когда мир ML состоял из бустингов, линейных моделей и статистических подходов, перед нашей командой API Яндекс Карт стояла задача сделать качественный Геокодер. Это алгоритм,...
В рубрике как это устроено у них EarthBank [1] платформа для удобной визуализации, анализа и извлечения геопривязанных данных, полученных геохимическими лабораториями по всему миру.
Вернее, конечно по всему миру, но только с теми данными что есть в австралийских музеях и лабораториях. Это более 96 тысяч образцов собранных в 61 пакет с данными. Конечно, большая часть данных по Австралии, но есть примеры и из других стран, например, на скриншоте образцы из Адыгеи которые собраны в 2015 году и хранятся в Музее минералогии штата Виктория.
Проект создан в AuScope Geochemistry Network (AGN) на базе движка австралийского стартапа Lithodat по визуализации геохимических данных.
У проект открытое API, возможность выгрузить все наборы данных, но требуется авторизация для доступа.
Ссылки:
[1] https://ausgeochem.auscope.org.au
#opendata #geodata #geochemistry #mineralogy
Вернее, конечно по всему миру, но только с теми данными что есть в австралийских музеях и лабораториях. Это более 96 тысяч образцов собранных в 61 пакет с данными. Конечно, большая часть данных по Австралии, но есть примеры и из других стран, например, на скриншоте образцы из Адыгеи которые собраны в 2015 году и хранятся в Музее минералогии штата Виктория.
Проект создан в AuScope Geochemistry Network (AGN) на базе движка австралийского стартапа Lithodat по визуализации геохимических данных.
У проект открытое API, возможность выгрузить все наборы данных, но требуется авторизация для доступа.
Ссылки:
[1] https://ausgeochem.auscope.org.au
#opendata #geodata #geochemistry #mineralogy
В рубрике как это устроено у них Статистика по топливной бедности в Великобритании [1] публикуется с 2010 года в форматах Excel и ODS и даёт информацию об уровне топливной бедности, доле домохозяйств с низкими доходами, низкой энергоэффективностью и высокими расходами на топливо. Датасет создаётся из данных English Housing Survey (EHS), регулярного опроса в Англии, на основе которого формируются эти цифры.
Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.
Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.
У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.
Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/
#opendata #statistics
Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.
Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.
У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.
Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/
#opendata #statistics
Я как и многие прочитал про свежий список разрешённых игрушек в детских садах [1].
Подробной информации нет, а из уст министра Кравцова это звучало вот так
... Поэтому нам нужен перечень тех игрушек, которые будут поставляться в детские сады: для каждого определенного возраста - свой. К сожалению, в магазинах на полках мы до сих пор видим множество игрушек, которые формируют ценности, чуждые российским". ...
Поначалу я планировал прокомментировать это всё с долей иронии, но понял что хоть и ирония тут имеет право на существование, но сама тема очень серьёзная. Потому что реестры, списки и перечни вот уже много лет как стали одним из основных инструментов государственного управления. Я, для простоты, буду далее это называть реестровой системой управления.
Что такое реестр ? Это, как правило, белый или чёрный список организаций или людей или иных связанных с ними объектов (продуктов, товаров, произведений и тд.) с которыми связаны ограничения на доступ к определенному роду деятельности через разрешение только для включённых в этот список (белый список) или исключение включённых в него (чёрный список).
Например, реестр нежелательных организаций или реестры иноагентов или реестры недобросовестных поставщиков - это чёрные списки. А реестры отечественного ПО или реестр ИТ компаний - это белые списки. Черные списки создаются по принципу того чтобы сделать очень плохо ограниченному числу организаций или граждан, а белые списки про то чтобы сделать лучше большему числу участников и плохо всем остальным.
Что лучше, что хуже я сейчас оценивать не буду, это всё зависит от области применения. Важно помнить что это одна из форм кодификация ограничений. При этом, безусловно, реестры обладают высокой степенью коррупционноёмкости (случайно такое сложное слово вырвалось). Включение в или исключение из реестра может лишить включаемого доступа к рынку, ресурсу, возможности заниматься профессиональной деятельностью и тд.
Например, контекст вокруг списка игрушек таков что единственная модель его практического применения - это ограничения в государственном и муниципальном заказе. Но для этого надо, или провести это в федеральном законе, или навязать только для детских садов ремонтируемых за счёт федерального бюджета через требования в текстах субсидий выдаваемых Минпросвещения, или на региональном уровне решениями региональных правительств. Потому что детские сады, почти все, находятся в муниципальном ведении или, реже, в ведении субъектов федерации.
Поэтому как этот список появится, сколь скоро и насколько он будет обязательным - надо ещё последить. Важнее другое, этот реестр является абсолютно логичной моделью регулирования в рамках российской системы госуправления основанной на контроле и патернализме. Контроль - это реестр, патернализм - в том что федеральные чиновники считают что никому кроме них нельзя доверить столь ответственное дело как выбор игрушек для детей. Я об этом ранее писал в контексте ИТ рынка, но это универсальная парадигма.
Каждый такой реестр и список - это ещё один шаг в копилку тех кто хотел бы "чтобы страна жила построже". И если такой список игрушек появится и будет кодифицирован - это ровно такой пример.
Ссылки:
[1] https://rg.ru/2025/03/04/minprosveshcheniia-utverdit-perechen-igrushek-dlia-detskih-sadov.html
#government #russia #data
Подробной информации нет, а из уст министра Кравцова это звучало вот так
... Поэтому нам нужен перечень тех игрушек, которые будут поставляться в детские сады: для каждого определенного возраста - свой. К сожалению, в магазинах на полках мы до сих пор видим множество игрушек, которые формируют ценности, чуждые российским". ...
Поначалу я планировал прокомментировать это всё с долей иронии, но понял что хоть и ирония тут имеет право на существование, но сама тема очень серьёзная. Потому что реестры, списки и перечни вот уже много лет как стали одним из основных инструментов государственного управления. Я, для простоты, буду далее это называть реестровой системой управления.
Что такое реестр ? Это, как правило, белый или чёрный список организаций или людей или иных связанных с ними объектов (продуктов, товаров, произведений и тд.) с которыми связаны ограничения на доступ к определенному роду деятельности через разрешение только для включённых в этот список (белый список) или исключение включённых в него (чёрный список).
Например, реестр нежелательных организаций или реестры иноагентов или реестры недобросовестных поставщиков - это чёрные списки. А реестры отечественного ПО или реестр ИТ компаний - это белые списки. Черные списки создаются по принципу того чтобы сделать очень плохо ограниченному числу организаций или граждан, а белые списки про то чтобы сделать лучше большему числу участников и плохо всем остальным.
Что лучше, что хуже я сейчас оценивать не буду, это всё зависит от области применения. Важно помнить что это одна из форм кодификация ограничений. При этом, безусловно, реестры обладают высокой степенью коррупционноёмкости (случайно такое сложное слово вырвалось). Включение в или исключение из реестра может лишить включаемого доступа к рынку, ресурсу, возможности заниматься профессиональной деятельностью и тд.
Например, контекст вокруг списка игрушек таков что единственная модель его практического применения - это ограничения в государственном и муниципальном заказе. Но для этого надо, или провести это в федеральном законе, или навязать только для детских садов ремонтируемых за счёт федерального бюджета через требования в текстах субсидий выдаваемых Минпросвещения, или на региональном уровне решениями региональных правительств. Потому что детские сады, почти все, находятся в муниципальном ведении или, реже, в ведении субъектов федерации.
Поэтому как этот список появится, сколь скоро и насколько он будет обязательным - надо ещё последить. Важнее другое, этот реестр является абсолютно логичной моделью регулирования в рамках российской системы госуправления основанной на контроле и патернализме. Контроль - это реестр, патернализм - в том что федеральные чиновники считают что никому кроме них нельзя доверить столь ответственное дело как выбор игрушек для детей. Я об этом ранее писал в контексте ИТ рынка, но это универсальная парадигма.
Каждый такой реестр и список - это ещё один шаг в копилку тех кто хотел бы "чтобы страна жила построже". И если такой список игрушек появится и будет кодифицирован - это ровно такой пример.
Ссылки:
[1] https://rg.ru/2025/03/04/minprosveshcheniia-utverdit-perechen-igrushek-dlia-detskih-sadov.html
#government #russia #data
Российская газета
Минпросвещения утвердит перечень игрушек для детских садов - Российская газета
Во что играть детям в детских садах? Какие игрушки должны там появиться? Возможно, вскоре это будет определяться специальным перечнем игрушек. О планах разработать и утвердить такой список для детских садов сообщил во вторник министр просвещения РФ Сергей…