Я вначале думал что это первоапрельская шутка, а оказывается совсем нет, мебель с открытым кодом, Hyperwood [1] и это прям реально открытый код на Github [2] спецификация для обмена данными и описания моделей.
На что только люди не находят время и выглядит весьма и весьма неплохо.
Ссылки:
[1] https://hyperwood.org/
[2] https://github.com/jo/hyperwood
#opensource #wood
На что только люди не находят время и выглядит весьма и весьма неплохо.
Ссылки:
[1] https://hyperwood.org/
[2] https://github.com/jo/hyperwood
#opensource #wood
Команда DBT выложила их State of Analytics Engineering Report 2025 [1] с некоторым числом полезных инсайтов по результатам опроса их пользователей. Тут главное не забывать что analytics engineer не то чтобы зафиксированная профессия, скорее некое предположение что они есть. Но инсайты полезны во многих смыслах того как работают современные дата аналитики и какие продукты создаются.
Ссылки:
[1] https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2025
#analytics #readings #data
Ссылки:
[1] https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2025
#analytics #readings #data
Ещё один инструмент построения конвееров данных sql-flow [1] через декларативное описание в конфигурации YAML и SQL запросы.
Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.
Выглядит как нечто неплохо спроектированное и описанное.
Для тех кто любит SQL и YAML - самое оно.
Ссылки:
[1] https://github.com/turbolytics/sql-flow
#opensource #datatools #dataengineering
Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.
Выглядит как нечто неплохо спроектированное и описанное.
Для тех кто любит SQL и YAML - самое оно.
Ссылки:
[1] https://github.com/turbolytics/sql-flow
#opensource #datatools #dataengineering
Случился апокалипсис и нет Интернета? В США есть не то чтобы популярное, но заметное движение выживальшиков (preppers) с большим числом товаров и даже специализированными магазинами для них. Один из любопытных продуктов для выживания - это Prepper Disk [1] оффлайновая точка Wi-Fi с диском на 512ГБ или 1ТБ с оффлайн копией Википедии, множества руководств, OpenStreetMap, руководства iFixIt, StackOverflow по выживанию, копия сайта Ready.Gov (агентства FEMA) и многое другое.
Пишут что у них резко выросли продажи [2] на фоне второго прихода Трампа к власти.
Ребята, конечно, молодцы, это один из способов монетизировать усилия по сохранению наиболее ценного контента.
Кроме них ещё есть похожий проект Internet-in-a-box [3], значительно дешевле и для развивающихся стран с акцентом на школы. Там внутри Kiwix и много контента из проектов фонда Wikimedia.
Ссылки:
[1] https://www.prepperdisk.com
[2] https://www.404media.co/sales-of-hard-drives-prepper-disk-for-the-end-of-the-world-have-boomed-under-trump/
[3] https://internet-in-a-box.org/
#digitalpreservation
Пишут что у них резко выросли продажи [2] на фоне второго прихода Трампа к власти.
Ребята, конечно, молодцы, это один из способов монетизировать усилия по сохранению наиболее ценного контента.
Кроме них ещё есть похожий проект Internet-in-a-box [3], значительно дешевле и для развивающихся стран с акцентом на школы. Там внутри Kiwix и много контента из проектов фонда Wikimedia.
Ссылки:
[1] https://www.prepperdisk.com
[2] https://www.404media.co/sales-of-hard-drives-prepper-disk-for-the-end-of-the-world-have-boomed-under-trump/
[3] https://internet-in-a-box.org/
#digitalpreservation
Похоже что с РГБ случилась какая-то катастрофа, все их цифровые ресурсы недоступны и пишут что неизвестно когда восстановят https://t.me/leninka_ru/5986.
В РГБ и конкретно в НЭБ было немало цифрового контента, полезного как для историков, так и ценного для создания исторических наборов данных, да и просто для всех кто интересовался историей не только России, но и всего наследия РИ и СССР.
Наша команда Национального цифрового архива @ruarxive никогда ресурсы РГБ не архивировала исходя из их максимальной сохранности. Не было признаков что материалы оттуда могут быть удалены. Но вот что-то случилось, непонятно проблемы с оборудованием или работа хакеров и много неопределённости и недоступные ресурсы. Если их в итоге восстановят, то будем архивировать как минимум НЭБ.
P.S. Пишут что в здании РГБ был пожар и данные в целостности.
#digitalpreservation
В РГБ и конкретно в НЭБ было немало цифрового контента, полезного как для историков, так и ценного для создания исторических наборов данных, да и просто для всех кто интересовался историей не только России, но и всего наследия РИ и СССР.
Наша команда Национального цифрового архива @ruarxive никогда ресурсы РГБ не архивировала исходя из их максимальной сохранности. Не было признаков что материалы оттуда могут быть удалены. Но вот что-то случилось, непонятно проблемы с оборудованием или работа хакеров и много неопределённости и недоступные ресурсы. Если их в итоге восстановят, то будем архивировать как минимум НЭБ.
P.S. Пишут что в здании РГБ был пожар и данные в целостности.
#digitalpreservation
Telegram
Российская государственная библиотека (Ленинка)
⚠️ Уважаемые читатели!
С 28 апреля и до отдельного объявления в связи с техническими проблемами будут недоступны:
- сайт РГБ,
- электронная библиотека РГБ, поиск по электронному каталогу и электронным ресурсам,
- электронный заказ документов,
- удаленный…
С 28 апреля и до отдельного объявления в связи с техническими проблемами будут недоступны:
- сайт РГБ,
- электронная библиотека РГБ, поиск по электронному каталогу и электронным ресурсам,
- электронный заказ документов,
- удаленный…
Прекрасно справляются LLM'ки с анализом идентификаторов. Вот результаты Deep Research через Perplexity по промпту
—
В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала https://t.me/bloodysx код 677fd08c4de6c368456d0b5f
Проанализируй по какому алгоритму могли быть созданы эти коды
—
Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.
В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.
#llm #ai #research #identifiers
—
В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала https://t.me/bloodysx код 677fd08c4de6c368456d0b5f
Проанализируй по какому алгоритму могли быть созданы эти коды
—
Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.
В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.
#llm #ai #research #identifiers
В рубрике интересных наборов данных и проектов на данных HydroSheds [1] включающий наборы геоданных со всеми озёрами, реками, речными бассейнами, речной сетью, побережью озёр и так далее. Множество датасетов в форматах GDP и SHP и общим объёмом в несколько десятков, может быть, более 100ГБ сжатом виде.
Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.
Ссылки:
[1] https://www.hydrosheds.org
#opendata #geodata #hydrology #openaccess
Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.
Ссылки:
[1] https://www.hydrosheds.org
#opendata #geodata #hydrology #openaccess
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]
А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.
С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.
Хорошо или плохо странам где технократы не смогут прийти к власти ?
Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/
#opendata #api #usa #government #spending
А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.
С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.
Хорошо или плохо странам где технократы не смогут прийти к власти ?
Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/
#opendata #api #usa #government #spending
Кстати, я вот всё никак не соберусь написать про эксперименты с Яндекс.Нейроэксперт [1]. Вначале хотел написать весьма критично, потому что недостатков много:
- нет открытого API, невозможно автоматически подключиться
- загрузка файлов непрозрачна, ты как бы отправляешь файл и ждёшь непонимания в какой стадии файл находится
- ограничение в 25 файлов маловато
Но, потом, сравнивая с ChatGPT и Perplexity где тоже можно создавать пространства с документами, моё мнение несколько переменилось.
У Нейроэксперта выявилось две очень важные характеристики.
1. Он умеет прожёвывать файлы сканов условно большого размера. Дореволюционные книжки без текстового слоя, со старой орфографией. Грузил туда файлы по 80-100МБ и, хоть и неудобно, но несколько загрузить удалось.
2. По текстам этих книжек он умеет строить временные ряды. Так по книгам старых статистических справочников он по наводящим вопросам выдал временные ряды в виде CSV файла по нескольким таблицам
Для сравнения ChatGPT не смог распознать такие сканы, а Perplexity не поддерживает загрузку файлов более 25МБ (по числу файлов там ограничений нет).
Если команда Нейроэксперта его "детские болезни" полечит он станет бесценным инструментом для работы с историческими документами. Примеры пока не привожу, это тема отдельного поста.
Ссылки:
[1] https://expert.ya.ru/expert
#ai #aitools #digitalhumanities
- нет открытого API, невозможно автоматически подключиться
- загрузка файлов непрозрачна, ты как бы отправляешь файл и ждёшь непонимания в какой стадии файл находится
- ограничение в 25 файлов маловато
Но, потом, сравнивая с ChatGPT и Perplexity где тоже можно создавать пространства с документами, моё мнение несколько переменилось.
У Нейроэксперта выявилось две очень важные характеристики.
1. Он умеет прожёвывать файлы сканов условно большого размера. Дореволюционные книжки без текстового слоя, со старой орфографией. Грузил туда файлы по 80-100МБ и, хоть и неудобно, но несколько загрузить удалось.
2. По текстам этих книжек он умеет строить временные ряды. Так по книгам старых статистических справочников он по наводящим вопросам выдал временные ряды в виде CSV файла по нескольким таблицам
Для сравнения ChatGPT не смог распознать такие сканы, а Perplexity не поддерживает загрузку файлов более 25МБ (по числу файлов там ограничений нет).
Если команда Нейроэксперта его "детские болезни" полечит он станет бесценным инструментом для работы с историческими документами. Примеры пока не привожу, это тема отдельного поста.
Ссылки:
[1] https://expert.ya.ru/expert
#ai #aitools #digitalhumanities
Forwarded from Национальный цифровой архив
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].
В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).
Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.
Подробнее в их блоге [2].
Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index
#opendata #webarchives #datasets
В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).
Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.
Подробнее в их блоге [2].
Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index
#opendata #webarchives #datasets
TerraMind, свежая генеративная модель по данным наблюдения за Землёй от IBM и ESA [1] также доступная на Hugging Face [2] и статья на Arxive.org [3]
Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.
Авторы пишут что она превосходит аналогичные foundation models на 8%
Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171
#geodata #opendata #ibm #ai #aimodels
Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.
Авторы пишут что она превосходит аналогичные foundation models на 8%
Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171
#geodata #opendata #ibm #ai #aimodels