Я хотел всё это как-то прокомментировать, но у меня "неделя без матерных слов", так что это полезно почитать и помнить что лучше не болеть (с) потому что наступит момент когда таки появится "система поддержки принятия врачебных решений на основе жалоб" и не только
🔥5😢2⚡1👍1
В качестве регулярных напоминаний в основе поисковика Dateno реестр почти всех существующих каталогов с данными. Этих каталогов много, более 10 тысяч и большая их часть - это каталоги геоданных, вторые по количеству - порталы открытых данных и далее научные репозитории, базы индикаторов и так далее.
Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.
Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.
#opendata #dateno #datasets #datadiscovery
Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.
Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.
#opendata #dateno #datasets #datadiscovery
⚡4
Для тех кто любит исследовать данные, любопытный open source проект с непереводимым, но благозвучным названием huey который внутри использует DuckDB-WASM, а на вход разные дата файлы - parquet, csv, json и др. и позволяет их исследовать прямо в браузере. Можно отнести его к категории data exploration tool, их всё больше, все немного разные и безусловно иногда необходимые.
Из минусов:
- не поддерживает CSV файлы с кодировками отличными от utf8
- не всегда умеет распознавать структуру файлов
Из плюсов:
- всё локально в браузере
#opensource #datatools #duckdb
Из минусов:
- не поддерживает CSV файлы с кодировками отличными от utf8
- не всегда умеет распознавать структуру файлов
Из плюсов:
- всё локально в браузере
#opensource #datatools #duckdb
🔥7😁1
Риски открытого кода в живом примере - выступление и презентация единственного мэйнтейнера проекта curl Дэниэля Стенберга о том что его продукт используется в более чем 20 миллиардах устройств, но ни одна из компаний в продуктах которых он используется его не поддерживает. В общем-то реальность такова что таких продуктов с открытым кодом довольно много, может быть не с десятками миллиардов инсталляций, а лишь сотен миллионов, но у них у всех одинаковя ситуация:
- единственный майнтэйнер.
- отсутствие поддержки со стороны использующих компаний.
Не похоже что эта ситуация поменяется в скором времени, а вот случаи когда такие разработчики могут оказаться под пристальной атакой хакеров, социальной инженерии и тд. участятся.
#opensource
- единственный майнтэйнер.
- отсутствие поддержки со стороны использующих компаний.
Не похоже что эта ситуация поменяется в скором времени, а вот случаи когда такие разработчики могут оказаться под пристальной атакой хакеров, социальной инженерии и тд. участятся.
#opensource
Sched
Open Source Summit Europe 2025: Keynote: Giants, Standing on the Shoulde...
View more about this event at Open Source Summit Europe 2025
1😢14👍4❤🔥2
Свежая научная статья как дополнительное подтверждение того что начинающие разработчики всё менее востребованы, а опытные разработчики востребованы всё более. В выводах в статье ещё есть упоминание о том что более всего это бьёт по выпускникам ВУЗов средней руки, а вот лучшие и наиболее слабые затрагивает в меньшей степени.
Всё это про рынок труда в США, конечно же.
#ai #jobs #it
Всё это про рынок труда в США, конечно же.
#ai #jobs #it
👍9😢5⚡3😁1
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)
#opendata #datasets #geodata
#opendata #datasets #geodata
🔥20🤩2
Полезное ссылки про данные, технологии и не только:
- From SEO to AIO: Why Your Content Needs to Exist in AI Training Data заметка рассказывающая о том почему нужно предоставлять свой контент в интернете для обучения ИИ. Критических ни одного, важно помнить про природу этой дискуссии. Common Crawl получили много средств от ИИ компаний в последние пару лет поскольку собранные ими данные - это один из столпов обучения на текстах.
- Common Crawl Foundation Opt-Out Registry буквально в продолжение чтения про тексты для ИИ, Common Crawl создали реестр запросов на запрет на индексирование. Его можно посмотреть в виде Google таблицы. Основная идея за этим реестром в том чтобы уведомить пользователей Common Crawl о том есть список правообладателей от которых надо держаться подальше. Список быстро прирастает
- DuckDB benchmarked against Spark про бенчмарки баз данных о том что DuckDB в 100x быстрее обрабатывает данные чем Apache Spark при тестировании на 20GB файлах Parquet. Это и логично потому что DuckDB оптимизирован под локальную обработку, а Spark под масштабирование, но и одновременно DuckDB либерализует локальную обработку данных.
- Git diagrammer онлайн сервис от стартапа Eraser по превращению репозиториев в Github в диаграммы. Любопытная бесплатная (но не с открытым кодом) штука которая может быть полезна для отрисовки некоторых типов диаграмм. Сам стартап с очень интересной идеей, но, ИМХО, усложнённой реализацией. Ту же самую идею автодокументирования и автопроектирование продуктов можно было сделать проще, понятнее и тд. На мой вкусно, конечно
- Hyperfine инструмент измерения производительности приложений в командной строке. Полезно когда надо сравнивать инструменты в режиме холодного запуска, с учётом их инициализации и выполнения задачи. Не в серверном варианте, в общем, а в рабочем окружении локально.
#opensource #ai #datatools #datadocumentation #digitalpreservation
- From SEO to AIO: Why Your Content Needs to Exist in AI Training Data заметка рассказывающая о том почему нужно предоставлять свой контент в интернете для обучения ИИ. Критических ни одного, важно помнить про природу этой дискуссии. Common Crawl получили много средств от ИИ компаний в последние пару лет поскольку собранные ими данные - это один из столпов обучения на текстах.
- Common Crawl Foundation Opt-Out Registry буквально в продолжение чтения про тексты для ИИ, Common Crawl создали реестр запросов на запрет на индексирование. Его можно посмотреть в виде Google таблицы. Основная идея за этим реестром в том чтобы уведомить пользователей Common Crawl о том есть список правообладателей от которых надо держаться подальше. Список быстро прирастает
- DuckDB benchmarked against Spark про бенчмарки баз данных о том что DuckDB в 100x быстрее обрабатывает данные чем Apache Spark при тестировании на 20GB файлах Parquet. Это и логично потому что DuckDB оптимизирован под локальную обработку, а Spark под масштабирование, но и одновременно DuckDB либерализует локальную обработку данных.
- Git diagrammer онлайн сервис от стартапа Eraser по превращению репозиториев в Github в диаграммы. Любопытная бесплатная (но не с открытым кодом) штука которая может быть полезна для отрисовки некоторых типов диаграмм. Сам стартап с очень интересной идеей, но, ИМХО, усложнённой реализацией. Ту же самую идею автодокументирования и автопроектирование продуктов можно было сделать проще, понятнее и тд. На мой вкусно, конечно
- Hyperfine инструмент измерения производительности приложений в командной строке. Полезно когда надо сравнивать инструменты в режиме холодного запуска, с учётом их инициализации и выполнения задачи. Не в серверном варианте, в общем, а в рабочем окружении локально.
#opensource #ai #datatools #datadocumentation #digitalpreservation
✍3
Про цифровой суверенитет многие говорят не только в РФ, но и в Евросоюзе и в странах Глобального Юга, тут важно помнить что никто из них при этом не экспериментирует с тотальными вариантами самоизоляции и отключениями мобильного интернета. В принципе мне лично не нравится что эту практику пытаются подать как нечто нормальное, это ненормально, конечно же и каждое применение такой меры - это экстраординарная ситуация.
Важно только помнить что цифровой суверенитет - это антоним цифрового колониализма. Главный лозунг цифрового суверенитета в ЕС - это снижение зависимости от США (трудноосуществимое на практике, конечно же, но тренд именно туда). И надо понимать что как раз рост продажи цифровых сервисов другим странам - это и есть попытки уменьшить их цифровой суверенитет. К примеру, когда я читаю новости про рост продажи цифровых услуг из РФ в страны Центральной Азии - это именно этим и является. Также как и активная, а иногда и агрессивная продажа цифровых услуг стран Европы в развивающиеся страны.
Поэтому цифровой суверенитет - это про то что никто не хочет быть цифровых колонией, но от своих цифровых колоний не отказались бы.
Поэтому не обманывайтесь речами тех кто о нём говорит, это всё разговоры про власть и наличие рубильника отключающего всё или что-то конкретное. Никто не хочет чтобы у соседей был рубильник отрубающий его квартиру, но многие могут хотеть рубильник отключающий соседа.
#thoughts
Важно только помнить что цифровой суверенитет - это антоним цифрового колониализма. Главный лозунг цифрового суверенитета в ЕС - это снижение зависимости от США (трудноосуществимое на практике, конечно же, но тренд именно туда). И надо понимать что как раз рост продажи цифровых сервисов другим странам - это и есть попытки уменьшить их цифровой суверенитет. К примеру, когда я читаю новости про рост продажи цифровых услуг из РФ в страны Центральной Азии - это именно этим и является. Также как и активная, а иногда и агрессивная продажа цифровых услуг стран Европы в развивающиеся страны.
Поэтому цифровой суверенитет - это про то что никто не хочет быть цифровых колонией, но от своих цифровых колоний не отказались бы.
Поэтому не обманывайтесь речами тех кто о нём говорит, это всё разговоры про власть и наличие рубильника отключающего всё или что-то конкретное. Никто не хочет чтобы у соседей был рубильник отрубающий его квартиру, но многие могут хотеть рубильник отключающий соседа.
#thoughts
💯17❤7🌚1