Ivan Begtin
9.08K subscribers
2.53K photos
4 videos
114 files
5.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я хотел всё это как-то прокомментировать, но у меня "неделя без матерных слов", так что это полезно почитать и помнить что лучше не болеть (с) потому что наступит момент когда таки появится "система поддержки принятия врачебных решений на основе жалоб" и не только
🔥5😢21👍1
В качестве регулярных напоминаний в основе поисковика Dateno реестр почти всех существующих каталогов с данными. Этих каталогов много, более 10 тысяч и большая их часть - это каталоги геоданных, вторые по количеству - порталы открытых данных и далее научные репозитории, базы индикаторов и так далее.

Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.

Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.

#opendata #dateno #datasets #datadiscovery
4
Для тех кто любит исследовать данные, любопытный open source проект с непереводимым, но благозвучным названием huey который внутри использует DuckDB-WASM, а на вход разные дата файлы - parquet, csv, json и др. и позволяет их исследовать прямо в браузере. Можно отнести его к категории data exploration tool, их всё больше, все немного разные и безусловно иногда необходимые.

Из минусов:
- не поддерживает CSV файлы с кодировками отличными от utf8
- не всегда умеет распознавать структуру файлов

Из плюсов:
- всё локально в браузере

#opensource #datatools #duckdb
🔥7😁1
Риски открытого кода в живом примере - выступление и презентация единственного мэйнтейнера проекта curl Дэниэля Стенберга о том что его продукт используется в более чем 20 миллиардах устройств, но ни одна из компаний в продуктах которых он используется его не поддерживает. В общем-то реальность такова что таких продуктов с открытым кодом довольно много, может быть не с десятками миллиардов инсталляций, а лишь сотен миллионов, но у них у всех одинаковя ситуация:
- единственный майнтэйнер.
- отсутствие поддержки со стороны использующих компаний.

Не похоже что эта ситуация поменяется в скором времени, а вот случаи когда такие разработчики могут оказаться под пристальной атакой хакеров, социальной инженерии и тд. участятся.

#opensource
1😢14👍4❤‍🔥2
Свежая научная статья как дополнительное подтверждение того что начинающие разработчики всё менее востребованы, а опытные разработчики востребованы всё более. В выводах в статье ещё есть упоминание о том что более всего это бьёт по выпускникам ВУЗов средней руки, а вот лучшие и наиболее слабые затрагивает в меньшей степени.

Всё это про рынок труда в США, конечно же.

#ai #jobs #it
👍9😢53😁1
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)

#opendata #datasets #geodata
🔥20🤩2
Полезное ссылки про данные, технологии и не только:
- From SEO to AIO: Why Your Content Needs to Exist in AI Training Data заметка рассказывающая о том почему нужно предоставлять свой контент в интернете для обучения ИИ. Критических ни одного, важно помнить про природу этой дискуссии. Common Crawl получили много средств от ИИ компаний в последние пару лет поскольку собранные ими данные - это один из столпов обучения на текстах.
- Common Crawl Foundation Opt-Out Registry буквально в продолжение чтения про тексты для ИИ, Common Crawl создали реестр запросов на запрет на индексирование. Его можно посмотреть в виде Google таблицы. Основная идея за этим реестром в том чтобы уведомить пользователей Common Crawl о том есть список правообладателей от которых надо держаться подальше. Список быстро прирастает
- DuckDB benchmarked against Spark про бенчмарки баз данных о том что DuckDB в 100x быстрее обрабатывает данные чем Apache Spark при тестировании на 20GB файлах Parquet. Это и логично потому что DuckDB оптимизирован под локальную обработку, а Spark под масштабирование, но и одновременно DuckDB либерализует локальную обработку данных.
- Git diagrammer онлайн сервис от стартапа Eraser по превращению репозиториев в Github в диаграммы. Любопытная бесплатная (но не с открытым кодом) штука которая может быть полезна для отрисовки некоторых типов диаграмм. Сам стартап с очень интересной идеей, но, ИМХО, усложнённой реализацией. Ту же самую идею автодокументирования и автопроектирование продуктов можно было сделать проще, понятнее и тд. На мой вкусно, конечно
- Hyperfine инструмент измерения производительности приложений в командной строке. Полезно когда надо сравнивать инструменты в режиме холодного запуска, с учётом их инициализации и выполнения задачи. Не в серверном варианте, в общем, а в рабочем окружении локально.

#opensource #ai #datatools #datadocumentation #digitalpreservation
3