Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
✍5❤2👍1
💡 Чем интересен Dateno?
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
🔥7✍5