Подборка полезных ссылок про данные, технологии и не только:
- Wireduck [1] расширение для DuckDB для чтения файлов сохраненного сетевого трафика PCAP. Для тех кто анализирует трафик вручную или автоматически может оказаться очень полезным
- OpenDataEditor v1.4.0 [2] новая версия инструмента для публикации открытых данных от Open Knowledge Foundation. Пока не пробовал, но скоро надо будет посмотреть внимательнее.
- dataframely [3] библиотека для декларативной проверки данных в дата фреймах нативная для Polars. Есть вероятность что будет работать с хорошей производительностью. Уже напрашиваются бенчмарки для библиотек и инструментов валидации фреймов и датасетов.
- Repairing Raw Data Files with TASHEEH [4] статья про инструмент восстановления битых CSV файлов. Это результат работы команды из Hasso-Plattner Institut [5]. Код найти не удалось, хотя пишут что он открыт, скорее всего под эмбарго пока что
- Pollock [6] инструмент и бенчмарк от той же команды из HPI по измерению качества парсинга CSV файлов. Неожиданно и тут лидирует DuckDB. Удивительно что о нём никто не знает. У этой команды много инструментов и практических работ по теме data preparation.
Ссылки:
[1] https://github.com/hyehudai/wireduck
[2] https://blog.okfn.org/2025/04/21/announcement-open-data-editor-1-4-0-version-release/
[3] https://tech.quantco.com/blog/dataframely
[4] https://www.semanticscholar.org/paper/Repairing-Raw-Data-Files-with-TASHEEH-Hameed-Vitagliano/4ec3b2d9e8ef1658bfce12c75e1ad332d4f73665
[5] https://hpi.de/naumann/projects/data-preparation/tasheeh.html
[6] https://github.com/HPI-Information-Systems/Pollock
#opensource #data #datatools #dataengineering
- Wireduck [1] расширение для DuckDB для чтения файлов сохраненного сетевого трафика PCAP. Для тех кто анализирует трафик вручную или автоматически может оказаться очень полезным
- OpenDataEditor v1.4.0 [2] новая версия инструмента для публикации открытых данных от Open Knowledge Foundation. Пока не пробовал, но скоро надо будет посмотреть внимательнее.
- dataframely [3] библиотека для декларативной проверки данных в дата фреймах нативная для Polars. Есть вероятность что будет работать с хорошей производительностью. Уже напрашиваются бенчмарки для библиотек и инструментов валидации фреймов и датасетов.
- Repairing Raw Data Files with TASHEEH [4] статья про инструмент восстановления битых CSV файлов. Это результат работы команды из Hasso-Plattner Institut [5]. Код найти не удалось, хотя пишут что он открыт, скорее всего под эмбарго пока что
- Pollock [6] инструмент и бенчмарк от той же команды из HPI по измерению качества парсинга CSV файлов. Неожиданно и тут лидирует DuckDB. Удивительно что о нём никто не знает. У этой команды много инструментов и практических работ по теме data preparation.
Ссылки:
[1] https://github.com/hyehudai/wireduck
[2] https://blog.okfn.org/2025/04/21/announcement-open-data-editor-1-4-0-version-release/
[3] https://tech.quantco.com/blog/dataframely
[4] https://www.semanticscholar.org/paper/Repairing-Raw-Data-Files-with-TASHEEH-Hameed-Vitagliano/4ec3b2d9e8ef1658bfce12c75e1ad332d4f73665
[5] https://hpi.de/naumann/projects/data-preparation/tasheeh.html
[6] https://github.com/HPI-Information-Systems/Pollock
#opensource #data #datatools #dataengineering
GitHub
GitHub - hyehudai/wireduck: Duckdb extension to read pcap files
Duckdb extension to read pcap files. Contribute to hyehudai/wireduck development by creating an account on GitHub.
Ещё одна важная находка, оказывается облачные LLM'ки вполне неплохо научились восстанавливать данные из графиков. Причём в разных формах и разных стилях. Это даёт довольно существенные возможности по превращению PDF отчетов и презентаций в таблицы с данными.
Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.
#data #datasets #llm
Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.
#data #datasets #llm