Институт открытых данных (The ODI) выпустили версию 0.4 приложения Comma Chameleon [1] - по валидации CSV файлов, а заодно и по исправлению в них ошибок. Эта версия наиболее стабильная из всех предыдущих и существует для Mac, Linux, Windows и просто как открытый код в репозитории [2].
Полезный инструмент для всех кто готовит данные для публикации и думает об автоматизации и упрощении очистки данных.
Также напомню что существуют такие сервисы и инструменты как:
- CSVLint [3] - онлайн сервис по валидации CSV файлов и с открытым кодом [4]
- CSVkit [5] - библиотека для Python по многочисленным манипуляциям с CSV файлами и множеством инструментов для командной строки
- textql [6] - инструмент по запуску SQL запросов на CSV/TSV файлах
- PapaParse [7] - парсер очень больших CSV файлов
- Countries [8] - страны мира в JSON, CSV, XML и YAML
- Tablib [9] - библиотека для работы с любыми табличными данными включая CSV
(Если Вам есть что добавить - пишите мне на @ibegtin, если есть что обсудить - приглашаю в общий чат http://telegram.me/begtinchat)
Ссылки:
[1] https://github.com/theodi/comma-chameleon/releases/tag/0.4.0
[2] https://github.com/theodi/comma-chameleon
[3] http://csvlint.io/
[4] https://github.com/theodi/csvlint
[5] https://github.com/wireservice/csvkit
[6] https://github.com/dinedal/textql
[7] https://github.com/mholt/PapaParse
[8] https://mledoze.github.io/countries/
[9] https://github.com/kennethreitz/tablib
#opendata #opengov #csv #datacleaning
Полезный инструмент для всех кто готовит данные для публикации и думает об автоматизации и упрощении очистки данных.
Также напомню что существуют такие сервисы и инструменты как:
- CSVLint [3] - онлайн сервис по валидации CSV файлов и с открытым кодом [4]
- CSVkit [5] - библиотека для Python по многочисленным манипуляциям с CSV файлами и множеством инструментов для командной строки
- textql [6] - инструмент по запуску SQL запросов на CSV/TSV файлах
- PapaParse [7] - парсер очень больших CSV файлов
- Countries [8] - страны мира в JSON, CSV, XML и YAML
- Tablib [9] - библиотека для работы с любыми табличными данными включая CSV
(Если Вам есть что добавить - пишите мне на @ibegtin, если есть что обсудить - приглашаю в общий чат http://telegram.me/begtinchat)
Ссылки:
[1] https://github.com/theodi/comma-chameleon/releases/tag/0.4.0
[2] https://github.com/theodi/comma-chameleon
[3] http://csvlint.io/
[4] https://github.com/theodi/csvlint
[5] https://github.com/wireservice/csvkit
[6] https://github.com/dinedal/textql
[7] https://github.com/mholt/PapaParse
[8] https://mledoze.github.io/countries/
[9] https://github.com/kennethreitz/tablib
#opendata #opengov #csv #datacleaning
Telegram
Чат к каналу @begtin
Ivan Begtin's chat about data, open data, open gov, forensics and privacy