Ivan Begtin
8.08K subscribers
1.46K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Проект OpenRefine, бесплатный инструмент с открытым кодом по обработке и очистке данных некогда выделенный Google как Google Refine, а далее перешедший в свободное плавание теперь получил грант на 200 тысяч долларов США от фонда Чан-Цукерберг [1]. Много это или мало? Для небольшого некоммерческого проекта - много, для стартапа - очень мало.

Грант предоставляется на две цели:
- развитие сообщества вокруг OpenRefine, для привлечения разработчиков контрибьюторов кода
- переделка ядра продукта и архитектуры инструмента для поддержки датасетов большего объёма и улучшения потоков данных.

Подробнее в их заявке на грант [2]

Этот и многие другие проекты поддержаны в рамках грантового конкурса Essential Open Source Software for Science [3] где более чем 32 проекта ориентированных на решение научных задач и все они обязательно с открытым кодом.

Оборотная сторона, позитивная сторона, ИТ гигантов и дата корпораций в том что почти весь мир использует, например, код Apache Foundation [4] или Numfocus [5] финансируемыеза счёт их поддержкии многие другие фонды открытого кода существуют на схожих принципах.


Ссылки:
[1] http://openrefine.org/blog/2019/11/14/czi-eoss.html
[2] http://openrefine.org/images/czi-eoss-proposal.pdf
[3] https://chanzuckerberg.com/eoss/proposals/
[4] https://www.apache.org/foundation/thanks
[5] https://numfocus.org/

#opensource #data #openrefine
Для тех кто хочет сделать полезное в открытых данных, имеет свободное время и свободный английский - проект OpenRefine ищет специалиста/команду/компанию тех кто создаст им документацию по продукту [1]
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.

OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.

Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.

Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine

#opendata #openrefine #datajobs
К вопросу о том почему я лично пишу про Polars, DuckDb, а теперь ещё и присматриваюсь к chDb, потому что в моей работе есть частые задачи с очисткой и обработкой данных. В принципе, чем бы я в жизни не занимался, читал лекции, делал презентации, программировал и тд., всегда есть задача чистки данных.

Есть много способов чистить данные с помощью кода, есть хороший инструмент OpenRefine [1] известный многим кто с открытыми данными работает. Но, честно скажу, в плане скорости, но не удобства, к примеру, DuckDB бьёт все рекорды. Главный недостаток - отсутствие удобного UI аналогичного OpenRefine или то что в OpenRefine нельзя, к примеру, заменить его движок на DuckDb.

В остальном это реально очень быстро. И работать с локально с многогигабайтными датасетами и в миллионы и десятки миллионов записей - вполне реально. Для сравнения, OpenRefine у меня едва-едва тянет базу в 100 тысяч записей в 680 MB.

Использовать это можно много где. К примеру, датасет от мусорных записей, найти и удалить персональные данные, обогатить дополнительными данными на основе текущий значений столбцов, исправить ошибки в данных и многое другое.

В общем-то на базе DuckDB и, скорее всего, chDb можно построить полноценную дата-студию по приведению данных в порядок перед загрузкой в хранилище. Опять же, если иметь полноценный веб интерфейс поверх.

Такие инструменты хорошо встраиваются как ядро более прикладных дата-продуктов.

Ссылки:
[1] https://openrefine.org

#data #datatools #thoughts #duckdb #openrefine