Инжиниринг Данных

#dataengineering
Если вы работаете с текстом, особенно в случае, когда у вас есть форма для ввода данных, то у вас возникает проблема с качеством данных, вам необходимо чистить данные. Вот какие используются техники (их много), я укажу несколько наиболее популярных. (Я думаю вариантов очень много, и может оказаться, что мои примеры не самые лучшие).

Произношение – алгоритм находит слова, которые звучат похоже. Для такой задачи используется алгоритм Metaphone 3, который индексирует слова по их произношению. Этот алгоритм используется для большинства проверщиков грамматики (как мне его не хватает в Телеграм🙈). К сожалению, он работает для English words.

Схожие символы – алгоритм находит и группирует значения у которых буквы или цифры схожи. Используется ngram fingerprint алгоритм, который индексирует слова, по их уникальным символам после удаления знаков препинания, пробелов и дублей. Данный алгоритм поддерживает все языки. Например, такой алгоритм поймет «Дмитрий Аношин» и «Аношин, Дмитрий», потому что обе эти строки имеют одинаковый ключ. К сожалению, этот алгоритм не учитывает произношения и строка «Антон Шмирдий» будет иметь такой же ключ.

Орфография – алгоритм находит и группирует текстовые значения, у которых схожая орфография. Используется алгоритм Levenshtein distance, который вычисляет расстояние между двумя значениями с использованием фиксированного порога по умолчанию. Затем он группирует их вместе. Этот алгоритм поддерживает все языки.

Теперь возникает вопрос, кто должен это делать? В идеале аналитик данных (data scientist), кто хорошо разбирается в алгоритмах и имеет опыт с подобными задачами, строит модель на репрезентативной выборке, затем инженер данных или ETL разработчик) автоматизирует процесс загрузки данных, их очистку и добавляет модель в процесс загрузки данных. Его задача, масштабировать решение и сделать его эффективным и быстрым, а задача аналитика, сделать модель наиболее точной.

Если вы один, то лучший вариант это google, найти, например, пример python или R скрипта, и попробовать его использовать для своих данных.

Такие задачи важны для Market Place, когда у вас есть Продавцы и Покупатели. Как правило, продавцы загружают свой товар самостоятельно и используют freeform для заполнения описания, и тут начинается самое веселое. Представить, допустим у вас 400млн уникальных товаров от 10 тысяч продавцов, и вам необходимо правильно разбить на категории ваши продукту, так как покупатели будут искать товары в определенных категориях, и, если «Постер» попадет в раздел детских игрушек, его будет сложней купить. Часто обогащения данными недостаточно. Например, современную книгу можно идентифицировать по коду ISBN. А если вы продаете книги до 1967 года (коллекционные), то вам ничего не остается, кроме как воспользоваться Machine Learning и постараться «прочитать» описание товара.

1.03K views08:12