Особенностью работы с данными с нескольких сайтов является то, что все данные попадают в систему в разном формате, даже, когда речь идет об одних и тех же характеристиках данного товара. Например, разные интернет-магазины могут по-разному обозначить характеристику цвета товара, в одном случае она будет называться "окраска", в другом - "оттенок". Разные производители могут указывать значения характеристик в разных единицах измерения, например мм и см в обозначении размеров. Некоторые товары могут иметь более сложную нормализацию, допустим такая характеристика как "число скоростей" у велосипедов может по-разному рассчитываться в зависимости от того, указано оно как общее число или оценено на сайте отдельно по передней и задней звездочкам.
Приведение данной информации в единый вид пригодный для однозначного сопоставления является задачей разработанного алгоритма.
Разработанный алгоритм принимает на входе структурированное описание товаров, которое включает:
- категорию
- бренд
- название
- описание
- характеристики
- ссылки на фото в формате jpg или png.
Далее для каждого из видов данных производится отдельная нормализация и проверка корректности, которые более подробно описаны ниже.
Результатом работы данного алгоритма является унификация информации о товарах, полученных из разных источников.