Системы управления продуктовым контентом «MarKIT»

«Разработано при поддержке Фонда содействия инновациям»
Одним из направлений деятельности компании БЭКАП ИТ является исследования и разработка решений с использованием нейрокомпьютерной технологии и эволюционных алгоритмов.
Системы управления продуктовым контентом «MarKIT»
В настоящее время компания БЭКАП ИТ занимается разработкой системы управления продуктовым контентом для электронной коммерции на базе глубокого обучения «MarKIT» для автоматизации процессов, связанных со сбором, объединением, обогащением, хранением и распространением информации о товарах через разные каналы; сокращения затрат на реализацию таких процессов; улучшения качества данных о товарах и повышения итоговых показателей конверсии на торговых онлайн-площадках.
В рамках текущего проекта предполагается разработка алгоритмов поиска и подготовки данных продуктового контента для произвольных торговых площадок согласно установленной формы с учетом сформированного эталона мастер-модели. Для построения и оптимизации карточки продукта с учетом данных пользовательской активности на торговых площадках будут использованы алгоритмы машинного обучения, а именно нейронные сети.

Научную часть проекта курирует Свириденко Дмитрий Иванович, доктор физико-математических наук, доцент в Институте математики СО РАН, советник директора института математики им. С.Л. Соболева по инновациям.


Разработка алгоритмов и реализация функций по проверке корректности и нормализации загружаемых данных
Особенностью работы с данными с нескольких сайтов является то, что все данные попадают в систему в разном формате, даже, когда речь идет об одних и тех же характеристиках данного товара. Например, разные интернет-магазины могут по-разному обозначить характеристику цвета товара, в одном случае она будет называться "окраска", в другом - "оттенок". Разные производители могут указывать значения характеристик в разных единицах измерения, например мм и см в обозначении размеров. Некоторые товары могут иметь более сложную нормализацию, допустим такая характеристика как "число скоростей" у велосипедов может по-разному рассчитываться в зависимости от того, указано оно как общее число или оценено на сайте отдельно по передней и задней звездочкам.

Приведение данной информации в единый вид пригодный для однозначного сопоставления является задачей разработанного алгоритма.

Разработанный алгоритм принимает на входе структурированное описание товаров, которое включает:
  • категорию
  • бренд
  • название
  • описание
  • характеристики
  • ссылки на фото в формате jpg или png.

Далее для каждого из видов данных производится отдельная нормализация и проверка корректности, которые более подробно описаны ниже.

Результатом работы данного алгоритма является унификация информации о товарах, полученных из разных источников.

Пример применения алгоритма