当前位置:主页 > 基础算法
蘑菇街1111:图像算法在电商大促中的应用浅析
日期:2018-01-12 浏览量:

1. 双11大促的业务分析

自2013年转型以来,蘑菇街电商平台历经了多次双11大促的洗礼。通常而言,大量的商家与商品参与双11,用户规模相比平时也会剧增。今年双11,蘑菇街还开辟了微信小程序作为新的支点,希望以此撬动新社交电商战略。平台为用户带来价值的关键是保障商品丰富、价格合理、服务可靠。在此背景下,有很多挑战需要在复杂的业务场景中去应对,其中包括:如何提高商品管理的效率,以及如何改善用户体验。在众多的技术和产品方案中,图像算法作为一项重要能力,运用于电商场景中,支持上述业务问题的改善。

2018年1月11-14日,由InfoQ举办的AICon全球人工智能技术大会将于北京举行,一些大牛将首次分享AI在金融、电商、教育、外卖、搜索推荐、人脸识别、自动驾驶、语音交互等领域的最新落地案例,以及机器学习、深度学习、NLP、图像识别等技术如何用来解决业务问题,欢迎前来探讨交流。


图1. 电商中的图像数据

如同1所示,在电商平台中可以按照业务流向简单地描述图像数据。电商平台从商家或者用户处,获取到不同来源的图像数据,并且存放于后台图像数据库;前台APP产品作为面向用户的界面,基于图像数据和业务算法,把商品呈现在用户眼前,主要包括商品展示图墙页面和用户浏览页面。

蘑菇街在实践中,采用了两种类型的图像算法技术支持业务发展。第一个是图像搜索技术,用于后台商品管理和前台搜相似商品;第二个是图像标签技术,应用在商品属性管理的场景中。

2. 图像搜索技术的应用 2.1 技术原理简介

给定一个图像作为query输入,基于内容的图像搜索过程是在指定的图像数据库中检索,找到和query相同或者内容相似的图像。蘑菇街的图像搜索应用场景主要集中在商品搜索上,既有移动端的搜相似购物,也有后台运营选品的需求等。

大规模商品图像检索所面临的主要挑战包括几个方面:

(1) 图像数据量大,一般电商平台的商品图像包含了主图、SKU图、商品详情图和用户评论图等,规模达到千万至亿级别。

(2) 特征维度高,图像特征是描述图像视觉信息的基础,特征表达能力直接决定了图像检索的检索精度。

(3) 响应速度要快,检索系统需要具备可以快速响应用户查询的能力,一般要求检索系统能够满足实时或者准实时的要求。

针对这些挑战,蘑菇街图像搜索技术的工作主要集中在两个方面。

图像特征的表达能力

随着深度学习的兴起,利用CNN提取图像特征,已成为图像检索领域的共识。商品图片类别众多、背景复杂,如何从丰富的图像信息中提取关键特征依然是很有挑战的问题。图像特征模块主要包含三个重要部分:数据清洗、特征模型设计、模型压缩。

利用CNN提取图像特征,关键在分类标签的定义。有文章(ICLR 2017: On the Limits of Learning Representations with Label-based Supervision)指出:模型提取特征能力的上限,不在数据集的大小,而在标签质量。因此,设计监督更强、质量高的标签,更有利于特征的表示。我们的商品标签有两个来源,一个是商品在类目体系中从属的类别,另一个是商家对商品的描述。数据清洗过程主要解决商家打标的标签和图像实际内容不符合的问题。利用自动化图像标签模块,可对商品图片自动打标,辅之以人工矫正。通过这种方式我们累积了数以千万计的样本图像数据,所涉及的标签label数目有几千种,从而构建了高质量的训练样本。

特征模型的设计以ResNet(残差网络)为基础,根据ResNet是浅层网络集成学习的思想(NIPS 2016: Residual Networks Behave Like Ensembles of Relatively Shallow Networks),我们通过设计不同尺度卷积核并拼接(Concat)在一起,提高了浅层网络的表达能力;同时适当控制深度,并改进ResNet中影响优化的Shortcut结构。试验证明网络的改进是有效的,改进后的网络在实际数据集合上的top1 accuracy是61.8%,而传统的ResNet-50是56.6%。

特征模型部署在GPU服务器上,为控制系统的整体响应时间,需要缩短特征提取的时间,因此要对深度学习网络模型进行压缩。压缩算法采用的是(ICLR 2017: Pruning Filters for Efficient ConvNets)所提到的剪枝策略。具体的做法是:针对每个卷积核计算其绝对值和,然后排序,针对绝对值小的权值和通道进行剪枝。流程中包括两个主要步骤:首先按照一定比例(比如10%)进行压缩,然后进行模型的fine-tunning训练;两者交替迭代进行,直至模型精度的下降超过预设的目标,流程结束。最终我们所获得的特征模型在GPU卡K40上,单次特征抽取的时间在40ms内。

近似最近邻查找

相关文章:
·2017年高性能科学计算基础算法与可计算建模重大
·他设计的并行算法为大数据技术奠定基础
·人机大战人脸识别比拼复盘胜负手不在双方算法
·何宝宏:人工智能有三大基础力量 新数据 新硬件
·人工智能产品化的关键是基础架构和数据,而非
→ 特别推荐
2017年高性能科学计算
他设计的并行算法为
人机大战人脸识别比
何宝宏:人工智能有
人工智能产品化的关
算法基础之每周算法
互联网真的不安全 基
从内容生产、内容平
示波器基础系列之十
AI·算法·伦理:发明
菜鸟CTO王文彬:未来
厉害了Word谷歌!攻破
游戏与算法的必经之
基础算法题,求思路
《计算机算法基础》
→ 热点TOP10
谁“杀死”了
万科最新大数
中国开启“人
无痛的增强学
中国亟需修改
建阳区初步完
瓦力超级大脑
基于改进型二
第四次工业革
2017年公务员基

友情链接/网站合作咨询: