第四范式陈雨强：提高机器学习维度的两宝

作者：habao 来源：日期：2017-6-15 15:30:43 人气：

　　2017年5月27日，由人工智能顶尖“机器”主办的2017全球机器智能峰会（GMIS2017）在京正式召开。大会邀请了来自中、美、欧等众多专家参会，以专业化及全球化的视角为该领域的从业者及爱好者奉上了一场人工智能盛宴。第四范式联合创始人、首席研究科学家陈雨强受邀出席，并发表了主题、分享了机器学习在工业界应用发展的新思考。2017年5月27日，由人工智能顶尖“机器”主办的2017全球机器智能峰会（GMIS2017）在京正式召开。大会邀请了来自中、美、欧等众多专家参会，以专业化及全球化的视角为该领域的从业者及爱好者奉上了一场人工智能盛宴。第四范式联合创始人、首席研究科学家陈雨强受邀出席，并发表了主题、分享了机器学习在工业界应用发展的新思考。

　　陈雨强认为，过去五年，人工智能在工业界的火热程度正以指数的方式增长，而“VC维”便是衡量人工智能应用水平的关键。VC维理论是由Vapnik和Chervonenkis于1960年代至1990年代建立的统计学习理论，它反映了函数集的学习能力——VC维越大则模型或函数越复杂，学习能力就越强。举个例子，如果人类的智商水平可以用大脑的脑细胞数来衡量，那么机器的智商水平就可以用VC维来衡量，即超高智商的人工智能，需要超高维度的机器学习模型来实现。

　　陈雨强表示，第四范式在提高模型维度方面可谓下足了功夫，高维度模型在实际应用中的效果亦十分出众。以第四范式与某银行信用卡中心的合作案例为例，该银行需要通过数据精准识别出所有客户当中的信用卡账单分期客户。在短短两个月内，经过第四范式和卡中心的共同努力，该信用卡账单分期模型从此前的两百，提升至“五千万维”，使账单分期推荐短信的响应率提升了68%，卡中心的账单分期手续费提升61%。取得如此显著的效果，陈雨强为解密了第四范式的机器学习产品前瞻的研发思。

　　众所周知，机器学习包含数据、特征、模型三个方面。特征分为宏观（描述的统计类特征）、微观（如个性化ID特征）两类，模型也分为简单、复杂两类。在数据足够充足的情况下，沿着模型优化和特征优化的两条径切入，可以有效地提高机器学习的模型维度。

　　沿着模型优化——即走“深”的径是由学术界主导，优化模型的科学家们为了方便实验，降低了工程实现能力的要求，大部分模型可单机加载。工业界在按照该思优化时，往往采用观察数据、找到规律、根据规律做模型假设、对模型假设中的参数用数据拟合、将拟合的结果上线测试等步骤。这条径需要解决数据分布式以及通讯overhead等问题。

　　沿着特征优化——即走“宽”的径是由工业界主导，无论是模型还是算法，均采取分布式的策略，在高效分布式的同时兼顾快速。针对具体问题，采用较为成熟的线性模型，将观察到的所有微观特征进行建模。该优化径的模型简单，且对工程挑战极大。

　　两种径在工业界都有非常成功的应用案例，但双方的劣势同样明显。崇尚“宽”径的阵营认为深度模型在某些问题上从来没有发挥出数据的全部价值，离真正的个性化尚有差距；而宽度模型则在推理能力上略逊一筹。

　　近年来，宽与深的结合已经逐渐成为一个研究热点。2016年6月，Google研究院发表论文称，正在研发Wide&DeepModel，并表示其在搜索、广告与推荐等领域均十分有效。同年7月，第四范式发布了新一代的模型算法——深度稀疏网络DSN（DeepSparseNetwork）。Wide&DeepModel利用深度窄网络刻画宏观特征之间的关系，利用宽度浅层网络记忆微观特征，但无法刻画微观特征之间的复杂关系，由于Wide&DeepModel将“宽”和“深”分离，导致微观和宏观特征之间的关系也无法刻画。与Wide&DeepModel不同，第四范式的DSN将“宽”和“深”做了更全面的融合，算法底层是上千亿大小的宽度网络，上层是一个全连接的网络，这样既可以记住更多信息，又能刻画所有特征（包括宏观特征和微观特征）之间更复杂的关系。在参数规模上，Wide&DeepModel支持的参数规模为十亿级,DSN支持的参数规模已达到十万亿级，模型“VC维”更高，这意味着随着数据量的增大，模型效果有更大的提升空间。

　　第一，由于功率墙（PowerWall，即芯片密度不能无限增长）和延迟墙（LatencyWall，即受光速，芯片规模和时钟频率不能无限增长）的，摩尔定律正在慢慢失效。目前，提升计算能力的方式主要是依靠并行计算，从早期的以降低执行延迟为主到现在的以提升吞吐量为主。在模型训练的高性能计算要求下，单机在I/O、存储、计算等方面显得力不从心。因此，第四范式针对此问题设计了分布式并行化的机器学习模型训练系统。

　　第二，在机器学习的领域中，一个著名的叫NoFreeLunch（Wolpert和Macready于1997年提出），是指任意算法（包括随机算法）在所有问题上的期望性能一样，不存在通用的算法，因此需要针对不同的实际问题，研发出不同的机器学习算法。这对于机器学习计算框架的开发效率要求极高。

　　第三，在面对实际问题时，需要对数据、特征表达、模型、模型参数等进行多种尝试，且每一次尝试，都需要单独做模型训练。所以，模型训练是整个机器学习建模过程中被重复执行最多的模块，执行效率也就成为了重中之重。

　　除此之外，由于对计算问题、计算模式和计算资源的需求都有所不同，因此在所有问题上，没有最好的架构，只有最适合实际问题的架构。针对机器学习任务的特性进行框架设计才能更有效地解决大规模机器学习模型训练的计算问题。第四范式的机器学习系统兼顾了开发效率和执行效率，具备高效、智能、易开发、易部署、易运维、易扩展、覆盖场景广泛等优势，且随着计算能力的提升，该架构使模型的复杂度与投入的计算资源呈线性增长，与以往的架构相比，节省了大量的计算资源。

　　在通过技术层面提高模型维度的同时，第四范式也在积极降低机器学习的使用门槛，让更多的技术、业务等非专业建模人员能够使用机器学习，建立适合各个业务的高维模型。陈雨强介绍说，2017年初，第四范式内部举行了全球首个面向非专业人士的机器学习建模比赛——“一颗赛艇建模大赛”。所有参赛选手均由第四范式内部行政、人事、市场、商务等非机器学习专业的员工构成。比赛结果按照参赛选手所建模型的AUC（笔者注：AUC是衡量模型准确度的专业指标，取值在0到1之间）指标衡量。以往，专业数据科学家的建模AUC在0.8以上。通过两周的简单培训，有70%的“业余”参赛选手的模型AUC达到了0.8以上的优异成绩。值得一提的是，在内部建模比赛之后，第四范式创立了“范式大学”人才培养计划，通过培养非专业人士利用“先知”建模，“批量生产”数据科学家，进一步解决AI人才高门槛的问题。

　　陈雨强，第四范式联合创始人、首席研究科学家，世界级深度学习、迁移学习专家。在百度凤巢期间主持了世界首个商用深度学习系统，大幅度提升广告点击率的同时，提升用户满意度和企业收入，加入今日头条后主持了中国用户量最多的新人工智能推荐系统，完成全新的信息流推荐与广告系统的设计。作为第四范式首席研究科学家，带领团队打造专为机器学习而生的计算框架，实现人工智能产品化的关键技术突破，推出的人工智能产品“第四范式·先知”2016年荣获中国智能科技最高－吴文俊人工智能科学技术一等。陈雨强曾在NIPS，AAAI，ACL，SIGKDD等顶会上发表论文，获APWeb2010BestPaperAward，KDDCup2011名列前三，其学术工作在2010年作被全球著名科技MITTechnologyReview报道。他和第四范式创始团队开创的“迁移学习”被业界认为是“下一代人工智能技术”。陈雨强，第四范式联合创始人、首席研究科学家，世界级深度学习、迁移学习专家。在百度凤巢期间主持了世界首个商用深度学习系统，大幅度提升广告点击率的同时，提升用户满意度和企业收入，加入今日头条后主持了中国用户量最多的新人工智能推荐系统，完成全新的信息流推荐与广告系统的设计。作为第四范式首席研究科学家，带领团队打造专为机器学习而生的计算框架，实现人工智能产品化的关键技术突破，推出的人工智能产品“第四范式·先知”2016年荣获中国智能科技最高－吴文俊人工智能科学技术一等。陈雨强曾在NIPS，AAAI，ACL，SIGKDD等顶会上发表论文，获APWeb2010BestPaperAward，KDDCup2011名列前三，其学术工作在2010年作被全球著名科技MITTechnologyReview报道。他和第四范式创始团队开创的“迁移学习”被业界认为是“下一代人工智能技术”。

百业网

搜索

第四范式陈雨强：提高机器学习维度的两宝