摘要:1月17日,郭毅可院士在2019中国金融科技论坛上发表了主题演讲。以下为演讲原文。工业化第一是标准化,第二是组件化,第三是流程化,第四是社会化。如汽车生产有自己的执照和流水线,是一条产业链,人工智能也一样,我们需要通过高度集中化来配置不同的...
1月17日,郭毅可院士在2019中国金融科技论坛上发表了主题演讲。以下为演讲原文。
工业化第一是标准化,第二是组件化,第三是流程化,第四是社会化。如汽车生产有自己的执照和流水线,是一条产业链,人工智能也一样,我们需要通过高度集中化来配置不同的金融或者其他的人工智能产品,用工业化方式来生产,最后发布,这个就是工业化今天的道路。
把人工智能变成一块块积木,然后拼起来的工程,这是整个公司系统框架,是硬件。数据层面保证数据质量,之后通过大数据平台来对数据进行大规模管理,通过工作流水线生产一个个组件,做成各种各样的应用。
今天,人工智能虽然在一些专门领域中发挥了重要作用甚至超越了人类的能力,但距离人类的一般智能水平相差甚远,需要许多理论、技术上的革命性突破。基础研究在人工智能现阶段有着特殊重要的意义,我们亟需在现有技术的应用潜力穷尽之前,开拓新的革命性的技术,形成大国重器。
大数据时代金融产业面临着挑战和机会,人工智能在金融产业中的赋能作用正在日益体现,我们要努力在人工智能的金融产业应用中不断创新。
我们这个时代是大数据的时代,这个时代中最重要的特点是世界上所有东西都数据化,如果说今天银行里的金融行为是可以完全量化的,那么互联网起了很大作用,正是这个原因大数据成为今天的一个重要自然资源。
数据从资料、资源、资产到资本:
数据是一个度量,一个单位,我们可以把数据看成一个资源,数据的本身有他的价值。服务产品因为云计算和互联网提供使用,我们把它看成是一种资源,到今天为止我们开始注意到数据的本身和制造资源时的价值,如果有价值我们就界定这个价值属于谁,如果数据有了使用权所有者就将它作为了一种资产。西方资本主义国家在这个过程中花了较大的精力,资本主义第一个问题就是先做界定数据属于谁。有了资产以后,要把资产变成一种交换,例如买卖,这样就出现了流通,如果数据资产和交易实现后,这样一个路径就是今天的所谓数据社会。
首先对资产的界定实际上是一个非常重要的问题,我们不能忽视它。如果不知道数据属于谁而进行数据交易或者数据整合是没有意义的。这不是一个技术问题,更重要的是一个经济问题,是一个产权问题。英国在该方面非常超前, 大家都知晓的GDPR概率,即通用数据保护法,并不是保护数据而是界定数据归谁所有,是给个人数据一个资产化的要求。
从数据资产到数据资本有两大瓶颈:
第一:我们数据市场和物理市场是不对称的,数据资产重要的问题是可以随意拷贝,一个人占有了一个数据也不妨碍别人同时占有,正如金融界“双花”,钱花掉还可以再花。正是因为这个原因才导致我们今天有了区块链的研究,国内很多区块链的研究,其实忘掉了区块链最重要的特性。导致区块链发展的一个重要原因是解决数据资产不对称的问题,数据资产的可交易性与数据的使用特征的矛盾(使用非排他/无限可再生),另外,我们人类无法靠脑力来处理我们的数据,以实现数据价值,所以用人工智能解决数据市场和数据资产。
人工智能这几年风起云涌,中国是人工智能全世界最大的国家,超过美国,人工智能市场规模也逐年扩大。从2018年开始增幅降下来了,原因是我们感到我们对人工智能的研究要进行一些反思,要重新将它与一些产业投资整合。
人工智能发展的三个要素:算料、算力、算法。偏重研究在于算法,巨大的忽略了算料,即数据的质量和数据的丰富性和重要性远远被低估了。实际上,算料跟算法一样是人工数据智能重要的发展要素。另外有两个重要问题,第一:数据资产化。你必须保证算料充分供应,而且要高质量,这样才能使数据拥有者获得利益。因此数据资产化非常重要,我们知道这个数据卖给你的好处,知道数据从那来。第二:社会伦理。在人工智能发展过程中如果不考虑伦理问题,则发展不会持久,我们可以举很多例子来说明这个问题,比如人脸识别,如果人脸是让我们社会上每个人的行踪可以被确定、跟踪的话,我们应该思考人脸识别对社会的结构、人民生活是否不利。
假设我们可以通过银行行长的脸形来判断该银行的业绩,这个是可以做到的。从技术角度讲,把所有银行行长的脸照出来,再把所有银行的业绩找到,做一个相关就能算出来,可是这个有意义吗?显然就有问题了,到那时,你必须整容才能做个好行长,不是很好的事情。因此不考虑社会伦理,人工智能就不会持久。
机器学习——知识获取能力的演变
从机器学习算法、算料来看,今天深度学习的发展也是三个要素(算料、算力、算法)发展的结果。过去我们没有数据获得知识的,于是把知识输入到计算机中,用计算机的规则,即出现了最早的人工智能。后来数据越来越多,这些知识就可以用数据继续获得,计算机的能力越来越强大、算法越来越成熟导致今天知识能力的演变。
但是我们一定不要忽略掉今天机器学习算法从本质上还是非常原始和简单,不管是什么样的算法基本思路是一样的,给出函数、参数数据,用学习算法找到最合适的参数,使得模型跟数据吻合,所有机器学习仅在此基础上工作,这样简单的学习过程并不等同于我们人类的思考,所有找的东西都是你给数据的理合一个局部性。
目前机器学习的局限:
没有全局的抽象能力,就无法揭示规律,做出准确的判断(会发生什么?)
没有应用知识的能力,就无法理解数据,实现真正的认知 (发生了什么?)
学习的结果无法解释,就无法和人类的知识融合,获得信任(为什么是这样?)
机器学习没有应用知识,没有常识。比如上面这张图,我们来看这个牙刷确实像棒球棍,但是你不会把棒球棍放在嘴巴里。如果你没有这样的常识,仅仅拟理合数就会出现效果。现在机器可以判断预测,但是不可以解释为什么会做出这样的预测。这些问题有时无关紧,有时就很重要,比如在医疗方面就会很严重,如果你用人工智能机器作了一个诊断,但你却不能告诉病人诊断依据是什么,病人是不敢接受的,这个是目前机器学习很大的一个缺陷。
正因为以上原因,我们机器学习孕育着新的革命,今天我们机器学习所有的动力在于我们尽量减少人的干预(数据驱动的学习)。在学习过程中,过去是人有干预,把规则数据垄断学习,现在人们逐渐认识到,这样一种方法是有限的,机器没有常识不能做结实,现在是尽量把人的知识融合在学习过程中。更重要的一个研究方法是如何把人的常识、知识融到机器学习中去。
现在是: 尽量减少人的干预 (数据驱动的学习)
未来是:尽量利用人的知识 (知识支持下的数据驱动)
未来我们机器学习会是什么样子?将来会有很多新的方法:
一、不确定性下的推理: 用好学到的知识。学会在模型上做推理,用好学到的知识,我们的模型是局部数据的知识,有很大的不确定性,怎么不断推理?怎么增强确定性?怎么理解不确定下的结论?
二、知识支持下的学习:在学习中的运用知识
三、可解释性AI: 机器和人的学习交流。我们要把学习的过程怎么样得到这个知识告诉机器人,机器可以跟人通讯。
四、基于经验的学习:机器和机器的学习交流 。机器跟人一样需要不断总结经验,机器之间需要交流,需要自动学习各个机器的问题。
今天机器学习是一个直线的过程,整理一下,处理一下,一下建立一个模型然后去用。未来机器学习到的东西可以互相交流,也可以通过某种形式与人进行交流,例如:交流学习某个知识的过程。同时机器要拥有在学到知识上做归纳的能力。
通过应用知识更有效的用好数据:
假定两个孩子要做题,一个孩子看5道题就明白了就可以去影射在脑子里获得数学知识,另外一个孩子做了5000题,然后两个人同时考试,做题海的人如果做5000道题能考95分,而做5道题的孩子能考90分,你们说哪个聪明?显然是5道题的孩子聪明。就好比我做过所有的数据,得来的一个模型,它一定是不错的,但是得的很笨,因为我要看很多例子。那么,我能不能将两个问题反过来,不是说你怎样做一个好的考试机器人,而是给定一个目标你能不能用最少的数据达到这个目标。这个就像我们做的医学影像一样,假如我们在医学影像里看哪个区域有病变,简单做法是大夫对所有病菌进行非病变和病变的标注,去学完以后就得到一个模型。反过来提这个问题,要去标注一个医学影像是非常昂贵的,因此,我们需要一个模型,用最少的标注同样获得一个很好模型,这个就是为什么要把集合知识用到标签里面,然后得到一个结果,用十分之一的数据就得到了模型。这个在银行领域也是一样,要考虑怎么样通过应用知识更有效的用好数据?
我们有这么多算法和数据以后可以做到使用问题上,在国内用的最多的应该是头像识别,比如安防、刷脸,实际上是人工智能图象识别的广泛运用,我们能做的不仅仅是刷脸。
智能产业的产业链
上图是智能产业的产业链,第一步是关于数据部分数据清理、数据标注、怎么让数据在统计上有意义,第二步是学习,最后一步放到应用中。
通过“金融产品”、“客户洞察”与“服务体验”变革,构建以客户为导向的精确化营销的高效能业务,每一步业务转型升级都需要人工智能来支撑。
金融业实际上是非常简单的逻辑,第一,有了大数据客户看的很清楚,大数据让客户对你感兴趣。你对客户看的很清楚,就可以把服务个性化,客户看你很清楚就有选择,这两个绑在一起构成了服务精细化,就好比医学中的个性医疗。在十几年前我的一个好朋友在上海有个公司叫INFORSTACK,十几年来我们一直用人工智能方法为金融服务,我们在刚开始做的时候人工智能还是很遥远的事情,未来跟公司技术有关,即精细化或者个性化。
金融服务链上的处处数据驱动
金融服务业处处都是数据驱动,是产业链。运营战略和服务运作体系、营销管理体系、客户管理体系三个部分都有数据驱动,主要是接力,都是用数据来反映指标,从这个意义上来讲我们在金融行业里的数据分析是极大数据化,每个环节都可以通过数据模型的方式来进行支撑,金融数据分析碎片化、具体化的需求日益明显。 整体而言,金融服务运营需要围绕提供差异化产品和优质服务价值,提高客户忠诚度,以此实现稳定的盈利和忠实客户的增长。
数据驱动的金融产品设计
第一个是金融产品的设计。金融产品有发行者、认购者、期限、价格和收益、风险、流动性和嵌套的其他权利等等来组成,这些组成过程的重要问题是设计产品,设计产品的问题是场景分析、预测。要了解产品分布状况、市场竞争方位和营销战略都是从市场数据来评定,也要考虑到产品整体布局,怎样组合,数据驱动产品设计通过大量市场信息和模型来决定产品怎么样吸引客户人群。
第二个就是把握资金流动的特征。最简单就是个人工资,工资结构、队伍什么样?通过它来理解资金的流动性和变动性途径和各种各样的消费。
1、理财客户的自己变动时点、途径、去向,并猜测资金用途,与理财产品的营销结合;
2、非理财客户的资金流向,理财习惯和风险偏好等特征,采用定制化刺激方案引导尝试理财。
资金:基于资金迁徙的分析思路框架,找到流动性的发生时点和渠道及行为特征。
营销:在所有客户可触达点,推行精准化营销体系,有方法有激励有辅导地建立精确化营销能力。
这个问题复杂一点,你要接受金融世界内在关系,比方说你有五个产品,关联是什么样?因为它的是动态的,你要通过一些分析办法来看五个产品相关关系是什么样?这个难点是人工智能里面的因果关系、彼此的联系、彼此的相关性。另外一个是支撑营销,有的产品知道客户以后就定点推销,这个时候又是一个非常大的数据驱动,第一你要知道接收点,第二你要知道分种类。这些是很有意思的大数据应用,要消费者行为数据来理解接收点,同时要通过营销事件进行分类。你要知道客户是怎么用你的服务?微信支付以后,你要知道他在什么地方消费?什么场景?通过这些信息你可以做许多分析。对于一个客户你可能不知道物理的人,但是你知道什么时候应该挽留他,什么时候能够提供服务。
工业化 = 标准化 + 组件化 + 流程化 + 社会化
积木式高度组件化工具设计,便捷高效的使用大数据技术工具和算法实现各种应用
现在人工智能工作大多是企业里的咨询服务或者说企业内部做的一些系统产品,今天各个银行在人工智能方面做的事情基本上标准化,今天做的算法和数据处理经过多年也基本上形成了一个定式,即典型是工业化。工业化第一是标准化、第二是组建化、第三是流程化。好比你的车有自己的执照和流水线,这就是一条产业链。人工智能也一样,我们需要高度集中化的东西来配置不同的金融或其他的人工智能产品,这个产品就可以有很好的工业化方式来生产,支持最后发布,这里有一个非常好的技术就是工作明细,我把各种人工智能基本整合,数据科学的基本功能做成模块大件系统,把模块串起来就可以放到一起,这个理念15年前就有,当时没有那么多人去做这样的一个工业化系统,因为那时人工智能用在银行里还是一个非常前端的事情。现在不一样,每个礼拜都要有新的功能出现,这个时候程序员需要不断编程,而用这样的方法做一个工作流程,把人工智能变成一块块积木,然后拼起来的工程就是工业化。
人工智能工业化应用开发平台
如上图,最下层的数据采集和整理保证数据质量,中间是大数据平台来对数据进行大规模管理,这里我们叫做是工作流水线,最后变成一个个组件做各种各样的应用。人工智能工业化应用开发平台把人工智能转变成一种工业化。
例如我们曾经做过的一个案例“代发工资户数据分析和业绩提升策略设计项目”,完全用工业化价值做一个待发工资条,怎么样来管理待发工资的每一个客户?怎样了解每一个客户的用钱情况,进而将留存做到最大?银行可以根据留存推销理财产品。
代发工资户业绩提升及策略设计
今天人工智能的水平虽然在一些专门领域中体现甚至超越了人类的能力,但距离人类的一般智能水平相差甚远,需要许多理论,技术上的革命性突破。所以如果一个算法算法出来,不要一窝蜂的使用它,每一个算法后面都有一个落点。
基础研究在人工智能现阶段有着特殊重要的意义,我们在现有技术的应用潜力穷尽之前,开拓新的革命性的技术,形成大国重器。金融是一个很好的场景,数据很多很多,金融和健康这两个领域是最好的人工智能与数据科学的应用场景,我们要不断努力创新,实现人工智能工业化,不要重复劳动,用我们过去的经验,通过很好的工具快速部署人工智能的金融应用产品。
*苏伦大数据科技研究院由英国皇家工程院院士、欧洲科学院院士、英国帝国理工学院终身教授郭毅可创立并担任院长,旨在建设成专业的新型研发机构,打造全球首个以AI人工智能教育、BI商业智能赋能、GI全球创新孵化为核心的O2O大数据科技生态系统。