周卫林丨蚂蚁金服资深数据专家
蚂蚁金服的云数据平台主要分三类:第一类是衣食住行,比如说淘宝网、淘点点之类的交易数据;第二类是小微生活,音乐、娱乐、旅游等等; 第三类是投资理财,即财富管理。这三块数据涉及到的公司有很多,而往往这些公司的自有平台和数据管理都是分开的。支付宝与阿里云的数据不能随便地直接互相利用。在金融行业里,业务是做分类管理的。分几点来说:1、数据采集。数据的采集不具备任意性,比如说我们在服务注册的时候,在服务开通的授权过程中,都是需要表明我们使用这个数据的目的,要给用户一个感知,你要如何去使用这个数据;2、需要一个数据委员会来决策该数据是否能够开放给产品去使用;3、服务提供过程里,客户要使用我们的数据的同时需要设置一个授权权限,明确这个数据拿来做产品我们是否愿意。
案例一:指导商户业务运营
数据魔方是淘宝提供数据给淘宝店家的运营指导,生意参谋是豪华版的淘宝,支付宝是数据罗盘。他们的目的都是基于真实的海量数据,为企业经营提供指导方向。当客户需要这部分数据时,我们会提供给他们作为经营决策。
案例二:智能实时风险管控(CTU)
我们在利用大数据技术去抓捕风险嫌疑数据,识别异常或有风险的操作行为。首先,当你在打开密码登陆的时候,会自动身份验证你是否属于该账号;其次、是否使用该账号登陆这台机器,这个网络是否属于你常用的外网地址;再有、记录你的常用地址,比如说当你常用的固定地址本来是在杭州或上海,有一天突然跑到其他很远的地方,系统会判断该行为属于不正常。而对于盗取账号的人,无非是想转走你的财产,然后拿去消费,这时候系统也会通过你日常消费范围去判断是否合理。比如说:该用户平时都是买女性商品,而盗取账户的人一般是需要通过虚拟产品区域去销账,这样他就很有可能会突然买游戏产品。逻辑上的不合理会让系统采取直接拦截的方式或者通过做身份认证去验证。这是交易层面的管控。
智能实时风险管控(CTU)在交易或登录的过程中会做事件采集,采集到信息以后再进行身份认证,最后根据风险级别来做判断,进行不同的处理。若是低风险的就让你通过,若是高风险的就要接受验证挑战,甚至会交易失败。 那么,离线计算环境跟这个平台是什么关系呢?在数据采集的时候,一部分数据会走CTU系统,同时会有一个离线的采集做一个事件的回放。由于我们的规则已经超过了好几千甚至上万条,当你的模型有几百个的时候,人是无法判断这些调整对于安全是否有所提高。因此你必须要有一个风险管控,然后把过往的交易记录在这里面做完整回放,这样可以知道原来那些要拦截的有没有放过,不该拦截的有没有拦截,完成这些判断后我们才能最终上线。所以对于风控系统而言非常重要的一点就是看你有没有一个完整的数据做回放。这就是实时风险管控。
案例三:欺诈识别
我们分为三块内容:身份标识风险、用户行为风险、关系网络风险。
身份识别,即通过账号信息、操作行为习惯、环境来做风险识别。举营销作弊的案例说明,营销作弊,其实就是通过小号操纵等方式进行客户营销资源套取,而我们要做的就是反作弊。例如一些大家经常使用的互联网服务比如快的、优步等,他们的应用都会存在一定的作弊量。然而通过我们的数据可以去评测它的订单营销,即:订单的虚拟作弊量具体有百分之几十。
案例四:通过关系网络来寻找线索,识别蛛丝马迹
我们如何去理解这个关系呢?我们在识别一件事情的时候不能以个人的行为来判断,而是要通过一个网络来判断。比如说,洗钱,一定是个网络;欺诈,也是个网路。关系网络有三个部分构成:第一部分是资金关系网络。首先银行卡快捷绑定,再有转账、亲密付,这些都属于资金网络。第二部分是SNS网络,.就是一个人际关系网络,来往好友评论、转载,通讯录好友,微博关注等等。第三部分是媒介关系,比如说PC机,手机,wifi地址都是媒介。这样三个部分就构成了一个关系圈。
关系网络的可视化表达。我们根据关系圈做了一个可视化的表达。当你的数据超过几百天几千条的时候,人是识别不出来的。怎么从一个关系网络里面去识别出网络的关系,通常是要靠可视化表达,而可视化表达通常是要靠计算来做。例如这里的应用场景:资金闭环网络图。
案例五:运费险
运费险业务,实际上就是改善淘宝的购物体验。当用户买了东西想退回去的时候,通常都是要自己来支付运费,商户不可能去承担这种退运费,因为会是一笔很大的开支。而作为平台的话就以保险的方式来承载这个退运费。5毛钱的保费,10块钱的保额,堪称“小而美”金融产品的典范。
运费险也是改善用户体验的业务。从最开始的一口价时代,这个业务其实是亏损的。那个时候的产品定价非常简单,客户花5毛钱,可以保10块,这样的结果是会被客户滥用,比如同时买两件,尺寸不一样颜色不一样,把不好看的退回去,反正有保险。这样劣币驱逐良币。第二个是精准定价的时代。根据消费的记录,退款的记录,运费险的记录来判断什么样的商品、什么样的人、在什么时间退货的比率一般是多高。但是也有特意骗保的,举个例子:淘宝写地址的时候故意把省市都不写,比如我寄到杭州的,我写省的时候我写台湾,然后后面的地址我才写浙江省杭州市,系统会按台湾省来给他投保,退货的时候本来陪5块钱的会赔20块。慢慢发展到如今的大数据定价时代,这个业务基本已经从一个亏损业务变成了一个盈利业务。
案例六:芝麻信用
蚂蚁金服为什么要做芝麻信用。其实我们的目的就是要让守信的人畅通无阻,失信的人寸步难行。芝麻信用是独立的第三方信用评估及信用管理机构,依据方方面面的信息,运用大数据及云计算技术客观呈现个人的信用状况,通过连接各种服务,让每个人都能体验信用所带来的价值。更高的芝麻分可以帮助个人获得更高效、更优质的服务。如今麻信用还进入签证领域,芝麻分在700分以上的用户可申请新加坡签证,芝麻分在750分以上的可申请卢森堡签证。
案例七:车险差异化定价
车险本身是一个同质化产品。接下来,我们来举例说明什么叫数据共创。其实车险的概率跟人的驾驶习惯有很大的关系,所以蚂蚁把网上购物、生活缴费、地理位置、人口特征等人的数据以及保险机构的车险数据结合在一起,做一个从人因子和从车因子的共创,从而识别出一些问题包括有车预测、风险评分、精算定价。假如说你在支付宝上关注了违章停车信息,或者你曾经在淘宝上买过汽车保养的一些用品等等,基于这些人的因素来说明这个事情的话,比如说你生男孩还是生女孩,你是高学历还是低学历,你的职业是什么职业,这些都是有差异的存在。我们拿这些可能会有四五十种因子来抵和车险的概率,这样就可以对用户出险风险预测,提前针对优质客群进行营销,再有就是提升保险公司的风险定价能力。
案例八:淘金100指数
大数据基金如何对股票进行预测。我们其实依据的是淘宝的交易数据。为什么会有交易数据呢?品牌商比如青岛啤酒在淘宝出售,它的销售数据就可以先从青岛这家公司来接触到,然后再根据具体的营销数据来推测。我们推测后得到的这个数据会比其它的指数基金都要准,原因在于我们不是娱乐数据,而是实际的销售数据。例如:商铺做了个活动提升了销售数据,这些并不能代表你的业绩一直很好。
蚂蚁金服大数据应用主要分四个阶段:第一阶段:报表,解决用户做了什么,如:淘数据、数据罗盘;第二阶段:数据应用,回答用户喜欢什么,如:发现▪好货;第三阶段:数据业务,创造全新的用户体验,如:蚂蚁微贷,芝麻信用;第四阶段:数据共创,合作带来更多美好改变,如:车险,指数基金。
大数据应用阶段特征分析:1、报表阶段。主要用来经营决策参考,通常情况下是业务方主导需要,比如:“我需要这些数据,请马上给我”,然后数据人员被动服务的满足需要,最后以报表信息的方式输出。这个阶段的数据处理技术是SUM等简单方式,对数据人员的要求也是偏技术性实现。2、数据应用阶段。用来指导运营,当你遇到业务困难,比如如何提升交易额,怎么获取新用户等等问题,此时是以数据API的方式服务。这个阶段的数据处理技术是挖掘算法、机器学习等复杂处理方式,此时的数据人员处于主动服务阶段,参与、主导、整合和超越业务需求,而对数据人员的要求也是偏商业。3、数据业务阶段。为了变革老业务,创造新业务。基于大数据,打造全新产品体验,这里的输出方式是产品方案+运营方案。这个阶段的数据处理技术是离线与实时的融合,对数据人员的要求是要懂商业。4、数据共创阶段。大数据+,金融,基金,保险……建立一个大数据的生态系统,输出更多样的产品或服务。这个阶段的数据处理技术是大数据技术产品化、平台化,对数据人员的要求是懂云计算和商业。
数据业务化的三个要素有:业务专业能力,数据加工能力,丰富的数据。结合这三个要素以后去在一个封闭的可信的安全的环境里做共创,最终的产出物如:保险产品、理财产品、信用产品以及其他新产品。然而在当前我们也面临着挑战,具体表现在:多方数据如何融合,数据如何定价和分离,数据共创创造大数据价值。
蚂蚁金服大数据实践及应用总结有两点内容:一、团队能力模型。数据+产品是1.0阶段,数据+商业是2.0阶段,数据+商业+产品就是数据业务,3.0阶段。我们强调工具是团队培养数据能力的关键。二、大数据的三个要素:海量(新)数据、新技术、新算法,最终创造业务(客户)价值。在这里,强调云计算技术的重要性。
(“中国数据资产管理峰会/DAMS 组委会”整理成文,架构师联盟微信号:jiagoushi2015)