新供给金融圆桌

您当前的位置:首页 > 学术研讨 > 新供给金融圆桌

艾小缤:利用大数据筛查企业异常
发布时间:2014-11-28 18:58:00作者:经济学研究院来源:经济学研究院浏览:打印
  “加快发展互联网时代的普惠金融”研讨会于2014年11月28日在北京举办。
  
  以下为演讲实录:
  
  艾小缤:金电联行在这个行业里做的时间非常长,前6年大家都没听过,今年以来大家逐渐关注我们,因为我们做了一个事情,自认为是一件最底层的事情,这件事情做好了之后是可以改变中国的,下面我介绍一下金电联行做的一些事儿。
  
  首先我们破解中小企业融资难。为什么能破解?大家分析很多,答案早就知道,一个叫信息不对称,一个叫缺现金流。
  
  第二,量化的监管,我们说金融是一个动态的,原来的监管手段可能更多的要靠我们的人海战术,靠我们去看,有了一些新技术手段以后,我们能不能把这个事情变成一个实时的动态的监管,这是我们要做的事情。
  
  第三,更多的是跟政府合作,把政府的数据利用起来,进行数据化的治理。当然,政府手里的数据对金融行业来说是一种校验功能,政府手里有大量的企业和数据,如果这些数据被利用起来,对个人和企业的信息校准,去伪存真起到非常重要的作用。还有,政府手里有了数据之后,无论作为银行也好,还是作为信用也好,大家都希望在一个群体里挑出优质的个人和企业,再为他们提供金融服务。
  
  我下面就这三点展开一下。
  
  先说我们做的哪些事儿。实践是检验真理的唯一标准,我们做了很多理论的东西,比如我们刚才展示的一些场景。第一,我们的平台上现在已经拥有了47万家中小企业的数据,大家越来越重视数据环境的时候,我们其实在前期已经积累了很多数据,今天发挥的价值越来越大。第二,我们通过跟民生银行(9.94, 0.10, 1.02%)、广发、平安等银行的合作,包括现在开发了国开行。
  
  我们累计为中小企业放贷40亿,到今天没有一笔不良业务。这也可以验证数据能够变成信用,信用能够变成资产,资产能变现,并且我们能够把风险控制住,当然这也是我们历史做的一些成就,未来我相信如果感兴趣大家可以一块把这些事情做的更大。
  
  第三,我们目前授信额度100万以上,这是什么概念?大家了解互联网金融的,包括余额宝,我们大多数都是小微或者小小微,到了100万以上,我们知道中小企业平均寿命不到三年,在这三年的过程中,我们怎么能把有风险的企业挑出来,好的企业挑出来,这是一个难度更大的事儿,并且它的需求量更大,要求更高。这块我相信就是一个非常高风险的人群,但是高风险意味着高收益,利率市场化对应的是什么?我们如果把风险定价定好了,这是一个利率市场化的基础。所以,高风险里我们能不能淘出金子,这是下一步大家更关注的。
  
  在量化风险管理方面,专门为存量客户做量化的风险管理,目前已经累计监管了100亿以上的资产。我们相当于有一个采油技术,我们能把油提炼出来,变成汽油,变成化工产品,变成有价值的商品,这时候拥有数据的政府也好,银行也好,企业也好,他才愿意开放他的数据给我们,这是一个正反馈。所以,我们有了这个技术,现在有很多政府愿意把他手里的数据开放,我们还在做试点不能公开,但有有一个地区把它57个部委的所有数据都给我们开放了,在这个基础上我们通过大数据的方式建立了个人信用和企业信用的平台。
  
  我们现在也是国内第一批拥有企业征信牌照的企业。从创新角度来说,我们做了这几方面的创新。第一,我们叫做理念创新,我们认为跟石油一样,互联网时代大家总说很多数据被互联网记录下来,但是我们发现除了互联网,还有很多东西同样以数据的形式被记录下来,这些在哪儿?在我们供应链系统里,在我们税收系统里,在我们政府掌握的水电气资源资产管理各个方面,包括物联网、北斗、海关数据,拥有数据的企业和机构大量存在,我们看到所有这些信息里含金量最大的是哪块?我们要做这块。数据并不是越多越好,初期的时候大数据看全貌,但是后期我们要看有价值的信息。怎么辨别出,这是我们要做的事情。
  
  第二点,我们叫大数据金融,我们是以客观信用为基础,由数据驱动的投资行为,我们相信这一定是未来的一个趋势。我们把原来的模式叫做小数据,因为我们原来看财务报表是一个等式,资产=负债+所有者权益,现在很多专业化的人士掌握了这个规律以后,能够把报表做的很漂亮,大数据是过程,加结果,加时间,三维动态,这个造假难度就非常大。数据挖掘去伪存真,还原真实。在今天的中国,社会能不能也产生西方那种信用体系的约束力?西方造假成本特别高,造完假以后,甚至直接会触犯法律,中国造假成本很低,约束非常小。我们能够通过数据真实的还原一个个体,无论是个人还是企业,从而产生对于这个个体的约束力,这就是我们做信用体系的一个基础。
  
  我们也获得了一些认可,与政府各方面都有一些合作,今天不能展开特别多,感兴趣的朋友我们可以再找机会详细的沟通。
  
  第一,我们自有数据+数据入口,就是数据挖掘机器人(39.820, -0.60, -1.48%)加开放入口,包括数据交换,有数据基础是做大数据的必要条件,如果没有这个条件,我们后面所有的东西都是不成立的。
  
  第二,把数据变成资产,这是一个提炼过程,首先采集、分类、完整度、清洗、分析计算,输出数据资产包,这里面有可视化数据。我们现在跟金融机构,跟政府合作,第一是要解决信息对称问题,就是在初期没有任何的信用评价标准,但是信息对称是一个最基础的要求,需要把数据结构化,去伪存真,把数据通过可视化的东西呈现出来,这是我们要做的根本。第二是系统评分,大家进一步合作,通过指标化的体系把一个个体或者企业区分归类,分级管理。第三是额度测算,这是一个非常重要的前提,我们现在所谓的抵质押和担保,都看二次偿债能力,但是一个企业怎么做融资,将来怎么界定这个企业的价值,一定要还原它一次偿债能力,就是它创造财富的能力。所以,这一点我相信额度测算这一块,所有股东对企业的投资,包括刚才说的众筹,它怎么管风险,怎么定义,怎么定价这个企业,这都是一个基础。二次挖掘,刚才说有一个非常干净的数据基础之后,大家可以充分的把数据利用起来。
  
  我们的特色是什么?自动化加人工,计算机本身没有智能,它都是向人学习的。我们开始建模的时候达不到这个程度,顶多是一半一半,最早的时候更多的是人,慢慢的调试调试,让它产生一些自学习的能力,今天我们达到了99%智能+1%的人工。
  
  目前看所有的点都是可以形成产品的,第一个叫征信,数据采集,这块是我们解决中小企业融资难的起点,如果解决不了这个问题,我们后面的都不成立。二叫异常筛查,去伪存真,我们没有能力辨别真假,但是我们可以辨别异常,任何事情都是这样。我们怎么辨别呢?从个人来讲,昨天我跑100米用了18秒,今天你给我投资,我马上跑进10秒,这件事情是不成立的,因为违反了规律。我们提炼出数据,用规律来衡量它,看这个数据是不是异常,这是第一点。
  
  第二点叫同类比较,我们把同样数据特征的企业放在一块,这个有点儿像体检报告。我们看所有的体检报告,血常规,白血球,红血球的范围,这个范围怎么来的?一定是在千万人,甚至上亿人检测的基础上,在这个范围内构造正常人,你超出了就变成两种,要么是超人,要么就是病人,超人没见着,基本都是病人。我们把同类企业归成一个模型,把个体扔进去,看你的数据跟同类企业比较有多大差异,如果有异常,我们不是大夫,但是可以做体检报告告诉大夫这个有异常,谁来判断?银行或者政府,他们来看这个数据,有针对性的看就能够辨别出这个企业或者这个个体是不是有问题。异常筛查是非常重要的环节。
  
  第三,数据造影。大家看人分黄种人、白种人、黑种人,我们现在看人看企业也是一样的,我们通过外在的东西去描述它,去关注它,但是我们现在从DNA,从细胞的角度,我们有了这些数据之后,我们就能够把个体,把个人也好,把企业也好,数据造影,从数学的角度它的一个什么个体,这是最真实的。
  
  第四是评分,我们决策怎么用,那么多的数据,我们说现在面临两个极端,第一要不数据不对称,我们看不到企业数据,要不来一大堆,海量的数据来了我们怎么用。所以,大家认可的标准来评判企业,就是我们对它的信用评级。这个标准怎么形成?一定是我们通过实践一块来。所以,我们希望这是一个起步的阶段,通过这种评分,最终形成标准有什么好除呢?第一大大的提升效力。为什么?我们说拿它内部的真实数据和敏感数据给出来的时候,他是不愿意。我们又要他提供这个东西,怎么解决?如果我们有一个公共认可的征信标准,一个评分标准,企业通过他真实的东西,我们给他一个真实的评分,大家依据这个去做企业筛查和判断的时候,效力就非常高,企业也更愿意做这件事情,当然这是一个很宏大的事情,但是企业在今天如果我们开始做了,我们就能提升效力降低成本。
  
  最后一个是动态跟踪。对个人也好,也好,拿到钱之前和拿到钱之后他的准备很可能发生大的变化,这种变化也许会把一个好人变成一个老赖,也许会把一个企业给弄崩溃,这个风险怎么办?就要实时的跟踪,要掌握它的变化。所以,我们每一块都会产生相应的价值。
  
  最后数据采集不展开了,三个入口,第一个叫数据主动填报,我们通过个人和企业,因为我们有筛查、数据清洗的能力,在这个基础上,造假的话会进入黑名单,他在不了解我们算法的情况下,我们目前看,第一数据填不上来,第二填的不真实。所以,主动填报已经解决了很多技术上解决不了的问题。第二,数据挖掘机器人,这是我们传统的业务,通过供应链,通过数据记录,包括你可能在各种电商平台做的所有数据我们都能挖掘出来。第三政府公开的数据。
  
  数据纵向、横向,我们现在当然有局限性,大数据不要把它神化。第一,目前覆盖三类,叫能耗型、商品型、人力型。第二我们叫风险多角度关系,一个个体的风险,角度越多,对它描述越完整。所以,我们说我们只是换了一个角度,增加一个角度看一个个体,我们一定是补充。第三个,我们不是全能的,我们对一个个体,一个企业,至少有一年以上的数据,要不我们真是算命的了。还有就是我们不计算主观还款意愿,我们只计算客观的还款能力。这个人有钱不还,这事儿我们现在掌握不了。但是我们知道他是有能力来还的。不分析小概率事件,只计算大概率事件。突发性的风险没法做,这是大数据的限制。所以,大家一定要利用它,也不要迷信它,要跟自己实际的东西结合起来,你说现在全互联网化也不太现实,我们更多的希望是O2O的方式,线上线下结合,一步步过渡到未来的理想模式。底下是研发,最终我们需要跟银行,跟政府,跟第三方的金融平台合作推出各种产品。
  
  我们给投资人提供信息,信用信息查询,等级报告,深度信用体检报告,这块是作为我们的基础,也是作为我们的定位,能够跟所有,其实我们有了这个定位之后,其实跟大家都是合作伙伴,没有任何竞争,我们就是一个第三方征信,大家只要建立信用关系之后,就能通过各方面合作起来,开发新的金融产品。
  
  现在说成本高,成本高到什么程度都是按年化的,真正企业需要钱的时候,一年大概十几天,剩下的时间资金成本都是浪费的,如果在这个基础上我们如果能实时的看到他动态的资金需求,我们甚至能够像余额宝一样随借随贷,有钱了马上还,如果能实现这种,你想我们所谓的资金成本问题还是问题吗?我们的年化,比如给他30%但他只贷了10天,对他资金成本能有多大的压力?如果建立在一个数据化的基础上,我们能想象的空间,我们能做的金融产品是无限多的。所以,我们相信未来在数据基础上,一定是一个数据资产化的过程。
  
  我们现在基本上是按地区+产业这种方式跟大家进行合作。我今天就讲到这儿,也希望能给大家有一点点启示,也希望能在信用体系建设方面,数据挖掘方面,应用方面,在金融创新方面跟大家一块共同开发,共同成长。谢谢大家。
分享到:0