国信优易首席科学家周涛认为,大数据已经成为一个非常热的概念,但是当一个概念热到一定程度就会存在风险,甚至风险比机会还多。在大数据沙龙中,他和数据从业者们分享了自己所经历的大数据应用。
以下为周涛发言:
大数据的应用创新可以分成4个阶段,我以一些公司为案例来说明。
1、简单的数据集中
我们做过一家企业——数联铭品,它是做企业征信的。我们把工商数据和法律数据(包括法院已经诉讼完和在诉的案件)、纪检、知识产权部门、项目申报、企业招聘数据、企业舆情数据等数据都爬下来。之后我们就可以做出企业的画像,知道一家企业的关联方、诉讼风险、通过招聘的人才可以看到这个企业的发展方向等等。得到这个企业画像之后,我们就可以提供给会计事务所做审计、给贸易公司、政府做背景调查等等。这套东西看起来很简单,但是卖的很好。这家公司成立一年半,已经到了B轮融资。
我们有和别的公司合作进行数据交换,但是绝大部分数据都是从互联网上获得的。这其中没有涉及到数据分析,到目前为止我们只是进行信息的搜集和整理。这是数据应用的第一种模式。但是公司不可能依靠这种模式走的很远,可以达到一亿美元的规模,但是无法达到10亿美元的规模。
在市场中,数据还是很好卖的。
2、数据分析
如果你有很强的分析手段,你就能占据很强的优势。
杭州的迈宁数据专注给金融行业进行数据分析。他们做了一个项目,帮助民生银行找到信贷中的违约客户。
银行在给中小微企业放款过程中,没有办法做长时间精细的背景调查,怎么控制不良贷款成为他们考虑的重要问题。我们和民生银行合作,它开放给我们800多家银行掌握的企业数据,用这些信息帮助银行进行风险评估。
企业是什么类型、在什么地域、平均账户上的钱有多少等等是初级特征,一些企业间社交关系等等是高级特征。之前民生银行用原有方式能从8万用户中找有3百多违规用户,现在我们只用基本特征就能从7千人中找出298个违规用户,用高级特征我们还能提高到97.5%,那样银行就只用对剩下的2.5%进行人工甄别,节省了大量人力和资源,这对银行带来的是翻天覆地的变化。
这种分析有三个特征。一个是数据量大,二是需要自动化,三是分析是非标化的。这不是买一个excel或者SARS软件就可以的,必须要数据工程师在其中工作。
3、数据的外部化。
前面的案例就是用一个企业的数据来解决一个企业的问题,但是进一步,我们怎么样把数据拿出来解决外面的问题,正如Google用搜索数据来预测流感。
我们学校非常关注校园里的抑郁症学生,一般校园里5千—1万人中间发生一起自杀事件,而自杀的学生基本都是因为抑郁症。我们希望减少这种事情的发生,所以我们要找出有抑郁症的学生。
抑郁症有什么特征?这类学生一般比较自闭,他们只有很少的朋友或者没有朋友。我们给每个新生发了量表做调查,但是这个量表效果不佳。
我们于是采用了另一个方法,用数据来分析。
高校有一卡通,可以用于食堂、宿舍、图书馆进出等等。我们计算过,在电子科大早午餐随机两个陌生人前后打卡的概率小于1/300,进图书馆、前后打开水的概率更低。从这个概率就可以看出一个人有没有朋友,有多少亲密同性朋友,有多少亲密异性朋友等等。我们通过甄别出哪些学生是孤僻的,然后和心理咨询记录等做对比,发现孤僻的学生得抑郁症的概率要比普通人高出18、9倍。这样就可以尽早进行干预。
我们纯粹用刷卡记录就能找出孤僻人群,这就是典型的数据外部化。校园卡本来是用来进行消费结算、出入的,但是被我们用来甄别孤僻的学生,我们能用这些数据还能做其他事情。通过这个例子企业家们也可以思考,看一个企业出现了什么问题不一定要看他自己的数据,还可以通过外部的数据来找到,反过来自己企业产生的数据也可能反应出其他问题。
4、数据的集成
把内部外部的数据集成起来,才能产生更高的价值。一方面我们有一个好的生态环境,对数据的质量、隐私、安全等进行管理。另外一方面我们要建立包含从数据采集、存储、分析、论证到可视化的平台。在这方面我们做了几类事情。
一是简单的数据交易。一种是数据交易平台“数据堂”,在平台上进行数据的买卖。二是和发改委合作的数据库。国家做了两个基础数据库。一期是和十一个部委合作(林业部、农业部等),做自然资源基础信息。二期是阿里合作、5个部委参加(央行、工商总局和税务总局等),针对企业和个人征信的数据库。通过这个数据库可以进行数据的交易,这种是数据可控条件下的交易。
二是聚集问题、解决方案和人才的平台。例如国外的kaggle竞赛平台,估值40亿。集聚了近8万数据科学家,大公司在其平台上举办几百万美金的数据比赛。我们也在国内做数据大赛,现在规模比较小。刚结束的全国大学生大数据竞赛吸引了755只队伍,两千多人。为什么他们愿意来参加?奖金是一部分因素,但是通过这个平台可以认识志同道合的朋友一起交流,可以展示自己的才能获得工作甚至是投资。
之前大数据落地没落好实际上是数据、需求、技术和人才是分离的。现在平台可以把它们都聚集到一起。
三是数据创新工场。这是一个构想,汇聚大数据技术人才。现在很多公司希望利用公司数据,但是不懂大数据,招人才也很难。我们想做成标准化的流水线,对企业的数据进行加工,可以做任何文本、图像、视频的识别。
这就是我们在大数据应用方面的成果,大数据在中国的应用市场越来越广阔,也希望企业家们和我们一起交流!
摘自:优易数据