数据意识上的“代沟

2017-06-02 16:24:52来源: 财新网作者:张小彦责任编辑:张帆

2017年06月02日 16:24 来源于 财新网

  • 3发表评论
  • 分享到微信朋友圈
  • 腾讯转发
  • 新浪转发

认识到不同时代公司和机构在数据意识上的代沟可以帮助我们理解为什么在传统企业中推动大数据和数据科学如此步履维艰

数据意识上的“代沟”-编程知识网张小彦

财新网“决策智能”专栏作家。20世纪80年代由费孝通先生推荐赴美留学。1989年获匹兹堡大学社会学博士。二十多年来遵循费老“社会学为社会服务”的教诲,将社会科学与现代信息技术相结合开发社会管理和决策支持软件系统。曾为美国联邦政府和二十几个州政府设计、建立了毒品滥用预防活动管理信息系统。2007至2010年,被美国卫生部聘为毒品滥用预防和治疗研究中心国家级顾问;同年,获得国家预防网络授予的服务金奖;2008年获得了美国安永企业家东部地区年度奖;2010年被匹兹堡地区商业周刊评为行业标兵。现任美国匹茨堡大学客座教授并兼任一家软件公司董事长和数据科学家。
张小彦最新文章

美国数据人才培养的最新动向
数据科学平台:值得重视的新动向
怀念周有光
美国防毒品教育领域的智能决策
美国大选中的大小数据
美国公共领域智能决策的新技术

  【财新网】(专栏作家 张小彦)每个有青春期孩子的父母都知道什么是“代沟”。每个青少年也都体会到与父母之间理念和思维上的距离。两代人之间的沟通是一个十分头痛但必须面对的问题。在今天这个新技术层出不穷、生活日新月异的世界,“代沟”尤其明显。这个“代沟”不仅存在于家庭里,它在竞争激烈的职场、市场、公司、机构、组织之间也是无所不在。以数据意识为例,不同时代的人(包括数据分析专业人员)、不同类型的公司和机构之间就有很深的“代沟”。

  记得几年前我在大学读书的女儿回家过圣诞节。上了我的车后第一句话就问“车上有没有Wifi ?”接下来是“有没有蓝牙(Blue Tooth)?”。得到肯定答复后不到一分钟车里就响起了女儿喜爱的流行歌曲。原来她已经用苹果手机通过蓝牙连接了车上的音响,通过Wifi联通到流行歌曲网站(Spotify)。对她这样伴随互联网和智能手机成长起来的一代人,整个世界都是通过无形网络连在一起的。数据、信息、娱乐、购物等都在“云里”,通过互联网加谷歌搜索,一切都随手可得。没有手机和互联网,这代人将不知道如何生活。难怪有人在马斯洛的需求金字塔的底层加上了Wifi(见下图)。

  马斯洛需求金字塔

数据意识上的“代沟”-编程知识网
 

  在判断某一事物的好坏上,孩子们第一想到的是其在网上的点击量、点赞次数和转发率。父母一代却常常会提醒他们任何事都要经得起时间的考验,对事要有自己的判断,不能只看点击数据等等。

  即使与数据分析专业人员交谈,也能体会到数据意识上的“代沟”。很多传统统计学家对大数据就格格不入。他们常说的一句话是“垃圾进,垃圾出”,对杂乱无章的多源、多类、半结构、无结构的数据不以为然。相比之下,伴随互联网、网上销售、社会网络成长起来的新一代数据人员,通过对自然积累、源源不断的网络、脸谱、推特等数据分析挖掘来获取信息和智能则成为天经地义的习惯动作。他们就是要通过对看似垃圾的无结构数据分类、打标签、梳理、应用机器学习等方法挖掘出有含金量的智能。大数据技术使他们能高速有效地从稻草堆里寻找金针。

  不同时代的公司和部门在数据意识上的“代沟”也是明显的。随着互联网应运而生的新一代商业巨头如谷歌、亚马逊、脸谱、百度、腾讯、阿里巴巴等从诞生那一天就与数据打交道。源源不断自动积累的数码化记录是公司运营的组成部分。以数据为驱动的决策和管理是来自于基因的文化。每个员工都有数据意识。面对源源不断的数据流,他们在问“今天的数据又在告诉我们什么?”网上电商随时注意着点击和销售的比率;100次、50次,还是5次点击能产生一个交易,这个时时都可获取的数据成了公司的生命线。数据在不断地挑战传统的经营理念。新一代的公司勇于接受挑战,让数据揭示新的机遇。无数据不决策的理念贯彻到公司运营的每一个环节。

  相比之下,传统公司有多年形成和沿用的决策程序。数据是为管理需要而定向采集的注册、登记、监测、行政数据以及支持决策的调研数据。管理人员和决策者根据经验和智慧提出方案,然后用数据来检测以选择最佳方案。这个过程中,经验和智慧是主导,数据是辅助。认识到不同时代公司和机构在数据意识上的代沟可以帮助我们理解为什么在传统企业中推动大数据和数据科学如此步履维艰。

  尽管数据意识上有代沟,但在数据分析的目的是决策支持这一点是共同的。数据分析和决策过程中的三要素是一致的。数据科学家都知道,理论、方法、数据是数据分析中的“金三角”,缺少哪一样都不行。数据提炼成信息需要科学的方法,信息需要理论来解释才有意义。传统的数据意识是先有理论,再寻找验证理论的最佳方法,然后设计问卷(或数据采集工具)采集数据来验证理论假设。在数码化数据实时产生和高速积累的今天,大数据技术使高速处理和分析海量数据成为可能。因此新的数据意识是从数据开始,然后制定最佳数据处理和分析方法,最后寻求和创造理论来理解和解释数据分析的结果。在现实生活中,两种数据意识是并存的,各有各的用途。有智慧的数据科学家知道什么情况下应选择哪条路,并且在数据分析金三角中取得平衡