大数据呈现的如此炙热:奉劝你不要盲目相信数据

自媒体 任奥全球推 2019/5/2 15:31:10

  大数据出现的炙热:奉劝你不要盲目相信数据

  离开具体背景,数据往往具有误导性。对于从数据中可以合理得出哪些推论,我们必须非常谨慎

  1902年河内大规模捕杀老鼠事件是一个经典的提醒,警告我们需要对我们所衡量的数据和所提供的奖励保持警惕。



  当时的法国殖民统治者对该市下水道中老鼠的泛滥感到震惊,悬赏每杀死一只老鼠,就给当地捕鼠者发一笔奖金。每上交作为灭鼠证据的一条鼠尾,市政府会支付一分钱。

  最初,数据看起来很有希望,但遗憾的是,该计划出了差错。狡猾的越南企业家们干脆砍掉活老鼠的尾巴,并建立了养鼠场来增加收入。几年后,河内爆发了鼠疫。

  今天,我们所有人在智能手机上生成的数据,似乎与殖民时期河内鼠患的统计数据相去甚远。但是,对我们产生的数据做出错误解读的危险并无二致。相关性有时具有欺骗性。激励措施总会遭到戏弄。剥离了背景,数据可能、而且往往具有误导性。

  今天,中国科技巨头阿里巴巴(Alibaba)在试验其芝麻信用(Sesame Credit)评分系统时,似乎正在重新学到其中一些教训。通过收集数亿用户的大量数据,阿里巴巴曾希望建立一个可靠的消费者可信度衡量标准。芝麻分基于从网购记录到地铁费用的所有信息得出,然后可以用它来发放——或拒发——消费贷款。

  但正如英国《金融时报》所报道的那样,大数据与强数据之间存在显著差异——阿里巴巴也尚未利用其芝麻信用评分发放贷款。正如中国海洋大学(Ocean University of China)法学教授戴昕告诉英国《金融时报》的那样,很难打造出在不同情境下都具有可靠预测能力的模型。“抄袭的学生也会欺诈吗?没有偿还债务的公司也会在建筑合同上出尔反尔吗?”他问道。

  我最近与之交谈过的一位美国科技公司高管解释称,算法的设计显然是为了区别对待,把人分成不同的类别。但这意味着我们必须非常谨慎地理解,在任何给定模型中到底纳入和剔除哪些数据,以及可以合理地得出哪些推论。否则,用他的话说,算法歧视可能会成为“大数据的一氧化碳”——无色、无味但可能致命。只有当数据被背景适当地“氧化”时,它们才变得安全。

  斯特芬•毛(Steffen Mau)在他即将出版的新书《计量化社会》(The Metric Society)中,勾勒出了在如此多的方面对我们的生活进行量化的更大风险,给了我们不祥的警示。我们对衡量一切事物——从学业成绩、个人长相、行为习惯到受欢迎程度——的痴迷,正在创造一种新的社会价值秩序,一种“循规蹈矩”的文化,一个“可信虚构”的世界。统计数据不仅反映了现有世界,而且正在构建另一种新的现实。数据不仅被用来给社会提供信息,而且还被用来塑造社会。

  这位柏林洪堡大学(Humboldt University)的宏观社会学教授认为,这种对定量评估的执迷可能导致物质不平等被数字不平等取代。阶层之间的冲突将被个人之间的竞争所取代——想想优步(Uber)司机为争取更高的评分而展开的争夺吧。“数字描述、创造和再造了地位,”他写道,“数字造就了人。”

  因此,由谁来决定收集哪些数字,由谁来判定这些数字的重要性,变成了一种行使权力的方式。但是,各个组织(无论是国际机构、政府部门,还是全球性科技公司)用来做出此类决定的方法并未受到太多审查(如果有的话)。当算法越来越多地决定学生在学校取得什么样的成绩、申请人能得到什么样的工作、囚犯是否获得假释时,这一点就变得重要了。

  一种应对方法是努力颠覆跟踪技术的概念,鼓励个人创建自己的数据故事,以监控和挑战当权者的权力。这可能会产生一种反监控(而不是监控)、忽视(而不是监视)的文化。数据驱动的全球环境运动是如何改变了关于气候变化的辩论的,是一个令人鼓舞的例子。

  或者,一些机构也许会停止玩定量游戏,就像根特大学(Ghent University)似乎下定决心要做的那样。12月,这所比利时大学宣布,它将淡化用于做出拨款决定的竞争性的、以官僚主义方式确定的发表和引用指标。相反,校长里克•范德瓦勒(Rik Van de Walle)宣称,该校将促进一种学者们培养出的在研究团队和教职员工之间加强合作的文化。

条评论
评论
任奥全球推
一个与百度相媲美的全网推广平台,自媒体社区朋友圈以内容到订单一次性完成,让消费者成为你的业务员,让全天下人为你你的产品推广,实现资源共享、信息共享、产品共享是任奥全球推的最大优势,企业不需要自己建立网站雇佣专业人士,只要高中毕业即可胜任。有效果大家共赢,没有效果给你赚个人气!