我们正在进入一个“算法”的时代。它对我们生活的影响越来越大——我们去哪里上学,我是不是应该贷款买车,我们应该花多少钱来买健康保险,这些都不是由人来决定的,而是由算法、由模型来决定的。
我们被告知:通过大数据的精准画像,算法可以让企业更好地识别我们的偏好,从而更好地向我们提供商品和服务。由于算法对每一个人的衡量标准是一样的,因此它可以排除很多不必要的偏见。总而言之,算法可以让整个社会的运行变得更高效、更公平、更美好。
但是,在凯西·奥尼尔在新书《算法霸权》中,却告诉了我们一个完全不同的故事。在奥尼尔的故事里,算法并没有带给人们它所承诺的美好。相反,它可能破坏这个社会所赖以良好运行的基础,让它变得既不公平,也没效率。
和很多算法的批判者不同,凯西·奥尼尔本人其实就是一个算法“圈内人”。她自小开始就对数学十分敏锐,在大学期间更是以数学作为专业。从哈佛大学获得博士学位后,她曾在巴纳德学院任教,后来又以数据科学家的身份辗转于金融圈和实业界,为很多知名企业提供过算法和数据方面的咨询。
丰富的经历让奥尼尔得以熟谙各类算法的精髓,也对其中蕴含的危险了如指掌。由于这个原因,相比于其他同类著作,《算法霸权》对算法的批判就来得更真实,也更可信,也更富有洞见。
那么,算法究竟会有哪些问题呢?
首先,算法可能并没有像人们通常想象的那么准确。很多基于大数据的算法本来是用于分析整体的属性的,在这种条件下它们可以比较好地工作。正如奥尼尔在书的一开始中所举的棒球队的例子那样,通过大数据算法,球队可以大幅提升自己的成绩。
但是,一旦这样的算法被应用到了评估个体上,就会马上发生问题。例如,书中提到了用算法评估教师质量的问题。由于每一个教师每年教授的学生都是有限的,因此极个别的异常点就可能导致评估结果的重大变化,这让一些优秀的教师被误判为不合格。更为重要的是,当被评判的教师了解了评判的标准时,就可能针对这些标准有意识地进行造假,从而让原本有效的算法很快失去了效力。
其次,算法本身可能就蕴含着歧视性。很多算法在设计的时候只考虑了相关性,而没有考虑因果关系,这让它们在表面公正的背后,蕴含了对部分人的歧视。例如,曾经有统计表明,黑人进行犯罪的概率会更高,这个统计结果曾影响了美国司法数十年,让黑人在审判中难以得到像白人一样的权利。
然而,这个判断本身其实掩盖了真正的因果关系。事实上,黑人在很多方面都难以享受到和白人同样的待遇,他们难以接受和白人一样的教育、难以找到和白人一样的工作……在很大程度上,黑人的高犯罪率正是这种不平等的结果。因此,如果以这高犯罪率为理由,对黑人进一步施加歧视,结果只可能会让他们的犯罪率进一步提升。
需要指出的是,算法的歧视性很难反驳,因为它们往往会自我实现。例如,例如在上面的例子中,对黑人的歧视让他们的犯罪率更高了,这是令人沮丧的,但从表面上看,这又恰好印证了算法的预言。在这样的事实面前,我们似乎很难对算法提出质疑。
再次,算法的精准也可以成为损害福利、制造不公正的工具。一个例子就是精准推送的广告。从理论上讲,精准广告是可以帮助改善人们的福利的——通过对人们特征的识别,算法可以更好地识别其个体的偏好,在此基础上的推送可以更符合他们的口味、更满足他们的要求。
但这里有一个重要的问题,那就是在很多时候,人们并不知道自己真正想要什么,也不知道什么是对自己真正有用的。面对有针对性的广告,他们的决策很容易受到诱导。
在书中,奥尼尔举了一个大学招生的例子。在美国,有很多“野鸡大学”,除了提供文凭,它们并不能真正为人们提供良好的教育。然而,这些“野鸡大学”却是营销的高手,借助算法,它们把客户群精准地集中在了那些收入和社会地位相对较低,但对改变现状极为迫切的人的身上。从这部分人群身上,他们收获了高昂的学费。但与此同时,那些缴纳了学费的学员却没能得到他们期待的改变。
基于以上分析,奥尼尔认为,对于算法和数据,我们不应该盲目乐观,而应该持续保持警醒。
应该说,《算法霸权》一书是十分发人深省的。书中提到的很多事例,其实我们每天也在经历。在享受算法带来的便利的同时,我们其实也在不知不觉中忍受着算法的霸权。
那么,对于算法,我们应该秉承一种怎样的态度呢?我想起了《星球大战》中的一段剧情:天行者卢克对原力阴暗面的强大破坏性深为恐惧,为了防止这种力量的滥用,他选择了避世隐居。然而,原力带来的破坏并没有因此而停止,尽管以卢克为代表的正义一方放弃了对它的使用,但邪恶势力却一直在开发着它的价值。后来,卢克在雷伊的劝说下认识到了这点,挺身而出用原力维护正义,最终慷慨赴死。
在很多方面,算法和“星战”世界中的原力都存在着相似——它十分强大,能帮助人们达成很多原本难以达成的目标,但也能带来很多原来难以想象的破坏,这一切都取决于如何对其使用。如果处于害怕而放弃对其的应用,那就好像是倒洗澡水时把孩子也倒了一样,不仅无益于解决问题,还会消灭最终解决问题的可能。从这个意义上讲,对于算法,我们应该采取一种类似于“星战”中卢克对待原力的态度——在承认其破坏性的同时,设法驾驭它,尽力做到扬长避短、趋利避害。
必须承认的是,目前我们对如何驾驭、监管算法还所知甚少。例如,奥尼尔在书中提出了算法要公开,要接受政府监督。用行内的术语,就是强调了算法要有“透明性”和“可解释性”。但其实,这两点做起来并不简单。
“透明性”要求算法的编写者将源代码公开,以保证其可以被检验。这从理论上讲可以,但在实际上,很多的算法非常复杂,即使公开了也很难被检验。另外,不少具有独创性的算法都涉及到知识产权问题,因此直接空开算法是比较困难的。在这些情况下,“透明性”如何被保证,依然是个棘手的问题。
“可解释性”要求算法的编写者能向用户解释算法是如何作决策的。但这事实上也很难操作。一般来说,算法越精巧、越准确,其复杂性就越高,就越难以被解释。因此,如果算法的编写者过于追求可解释性,就势必会以牺牲算法的精巧和准确为代价,而这有时候是得不偿失的。
当然,问题的严峻,并不代表着我们可以停止努力。事实上,现在已经有很多人开始投入到对算法监管的研究上,并且已经取得了不少共识和成果。所谓“只要信心不滑坡,办法总比困难多”。我相信,在人们的努力下,算法一定会成为“大规模造福工具”,而不是“大规模杀伤性武器”。
来源:腾讯研究院
作者:陈永伟 北京大学市场与网络经济研究中心研究员