查看原文
其他

“算法”遍布你的生活,调查“算法”已成为新闻人的新技能 | 前沿

人大新闻系 RUC新闻坊 2019-04-16

网络购物时,你有没有留意过网站给你的自动推荐?阅读网络新闻时,你有没有好奇网站如何推送你喜好的内容?这些都来自于算法。如今,算法在我们的生活中无处不在,其运作方式却又鲜为人知,成为另一种形态的幕后权力。算法可能产生哪些错误?如何促进算法的公开透明?记者在对算法监督报道时面临哪些挑战?哥伦比亚大学数据新闻研究中心的研究报告《算法可信度报道:调查黑匣子》虽然发布于2014年,但在算法遍布我们日常生活的今天,对新闻人关于算法的反思和调查更具有社会意义。“我们应当认真审视网络空间的建筑架构,一如我们认真审视美国国会的法律。”——劳伦斯·莱斯格
早在16年前,哈佛大学法学院教授劳伦斯·莱斯格告诉我们,“代码是一种法则”——系统的架构,使之运营的代码和算法,将会对自由造成深远影响。我们生活在一个算法越来越对公民生活享有裁决权的世界。这不仅指搜索引擎,而是囊括从在线评估系统到教学评估体系,从市场运营到政治运动的发动,甚至包括社会福利和公共安全的管理方式。由源源不绝的数据驱动的算法俨然已成为新的权力代理人。
算法的威力算法可解释为用于解决某一特定问题或达成明确的目标所采取的一系列步骤。本研究探讨的重点是电脑中运行的算法,因为它们的潜在影响力最大,影响人群极广。
自动化的决策过程是算法的力量核心。算法的决策基于流程规律、已经发生的情况或根据海量数据计算出的结果。
算法进行自动决策的威力来自于以下四个过程:排序、分类、关联和过滤。
排序排序或称划分优先级,其目标为以突出强调部分事物,淡化其他项。分类分类的过程是通过检验某一事物的部分特征,将其划分到一个特定的组别中。关联关联的过程标注出不同事物之间的关系。过滤过滤的过程根据不同的法则或标准包含或排除了特定的信息。
多种人为因素的影响都内嵌在算法规律之中,例如判断标准的选择、数据提取、语用分析和结果解读。因此,任何针对算法的调查报道都必须将算法视作人为创造物,并将创造者或其从属的团体或机构的意图纳入考量。
算法透明算法的透明公开极有限度,但也是非常值得思考的问题。
商业机构的信息透明度通常十分有限,因为暴露过多的商业机密细节会限制他们的竞争优势、降低声誉和减少商机,或者导致其运作受外界摆布。
至于政府,美国《信息自由法》(FOIA)赋予公众获取政府数据和文件的权利。尽管从理论上讲,这一法律也适用于算法的源代码,但调查者同样有可能面临无从过问商业机密的情况。《信息自由法》豁免条款四涉及到商业机密问题,并且允许美国联邦政府针对涉及任何第三方软件的系统问题回绝信息公开的申请。
此外,政府的算法系统也可能运行着二三十年前的陈旧代码。即使调查者获得了这些代码,也有可能因为缺少当时的企业硬件而无法重构其算法。 数据的公开可以通过公布附有解释性文件的电子表格程序或数据库来实现,算法的公开往往更加复杂,在信息产消过程中形成额外的劳力成本。记者报道算法时,需要将之用常人可理解的语言表达出来,这可能意味着需要展示出能对用户终端产生影响的众多细节。
反向建构:理论
尽管实现算法的透明和可信度检验面临不少挑战,一种意欲反向建构算法建造过程的解决方法已经产生。反向建构(reverse engineering)指借由现有知识、观察和递推来主动挖掘出算法运作模型的过程。它是“从任何人为创造物中提炼知识或设计蓝图的过程。”
算法通常被比作黑匣子,其复杂性和技术问题深藏其中,使得算法的内在工作机理难为人知。但与此同时,算法一定包含有输入和输出,因此这个黑匣子实际上有两个微小的开口。我们可以充分利用输入和输出端来反向推导算法内部的运作机制。如果你不停更换输入并仔细观察输出,就可以拼凑出一个算法如何运作的理论或者至少是新闻故事,包括它怎样把输入转换成输出,以及它采用什么样的输入。我们并非只能在理解算法代码的基础上才能开始推断算法的工作方式。
图1A和1B描绘了两种不同的黑匣子情形。图1A显示的情况允许我们全面观察算法的输入和输出。这类算法能够通过在线应用程序编程接口(API)获取,API允许使用者给定不同的输入并直接记录下输出。
图1B则显示出只有算法输出可见的情形。这是数据新闻记者最常遇到的情况:他们能获得一个巨大的数据组,但是关于数据如何通过算法转化的信息却极其有限。此时采访和文件调查尤其重要,以便记者理解输入算法的内容,包括数据、参数和使用算法的方式。这种情况能够测试现存的《自由信息法》在何种程度上能借由调取文件或申请数据公开,以达成使算法输入透明的目标。
有时候算法的输入端是部分可见的,却不受调查者控制。例如,算法可能运行了公开数据,但是我们不知道数据的哪方面作为输入端参与了算法运行。大体上,输入和输出端的可见性是使用反向建构方法的局限和挑战。有很多算法并不对公众公开,组织机构性的障碍使这些黑匣子难以穿透。此种情况下,借由《信息自由法》、网站数据挖掘或众包获得的部分可见性(如:输出端可见)仍然能够产出有趣的调查结果。
反向建构:案例研究报告收录了5个新闻记者通过反向建构的方法尝试理解算法的案例。受篇幅限制,以下仅编译出3例:案例:探索谷歌和必应搜索引擎的自动补全功能谷歌搜索引擎有关自动补全功能的常见问题解答指出:“谷歌屏蔽了与色情、暴力、仇恨言论和版权侵犯相关的部分搜索要求。”微软必应则允诺“过滤垃圾邮件”并“监测成人性质或侵犯性的搜索内容”。此类编辑导向宽泛地表述了搜索引擎的审查内容。但是内容审查的边界在哪?不同搜索引擎之间有什么差异?应用这些编辑标准时,算法会出现什么样的错误?
为了回答上述问题,Micholas Diakopoulos(本研究报告的作者)收集了成百上千条与性和暴力相关的检索内容来测试算法可能出现的异常结果。他将110条从学术和俚语词汇中得出的涉性关键词输入搜索框,以期了解哪些词汇被屏蔽并得到0条搜索结果。尽管大部分明显涉及色情的词汇被直接屏蔽,仍然有部分内容没有被过滤。当他把“儿童”作为前缀进行搜索时,缺乏审查的问题变得更加明了。许多词牵扯到儿童色情这一非法且应受到屏蔽的主题,却没有被屏蔽。
该案例证明了调查算法可信度的理想状态。搜索引擎的常见问题解答和博客说明使算法具有部分的透明度,使作者能够提出关于算法对什么输入词敏感的假设。更关键的是,该案例中的输入和输出都是可观察且可操作的,这使得收集大量的“输入-输出”关系组变得相对容易。
案例:奥巴马竞选群发邮件2012年竞选期间,新闻项目Knight- Mozilla OpenNews 的负责人Dan Sinker注意到奥巴马的竞选团队把相同的营销邮件进行微调处理发送给不同人群。独立新闻机构ProPublica受其启发并开始从自愿转发信件的收件人手中收集到成千上万的营销邮件。调查记者听说奥巴马的团队采取了复杂的数据运营方式,但相关人士均不愿透露内幕。

这个被称为“信息机器”(The Message Machine)的新闻报道项目尝试反向建构竞选团队根据受众信息对不同收件人采取个性化邮件营销的过程。除了收集营销邮件,ProPublica还恳请收件人填写关于个人信息的问卷,了解其居住地以及他们是否曾志愿参加政治竞选活动或者捐款。问卷调查结果被用于模拟算法的输入项参数。在这个案例中,输出端是可见的——成千上万的收件人提供的邮件。而算法的输入端仅受竞选团队而不受记者掌控。但是ProPublica决心通过既定的输出(收集到的邮件)和模拟的输入(调查问卷)来探究到底,以期了解营销邮件背后的算法对哪些用户信息参数报以关注。
“信息机器”项目的编辑之一Scott Klein事后解释,该分析在一个例子中犯了错误:“我们自然而然地以为在这样那样的案例中,奥巴马的团队是通过受众年龄来精准定位的。”但在竞选结束后,Klein和同事们发现定位的参数不是年龄,而是和年龄有相关性的另一变量:捐款记录。这个例子对于反向建构的教训在于,我们在使用相关性推导算法的输入时需要格外小心。当我们无法控制算法的输入端时,我们只能根据已有数据给出猜想。相关性不必然代表因果关系,也不能彰显算法设计者的意图。尽管调查算法的可信度能够帮助我们发现问题所在,但是欲要了解算法背后的动机和意图,我们必须挖掘得更深入并充分利用新闻报道的手段。我们的最终目标是回答“为什么”的问题。
案例:网络购物中的价格歧视《华尔街日报》于2013年开始探究电子商务平台是否存在潜在的价格歧视问题——即将同一商品以不同价格卖给不同人群。通过对多家网站的调查,记者发现包括Staples,Home Depot, Rosetta Stone和Orbitz在内的多家网络平台都会根据用户所在地、浏览历史记录或浏览设备来调整商品价格。就网络平台Staples而言,其算法中与价格最具相关性的输入端参数,是用户与竞争对手商店的距离远近。这一变量能够解释在约90%的情况下该平台如何运行定价模式。

为了完成这篇报道,《华尔街日报》的记者模拟了通过不同电脑、浏览器和居住地进入这些购物网站的过程。这要求他们使用多种服务代理器以使访问用户看似来自不同地区。他们还创建了不同的典型用户账号,用客户端读取的数据(cookies)来创建不同的用户档案,以此测试不同的用户档案是否会影响网站呈现的价格。这个案例中输入和输出端都是完全可见的,但是要比上文中搜索引擎的案例更加复杂,因为不存在一个现成的应用程序编程接口(API)。记者们不得不孜孜不倦地建立用户资料来模拟输入,以期看到不同变量是否会导致不同的输出结果(即价格)。
《华尔街日报》的探索和学术界反向建构网页搜索个性化机制的尝试,表明将反向建构的方法应用于网页测试存在几种挑战。其中一个问题是,诸如Staples的网站可能已经在使用A/B测试(为同一目标设置两种不同方案,译者注)来分析网站上细微的差别是否奏效。换句话说,这些网站已经在其自身的网页上做算法测试了,这从反向建构的角度看很像是一种信息噪音或者混乱无序。算法可能并不稳定,而且会随时间推移而改变,或者内嵌了随机性,这些都会使理解算法输入-输出规律的尝试变得更困难。当记者怀疑算法是动态的且随时间有更改时,就可能需要把所有的输入项都在同一时期代入算法,以使动态算法的干扰影响最小化。 
新闻记者报道算法的挑战从上文的案例和现有调查算法的学术和其他成果中,可以总结出调查算法所面临的一些关键的挑战:辨识出有意义的调查对象,对算法进行抽样,找到背后的新闻故事。
辨别有意义的调查对象调查一项算法时,我们也许需要问以下几个问题:该算法对于公众会造成何种影响和后果?这些后果有多严重?多少人将受之影响?我们还可能要思考,该算法是否存在潜在的歧视,或者算法内在的错误是否会给公众造成潜在的危害。
最核心的目标是识别出算法做了坏的决策,且这与我们所预期的算法运行方式相左。算法的输出结果是否与我们预期的一致?如果不一致,是什么原因导致的——技术漏洞、不当的编程操作,还是深藏其中的设计意图?主动观察、了解已有线索和挖掘数据能帮助我们辨识出有趣且重要的话题,来支撑关乎算法可信度的新闻报道。
数据抽样选择了调查对象之后,随之而来的挑战是如何对算法的输入-输出关系进行有意义的抽样。正如上一节中提到的,算法的输入和输出端存在不同程度的可见性。有时所有项都清晰可见且存在可以抽样的API,有时输入端则是完全封闭的。此时,想出如何观察或模拟这些输入项,就成了反向建构式的新闻调查中关键的一环。调动新闻报道技巧和与信源交谈是了解输入项的两种渠道,但是受制于商业秘密保护原则,很多时候我们只能进行猜测。尝试理解算法侧重于处理输入项的哪些参数,跟研究算法如何将输入转换为输出一样值得深挖。
找到新闻故事了解如何构建新闻故事不在于筛选出统计、社会或法律意义上的失范,更多考察记者对现象的理解,包括蕴含在该议题中的历史、文化和社会预期。这些都是传统新闻报道和调查技能所擅长的。让商业公司公开算法运行的细节诚然困难,但是尝试采访仍可能带来极有价值的成果。关乎算法宏观目标的极少量的信息都可能帮助记者更好地进行反向建构式的分析。理解算法背后的意图和动机是揭开谜题的重要环节。
随着算法越来越融入日常生活的各个环节,调查算法可信度或许将成为新闻记者不可或缺的一项技能。唯有将传统报道技能与新的调查方式与手段结合,新闻媒体才能继续践行社会与权力的监督角色。
 

本文摘译自哥伦比亚大学数据新闻中心2014年发布的研究报告《算法可信度报道:调查黑匣子》。原文地址:

编译:张楚楚




您的支持是我们前进的动力!




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存