【扩博智聊】S01E16&17：当上帝在我眼前遮住了帘，AI能不能做我的眼？

Original 扩博智能扩博智能Clobotics 2024-03-28

【导语】：扩博智聊是一个带有AI味道的访谈节目，我们专注人工智能技术在不同行业不同领域的应用场景。节目背后的扩博智能虽然也是一家AI企业，但我们在节目中邀请的嘉宾，讨论的话题和行业并不一定限于扩博自己目前服务的领域。我们的愿景是通过《扩博智聊》让我们的听众更广泛地了解到一些不同的、多样化的人工智能应用场景和这些行业里有趣、有故事的人

本期主题：AI如何结合无障碍公益项目

主持人：潘天一，Wujun

嘉宾：吴少玫（May）本科曾就读于清华大学，并获得UC Santa Barbara硕士，Cornell博士。科技非盈利机构AImpower.org的创始人和CEO，前Meta（Facebook和Instagram母公司）AI研究院高级研究员，从事AI无障碍和算法公正性研究。

本期话题：

May是如何走上对无障碍项目的探索的？

May认为，自己可以说是在各种机缘巧合下走上研究无障碍项目的道路的。

•第一层是兴趣，是将May和Facebook联系在一起的社会性研究。

May博士学习的专业其实是复杂网络下的信息传播，例如病毒传播，预测哪一种类型的内容更容易传播等等。但在她博士的学习后期，埃及发生了一件社会性变革事件。当时的学术界认为这是由于网络产品的辅助，让线上活动在线下进行了实践，从而导致了文化和社会的变革。

May个人对于这种网络媒体的社会性影响非常感兴趣，正巧当时面试的Facebook的研究团队也正在研究社交媒体除了聊天，浏览内容等功能之外如何产生更大的社会影响。因此，她加入了Facebook。

但是做了两年以后，May就发现她看到的很多东西就跟想象中的不一样。在社交媒体刚刚出现的时候，很多从业者都会有一种很理想化的想法。他们认为信息越流通，人与人之间的联结越紧密，就可以让社会变得原来越向正向发展。但是现实中，大家都会选择性地发最好的内容的帖子。比如发个照片需要提前拍好很多张然后从中挑一个最美的，或者只有升职加薪，买房买车才会发动态。这些现象导致了社交媒体用户的焦虑不断增加。

并且，互联网公司追求算法和业绩的运行方式也让社交媒体对社会群体的人情味进一步减少。Facebook当年可以成功的优势之一便是对各种数据的量化，并且通过指标追求数据上的用户粘性。但是其实很多时候，数据并不能直接代表用户的感受。比如很多人在选择离开Facebook的理由是要离开互联网的裹挟而过自己的生活。但是在互联网公司和一些盲目自信的算法设计者看来，他们不能接受用户的离开，反而会用更多信息来轰炸用户，企图挽留他们。

May认为科技产品实际上是要给人类提供价值的，如果要是有人觉得没有价值的话，他们就可以舍弃社交媒体而去寻求他们生活中的价值。May觉得现在有一点本末倒置，很多产品明明没有价值，却一定要强加出一种价值给用户，让用户相信自己的产品是有用的。

这种令人沮丧的现象也是May后来离开Facebook的原因之一。

•第二层是缘分，是May在日常点滴工作中的偶然发现。

Facebook在入职阶段，会给每个新员工七周到八周的培训。在这段时间内，新员工可以接触到全公司各个部门中的不同bug，在入职学习的同时，新员工也负责给公司修bug。

May当时很巧地修到一个给按钮加标签的bug。那是一个写着“like”的按钮，May当时看到按钮的图像上已经写了like的字样，但还需要再加一个写着“like”的标签的时候感到很疑惑。研究过后，May了解到这个标签是为了给读屏器进行识别的。读屏器也就是屏幕阅读工具，是提供给有视力障碍的用户使用的。在没有加特定的识别标签时，在视障人士浏览页面的时候，读屏器只能识别出按钮的图形，而不是理解这个按钮是点赞，转发还是评论。

因此描述性的标签对读屏器和它背后的适用人群来说非常重要。屏幕阅读工具有一套属于自己的规范，什么样的标签，加在什么地方都有明确的规定。在这个统一的标准之下，不论是哪个品牌或者生产商生产的读屏器都可以识别这个页面，读到相同的信息。

May为了修那个bug，研究了一下这套规范。然后她便发现，公司里有好几百个相似的bug，于是她将这些bug一起修完，还获得了当月修好最多bug的小奖品。此后的一两年中，她是不是就会去修一下这种其他人不太注意的bug。她还通过收集Facebook的数据制作了一个图表，发现每天大约有五万个用户会使用读屏器浏览Facebook。

May每个星期扫描公司的程序都会发现几百个新的bug，并且在她修完之后有可能别人由于没有相应的意识或者有其他需求还会将这些bug改回去，因此这五万人群每个星期都在遇到类似的问题。因为没有时间和精力，让如此简单的任务没有得到保障，让May感觉到很糟糕。

•第三层是机缘，是曾经的上司给May自由探索的半年时间和May的不懈努力。

Facebook在2016年推出的屏幕阅读工具，May是主要研发人员。她原本想要跟当时的上司提出离职，因为觉得自己没有学到东西也没有对社会产生价值。她的上司给了她半年的时间寻找自己想做的事情。于是，May想起了之前修过的关于视障人士的bug，这次她终于有机会好好处理这些bug了。

一开始，May以为这中间最大的挑战一定是软件在编写的时候没有写好，该加的标签没有加全等这类前期的工作问题。但是当她开始进行用户体验调查，在邀请了一些盲人用户到办公室来访谈之后，她发现虽然对于很多人来说，软件写的不好导致的读屏器使用效果下降确实是一个问题，但是令她感到意外的是，对于这些用户来说最大的问题其实是互联网逐渐走向视觉化的趋势。

目前的社交媒体，包括Facebook越来越多地产生视觉产品。可能在十年以前，网络上的内容还是以文字为主，对于视觉正常的用户来说看长篇的文字可能会有点烦，但是对于很多看不见的人来说，他们还可以通过听来了解外界世界。

但是从2014年左右开始，很多网站都走上了图片或者动画代替文字的方向。我们设计的产品也都是围绕着视觉展开的，不加图片和视频的内容变得越来越难以忍受。但是与此同时，没有人会用文字详细描述自己的图片。比如，一个人发了一张聚会的照片，可能配套的文案只是“好开心”。使用读屏器的用户无法理解发生了什么，每次都只能听到这里有一张图片，但是不知道是什么，这种被孤立的感觉在May看来是一种长期的心理折磨。

但处理这个问题的关键也并不在于AI技术的突破。其实目前很多AI识别技术已经趋于成熟，可以很轻易地检测出照片中的内容。但是如何组织检测出的信息，并且用最有效的方式传达给视障用户才是难点。因为如果一样一样检测的话，每张图片上其实可以找到几十甚至上百的对象，比如树，天上的云，路边的车等等，但是全部念出来的话每张图片都需要听三四分钟。所以May和她的同事花了很长时间和用户访谈，以了解当他们遇到一张图片的时候最想要知道的是什么，最终的成品生成也是完全参考了这些用户的需求。

作为在硅谷摸爬滚打的女工程师，May都曾经面临了哪些困境？

作为一个女性亚裔科研人员，May在职场中遇到过很多不同方向的问题。

•我们的研究是为了更好的故事，还是更好的服务？

在正式研发出Facebook屏幕阅读工具之后，由于反响很好，Facebook的公关部门联系了很多媒体对这个项目进行进一步的报道。但是May并没有被采访，反而是在产品最终完善阶段的时候加入的盲人产品经理被采访了。一开始May没有在意，直到报道发表之后她发现盲人产品经理被写成了想出创意和研发的主要人员。

在询问公关部门之后，May才知道由于他们认为盲人产品经理研发这个项目是更好的故事，因此公关部门就决定在新闻里替换掉May的角色。

这件事让May对于在大公司里做社会公益项目产生了很大的怀疑，因为她发现这类项目最后受益最大的并不是少数群体本身，而可能是公司，甚至是公司的公关部门。特别是在大力宣传了一段时间之后，他们的项目并没有迎来后续的落地和实施，也没有配套相应的团队进行维护。她本身因为其他工作也没有办法维持项目的运转，以至于后来这个工具并没有得到像宣传中所说那种应用。

虽然May可以接受没有得到名声或者认可，但是这个系统没有真正服务于那5万人，甚至是潜在的一些其他有社交需求的视障人群，才让她真的感到灰心。

•是否在事业面前，女性就不该做母亲？

在视障工具之外，May还探索过AI是否能够帮助文盲，语言障碍等读写能力有限的群体。虽然在中国，文盲的情况相对来说并不严重，但是在美国，印度，或者拉美国家，文盲问题有时是跟种族有关的，很多黑人和拉丁裔人成为了假消息的重灾区，并且被骗钱或者被控制。

在如今的网络环境中，在社交媒体上发布帖子是一个创建人设的过程。人们喜欢通过一个人写的东西和方式去判断ta的智力水平或者能力。如果一个人的帖子里有拼写错误的话，很多人会觉得ta傻或者没有受过教育，那ta的个人形象就会大打折扣。

但是如果对于有阅读障碍症的人来说，他们所看到的字和想打出来的字是不一样的，于是他们难免会有一些错误产生。因此，他们每次发布社交媒体动态都承担了被评判的压力，久而久之会进行自我阉割，减少发社交媒体的次数来避免错误的产生。长此以往，这类群体的声音也会在互联网中消失。

因此May曾经尝试做过一款AI与语言障碍人士共同写作的产品。与传统的写作工具不同的是，他们追求的不是写出完美的内容，而是如何尽可能多地保留写作者多个人情感和特色，与此同时也保障他们的表达自信。

那个项目曾经一度走到了公测的阶段，但是May迎来了她的困境。

产品上线的那个月，May正好要生小孩了。本来她预产期之后两周，产品将要上线。但是当时的另一个负责人在May休产假之后就跳槽了，导致产品在几个月内都没有任何推进。等到May假期结束回到公司的时候，项目停摆，团队解散，一切都来不及了。

虽然Facebook表面上允许男性和女性职员休同样时间的产假，但是对于男性工程师来说，他们可以灵活安排自己休假的时间，完全可以等到产品上线之后再回去休息。但是作为妈妈的女性没有这个选择，在巨大的工作强度下，很多Facebook的女性工程师都说过自己到了某些年龄之后要么是选择不生小孩，要么只能换一家别的公司工作。

Facebook去年的一份报告中显示，新员工也就是初级工程师的招聘中，女性已经占到了40%左右。但是他们没有展示出的数据是在继续晋升的过程中，May通过内部数据可以看到所有女性工程师中大概只有1%的人能比她的级别更高，但是所有男性工程师中大概可以有4%-5%的人比她级别更高。

很多女性并不能够得到她们想要的和值得的工作机会和工作待遇，而这仅仅只是因为她们想要成为母亲。

离开Facebook的May现在在做什么呢？

May说，她个人对现状有着悲观的态度，但她仍然在努力改变一些她可以改变的东西。

•设计到底是用户的需求还是资本的游戏？

像May和她的团队经常会说的，工程师在做技术和设计的时候，影响结果的因素不仅仅你是不是女性或者是少数族裔，更重要的是看到底是谁的需求，谁的话语权反映在产品的设计上。

比如说，如果你的产品追求是更多的广告和点击量的话，那你必然是会去讨好能够带来更多盈利的金主。而这些人往往是在金字塔塔尖上压迫普罗大众的人，他们无法代表大众的需要甚至有的时候会和大众的需要起冲突。

May认为整个设计系统可以说是资本主义制度的一部分，它是服务于现存的权力和资源分配结构的，因此它会强化甚至家具社会的分化，边缘已经被边缘的群体，让受压迫的群众越来越失去自己的声音。

这是让May感到心寒的，不仅仅是因为这件事会发生，还是因为它始终都在不断地发生，而我们还没有找到彻底阻止科技加剧社会分化的方法。比如很多人脸识别的模型，不能识别黑人，或者把黑人识别成大猩猩，甚至是无视有色人种。这些现存的种族主义识别方式，在AI发展的过程中越来越多地被学习之后，新的模型会更加加剧这些问题。

所以May会和团队一起专门与少数群体进行访谈，学习他们使用科技产品的体验和遇到的问题。她认为在设计任何科技产品的时候都需要多想一想哪些少数群体的利益被忽视或者损害了，在这个理念的基础上，她成了自己的非营利组织。

•要联系和服务，不要冷冰冰的语音助手

May最近在做的研究是跟口吃群体相关的项目。根据最新的研究，口吃其实也是神经多元性的一种。口吃的人大脑中控制发音的部分有一些神经连结跟其他人不太一样。这会导致ta虽然可以想到一整个句子，但是说出来的节奏和方式会与大多数人不同。

这在如今的互联网环境下给这类群体的生活带来了很多挑战。比如现在很多的客服电话，接通的时候往往并不是直接的人工服务而是语音转接。稍早一点的时候，可能我们还可以通过按键来转接到人工，但是现在的语音助手会要求客户先描述出自己的问题，而且必须是以它可以识别的方式说出来。

生活中，人与人说话的时候，是会有停顿，语气词以及说错了重新说的情况的，但是大家通过语境是可以互相理解的，这让沟通的阈值变得很大，人们的表达在中间有很多出错的空间。但是AI模型让这个阈值变得狭隘了，因为AI学习的素材一般都是一些新闻播报，电视广播，这些典型的语言模型。他们在播出的时候也进行了剪辑，把一些正常的停顿和口误都删减掉了。

因此对于AI来说，只有发音足够标准，语序正确的简练语言才是人类的语言。这种偏见被语音助手工具学习了之后，就成为了一道门槛。有口音的人，或者有口吃的人会被认为是非人类的声音，或者虽然他们可以跟人形成很有效的情感连接和沟通，但是他们无法通过AI识别的门槛。

May之前在面临这些机器人语音助手的时候，会和大多数人一样，认为是不是自己的问题，为什么别人都可以用就自己不能用呢？但是其实这是设计者的问题，是他们没有考虑周全，而这种不周全其实是一种隐性的不公平。May认为自己的任务就是让隐性的障碍变成显性，让更多的人看到被忽视的问题。接着就是尽自己的努力为少数群体们铺路和发声，最终再一起争取可以做出一些结构性的改变。

May个人与创业项目的网址：

https://www.shaomei.info
https://aimpower.org

嘉宾推荐：

1.《Race after technology》作者Ruha Benjamin

推荐理由：May认为虽然Ruha Benjamin 身为普林斯顿大学教授，但是《Race after technology》运用了很多新闻、电视剧或者电影中的例子，让这本书在具备专业性的同时也兼具很强的可读性。种族这个概念在作者看来是一个社会性的词汇，而不是一个生物学的概念。甚至可能该概念本身某种意义上也是一个被发明出来，赋予某些人统治的正当性的“科技产品”。

作者在书中梳理和解释了历史上不仅限于AI的科技产品是如何一步步加强种族歧视的过程。例如，在一九九六年左右之前，胶卷公司柯达的标准性图片都只有一张白人女性。标准性图片是为了辅助摄影师设置曝光时间的。但是由于白人肤色反光的特征跟黑色的皮肤不一样，所以设置其实也应该不一样。在用了之前的卡片之后，在黑人拍摄照片的时候由于曝光时间不足经常会拍不出人像。设置曝光时间其实是一种非常基本的技术，但是柯达公司之前没有考虑到肤色的多样性，直到近30年才出现三种肤色的标准图片。

当种族主义被反映到科技中之后，我们在应用工具的时候会进一步因为种族主义而伤害他人或者受到伤害。这件事与科技进步到了什么程度其实没有关系，而是一个深入的社会性问题。

2. 动画片《Tuca & Bertie（鸟姐妹的反差生活）》马男波杰克制片人新作

推荐理由：两个女主角之一的演员黄阿丽是May个人认为最优秀的女性脱口秀演员之一。这个节目由女性创作，女性演员进行表达，在解释了女性困境、展示女性视角的同时也让更广泛的观众产生了共鸣。May觉得看这个节目的时候，观众可以通过一个少数族裔的角度看到很多跟主流群体认知不一样的内容。这种表现形式可以让大众看到很多没有被看到和被发现的人事物，也许可以进一步推动文明的进步。

有趣的是，该节目在Netflix上播出一季之后被取消了，目前在另一个平台继续播出。这也从另一个层面呼应May在节目与我们探讨的女性困境。虽然很有趣也来源于现实生活，但是女性主导的节目往往被高层认为没有市场，这到底是大众口味的选择还是资本在文化市场的霸权？

本期节目已上传至喜马拉雅，更多精彩内容，请关注扩博智聊频道（播客名片二维码or跳转播放本期的小程序）

公司简介

扩博智能Clobotics 成立于2016 年，总部位于中国上海和美国西雅图，在丹麦和新加坡分别设有子公司。

扩博智能Clobotics 聚焦计算机视觉和机器学习技术，专注为行业和企业用户提供端到端一体化智能服务，能有效提升传统行业运营效率，加快数字化变革。扩博智能Clobotics 自成立以来已提交130 多项知识产权申请，获得多项发明专利的授权，为打造面向零售和风电行业的人工智能产品奠定了深厚的技术基础。扩博智能Clobotics凭借自身对技术的专注和探索吸引了众多优秀人才，服务于全球客户。

欢迎垂询

商务咨询：info@clobotics.com

招聘咨询：hr@clobotics.com

继续滑动看下一个

扩博智能Clobotics

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

【扩博智聊】S01E16&17：当上帝在我眼前遮住了帘，AI能不能做我的眼？

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

【扩博智聊】S01E16&17：当上帝在我眼前遮住了帘，AI能不能做我的眼？

您可能也对以下帖子感兴趣