
韦斯·拉马奇出生时就患有视神经发育不全症,这是一种将视网膜信号传递到大脑的细胞群发育不全的情况。他能看见物体,但看不见细节。他的家人在南安大略到处搬家。作为一个视力极其有限的孩子,他每次都必须想出各种方法来描绘他的新环境。“一旦我了解了那种环境,我就势不可挡,”他说。
拉梅奇能很好地记住布局,以至于他年轻时骑自行车都很自在。但是这个世界上没有什么是静止的。有一天,他在开车时撞上了一组被重新安置的单杠,撞到了他的前轮胎上。
43岁时,他探索的欲望丝毫未减。如今,拉梅奇戴着一副可联网的眼镜,它与一个大型语言模型相连,这是ChatGPT和其他聊天机器人的基础人工智能技术。硬件本身就是十年前首次发布的智能眼镜谷歌眼镜(Google Glass),将其整合在一起的公司名为Envision,总部位于荷兰。
当Ramage先生发出语音指令——比如“描述场景”——嵌入眼镜的摄像头就会拍下照片。然后,图像被反弹到一个人工智能模型,该模型解释场景并编写描述。最后,文字转语音功能通过拉梅奇耳后的一个小扬声器大声读出描述。整个过程只需要几秒钟。
这个装置已经变得不可或缺。“我醒来,喝杯咖啡,拿上眼镜、钥匙和钱包,然后出门,”他说。
在过去的一年里,人工智能的飞跃,特别是语言处理和计算机视觉的结合,为盲人和低视力人群带来了新的、更先进的应用。这包括Ramage先生这样的眼镜,以及人工智能驱动的智能手机应用程序,这些应用程序远远超出了简单的物体识别,可以详细描述视觉信息。
这项技术并不完美。就像ChatGPT和其他聊天机器人可以编造东西一样,这些应用程序偶尔也会产生不存在的幻觉,或者只是误解了这个世界。但对于一些用户来说,人工智能的进步正在帮助他们解锁以前无法获得的理解和独立程度。
住在卡尔加里的拉梅奇去年在网上搜索辅助技术后,第一次看到了昂科威。从那以后,他为这款眼镜找到了无穷无尽的用途。他问过他们他穿的衣服的颜色,请他们帮忙在公共场所找到空椅子,并让他们解释冷冻披萨盒上的烹饪说明。
他依靠眼镜来阅读路牌,这在他乘坐公共交通工具时至关重要,特别是当路线变化张贴在他看不见的标志上时。“以前,一辆公共汽车会从我身边驶过,因为我站在一个让行标志前,”他说。现在他可以问眼镜的描述,以确保他在正确的地方。“这给我带来了多年来从未有过的舒适感。”
如果他把什么东西放错了地方,拉梅奇先生可以问他的眼镜,失物是否在他的视野之内。他在最近的一次视频通话中演示了这一点,让眼镜找到了他的导盲犬,一只名叫Elm的金色实验室。“狗,十一点钟方向。”从他的眼镜里传来回答。“狗,一点钟方向。”埃尔姆小跑过来时,那个声音继续说。
Envision于2017年由Karthik Mahadevan创立,他在印度一所盲人学校做了一次演讲后,作为一名硕士生,一直在追求这个想法。他听说,孩子们最想要的是独立。“我和许多盲人和弱视人士交谈过,”他说,“我所理解的是,对他们中的很多人来说,独立几乎总是意味着获得信息。”
Envision背后的技术经历了不同的迭代,部分依赖于OpenAI公司的模型,该公司创建了ChatGPT。这副眼镜已经能够解读文字一段时间了。但随着今年早些时候OpenAI发布的最新大型语言模型GPT-4(可以描述图像),Envision能够添加描述用户周围环境的功能。该公司还在测试一个开源的人工智能模型,但到目前为止,GPT-4似乎更擅长处理后续问题。
马哈德万说,一开始,“幻觉非常严重”。但OpenAI今年在幕后做了很多工作来改进这个模型。
作为一名没有报酬的测试员,拉梅奇先生经历了无数的失误。他的眼镜告诉他餐厅里的厕所,浴室墙上的菜单(包括价格),还有一次他把母亲误认为孕妇,因为她坐在沙发上的角度。男性亲戚被称为女人,可能是因为他把头发梳成男式发髻。
当我最近在多伦多见到拉马奇先生时,我请他让昂科威描述一下我。这款应用准确地把我当成了一个留着胡子的男人,但把我的格子夹克错当成了迷彩服。“他手里拿着一部手机,”应用程序正确地说,“似乎在自拍。”
后来在一家餐馆,拉梅奇让他的眼镜大声读出菜单。然后他开门见山地问:“菜单上有鸡肉三明治吗?”这个应用程序正确地回答说,菜单上有鸡肉三明治。
这些眼镜不便宜。价格从1,899美元到3,499美元不等,拉马奇利用了一个省级项目来支付部分费用。
幸运的是,还有其他选择。住在多伦多的娜拉·法拉(Nayla Farah)今年早些时候开始使用一款名为“Be My AI”的智能手机应用程序,该应用程序可以为她拍摄的照片提供描述。“这是最接近恢复视力的方法,”她说。法拉在黎巴嫩长大,12岁时被诊断出患有眼部退行性疾病,在完全失明之前,她曾是一名文章律师。她无法在自己的祖国工作,这也是她移居加拿大的部分原因。
用她的话说,这款应用让她“回忆起”自己能看见东西的时光。法拉女士曾经要求描述一下自己。这款应用列出了深色头发、浅色肤色、杏仁形眼睛和高颧骨,所有这些特征都与她对自己外表的记忆相符。她问起了家里墙上的画,因为她已经忘记了其中一些画的位置,包括她多年前为自己画的一幅肖像画。她要求描述一下她多年来经常走的路线,这样她就能了解周围的建筑是什么样子的,周围有什么样的树。
她用这款应用在商场里寻找商店,并在听到嘈杂声时描述窗外的情景。(她在我们的电话中演示了一下。“这里有一栋现代设计的建筑,”该应用程序说。“在建筑内部,有一个高高的混凝土花盆,上面种着灌木和小树。大多数情况下,她认为Be My AI是准确的,尽管它以前也发明过一些东西,比如它坚持认为她的桌子上放着一副眼镜。
这款应用由美国一家名为by My Eyes的公司免费提供,该公司还为盲人和弱视人士提供服务,当他们需要帮助时,可以通过实时视频通话与志愿者联系。今年1月,OpenAI首席执行官迈克尔?巴克利(Michael Buckley)主动致电OpenAI,认为这可能是两家公司合作的机会。他得知OpenAI即将推出具有视觉功能的GPT-4,于是Be My AI诞生了。目前,该公司能够免费使用该模型(他说,大约70%的盲人和低视力人群失业或未充分就业,他们的支付能力有限)。“事实是,我们正在讨论我们之间的长期模式,”巴克利说。
他还不知道这款应用将如何影响他公司的原始服务——将用户与真人配对。也许人们会发现,他们不需要经常打电话给志愿者来阅读牛奶盒上的保质期,或者找到放错地方的毛衣,不过巴克利认为,这种服务将继续存在。他说:“无论是出于信任,还是因为孤独,抑或是出于对人际关系的真正需求,有时候人们想要一个人。”与此同时,该公司正考虑在应用程序中添加一个冗长的设置。当用户真的只想要一个“是”或“不是”的答案时,Be My AI偶尔会变得富有诗意。
还有其他问题。今年早些时候,OpenAI的一次更新在该应用的用户中引起了轩然大波:照片中的人脸被莫名其妙地模糊了,无法进行描述。“整个社区都失去了理智,”巴克利说。
法拉没有失去理智,但她很生气。“不让我知道细节是非常有害的,”她说。
巴克利说,这一变化只持续了几天,可能是出于对美国生物识别信息法律的合规担忧。这款应用不具备面部识别功能,但会提供面部描述,其细节通常比OpenAI自己的ChatGPT提供的信息“略强一些”。
不过,这些人工智能描述可能会导致尴尬的时刻。这款应用曾将法拉的一位中年朋友描述为“老年”女性。“这个人非常、非常生气,”她说。
还有一种可能是对某人的性别判断有误,就像拉梅奇那位喜欢穿男式面包的亲戚一样。我们中的许多人根据视觉线索对性别做出假设,即使我们对这些线索的解释是错误的。人工智能应用继承了我们的偏见,也面临着同样的问题。
但是,如果我们当中有视力的人可以自由地在自己的头脑中对性别做出结论,即使是错误的,为什么盲人不能在人工智能的帮助下自由地做同样的事情呢?巴克利曾与用户讨论过性别描述这个话题,他回忆说,一名女性告诉他,“我应该和视力正常的人一样获得信息,仅此而已。”
谷歌(Google)推出了一款名为Lookout的无障碍应用,在性别问题上一直是有意为之。该公司咨询了非二元盲和低视力人群,并在最新版本的应用程序中选择了一种更具描述性的方式。如果用户要求描述一个人,Lookout会说“这个人似乎有女性特征”,而不是明确地把这个人贴上女性的标签。
“这些都是具有挑战性的领域,”Lookout的产品经理塞加尔·德索萨(Sejal D’souza)说。“我们确实在努力找到一种平衡,既要对用户很有帮助,又要对用户的偏好很敏感。”她说,用户的反应褒贬不一,有些人希望得到更明确的答案。“随着我们了解的更多,随着模型的改进,我们可以尝试提供更多有用的信息。”
就目前而言,或许在未来很长一段时间内,人工智能都不会取代其他辅助设备,也不会在更棘手的任务上方便地向他人寻求帮助。例如,拉梅奇的导盲犬“榆树”(Elm)既不如人工智能应用智能,又比它聪明得多。他能看到、感觉到危险,并能利用近两年的训练。
在多伦多和Ramage先生一起散步,试图穿过一个混乱的十字路口,司机们愉快地把车停在人行横道中间,Elm被证明是一个冷静,不可动摇的伙伴,熟练地把他的主人带到另一边。







