solidot新版网站常见问题,请点击这里查看。
Google 将虚拟聊天机器人的自然语言对话能力与实体机器人结合起来,演示了能在休息室里为其员工拿苏打和薯条的机器人服务员。该机器人尚未做好商用的准备,只能做少数简单的动作,甚至未整合 OK, Google 召唤功能。机器人能解释自然语言命令,权衡可能的行动,计划以较少的步骤实现要求。机器人使用了来自维基百科、社交媒体等来源的文字去训练其语言理解能力。它由子公司 Everyday Robots 设计,目前的功能是给员工拿零食。
OpenAI 上个月宣布它的自然语言图像生成系统 DALL·E 2 开始提供 Beta 测试。DALL·E 能根据自然语言文本描述生成逼真的图像,其额外的使用需要付费。现在创业公司 Stability AI 宣布了 DALL·E 的开源竞争对手 Stable Diffusion,源代码发布在 GitHub 上。Stable Diffusion 能运行在单张显卡上,显存容量需要超过 5.1 GB,也支持苹果的 M1 芯片,但在 M1 芯片上生成自然语言图像需要数分钟而不是数秒钟。
过去十年的大部分 AI 系统都是基于监督学习,利用人工标注的数据集进行训练。它们取得了巨大的成功,但也存在明显的缺陷。此类的 AI 对于理解大脑如何工作没什么帮助,因为包括人类在内的动物是不依靠已标注数据集学习的。生物大脑通过探索环境获得对世界的深入理解。科学家们开始探索自我监督学习的机器学习算法,此类神经网络显示出了与大脑如何工作的相似性。当然大脑的工作不只是限于自我监督式学习,它充满了反馈连接,现有的自学式 AI 缺乏此类功能。AI 模型还有很长的路要走。
Meta 上周五公布了它的 AI 聊天机器人 BlenderBot 3,和微软在 2016 年发布的聊天机器人Tay 一样,上线数天它就被人类玩坏了,成为了阴谋论狂热者,并对 Meta CEO 扎克伯格(Mark Zuckerberg)出言不逊。BlenderBot 3 形容扎克伯格让人毛骨悚然和善于摆布他人;称特朗普仍然是美国总统,并将永远是美国总统;犹太超级富豪太多了;它支持桑德斯(Bernie Sanders)...Meta 承认聊天机器人会说一些冒犯人的话,表示它仍然处于开发之中。
DeepMind 去年 7 月发布了预测蛋白质结构的 AI 系统 AlphaFold 的源代码,并创建了一个数据库 AlphaFold Protein Structure Database (AlphaFold DB) 。一年之后,AlphaFold 已被逾百万研究人员访问,被用于解决重要的真实世界问题,从塑料污染到抗生素抵抗。DeepMind 现在宣布与 EMBL European Bioinformatics Institute (EMBL-EBI)合作,发布所有已知蛋白质的预测结构,将 AlphaFold DB 规模扩大逾 200 倍——从接近一百万增加到逾两亿——有望提高我们对生物学的理解。所有结构将可通过 Google Cloud Public Datasets 批量下载。
前 Google CEO Eric Schmidt 将 AI 比作核武器,呼吁建立类似相互保证毁灭的威慑制度,防止世界最强大的国家率先发动攻击。Schmidt 称,在不遥远的未来中美可能需要围绕 AI 制定条约,在上个世纪的 50 年代和 60 年代,美国和苏联这两个超级大国最终达成了 《禁止在大气层、外层空间和水下进行核武器试验条约》,这是一个限制核武器试验的国际条约,旨在减缓军备竞赛和减少大气中过量的放射性尘埃。Schmidt 认为中国和美国可能需要在 AI 领域达成类似的条约。
在俄罗斯举行的一次国际象棋比赛中,一位与儿童棋手对弈的机器人棋手弄伤了对方的手指,原因是他还没有轮到时抢着出棋,而安装有机械臂的机器人显然缺乏相应的程序,它伸出手臂紧紧按住其手指,直到成年人过来干预拉出手指。发布在 Baza Telegram 频道上的视频展现了这一罕见的事故。这位儿童参加的九岁以下年龄组的比赛,他的名字叫 Christopher,在事故后手指打上石膏,继续参加并完成了比赛。他的父母据报道联络了公诉人办公室。国际象棋大师 Sergey Karjakin 认为是软件错误导致了此次事故。
在掌握海量数据,对用户进行几乎完美的跟踪之后,AI 是否就无所不能了?伊利诺伊大学和斯坦福大学的经济学家研究了机器学习在预测消费者选择上的能力,他们的结论是预测消费者选择非常困难,AI 并不特别擅长。他们发现,即时信息如用户评论、推荐和新选择对决策有愈来愈大的影响,这些信息不能事先测量和预期,大数据可用于改善预测,但程度甚微,预测仍然非常不精确。
人工智能研究实验室 OpenAI 宣布它的自然语言图像生成系统 DALL·E 2开始提供 Beta 测试,邀请一百万用户参与。DALL·E 能根据自然语言文本描述生成逼真的图像(示意图),每位用户在第一个月可以免费得到 50 可用余额,之后每个月得到 15 可用余额,用户可选择花钱购买额外的可用余额。每个余额可用于一次文本描述生成,得到 4 幅图像。用户可商业化 AI 生成的图像,但需要通知 OpenAI。出于安全考虑,OpenAI 禁止 DALL·E 生成暴力、成人或政治内容。
根据发表在《Nature Machine Intelligence》期刊上的一项研究,德国马普智能系统研究所(MPI-IS)研究人员建造了一个四足机器狗“Morti”,它仅仅用了一小时就学会了走路。Morti 充分利用了复杂的腿部力学,通过贝叶斯优化算法指导学习:其足部传感器信息与机器狗中运行的建模虚拟脊髓的目标数据相匹配。机器狗通过不断比较发送的和预期的传感器信息、运行反射循环以及调整其电机控制模式来学习行走。在人类和动物中,中央模式发生器(CPG)是脊髓中的神经元网络,可在没有大脑输入的情况下产生周期性的肌肉收缩。其有助于生成有节奏的任务,例如步行、眨眼或消化。机器狗在大约一小时内比动物更快地优化其运动模式。
人工智能研究实验室OpenAI 在四月发布了 DALL-E 2,2021 年发布的 DALL-E 的继任者。两个人工智能系统都能根据自然语言文本描述生成令人惊叹的图像;它们能制作看起来像照片、插图、绘画、动画,以及基本上你可以用文字表达出来的任何艺术风格的图像。DALL-E 2 有诸多改善:更好的分辨率、更快的处理速度和一个编辑器功能,编辑器允许用户仅使用文本命令对生成的图像进行修改,例如“用植物替代花瓶”或“让狗的鼻子变大”。用户还可以上传自己的图像,然后告诉人工智能系统如何对其进行调整。世界对 DALL-E 2 的最初反应是惊叹和高兴。可以在几秒钟之内将任何物体和生物组合在一起;可以模仿任何艺术风格;可以描绘任何位置;并且可以描绘出任何照明条件。例如看到一副毕加索风格的鹦鹉翻煎饼图像,谁能不印象深刻呢?可当人们思考哪些行业容易被这种技术颠覆的时候,担忧出现了。

OpenAI 尚未向公众、商业实体甚至整个人工智能社区发布该技术。OpenAI 研究员 Mark Chen 对 IEEE Spectrum 表示:“我们也和人们一样对滥用感到担忧,这是我们非常重视的事情。”该公司邀请了一些人尝试 DALL-E 2,允许他们与全世界分享他们的成果。有限公开测试的政策与 Google 的政策形成鲜明对比,后者刚刚发布了自己的文本到图像生成器 Imagen。在发布该系统时,Google 宣布不会发布代码或公开演示,因为存在滥用和生成有害图像的风险。Google 发布了一些非常令人印象深刻的图片,但没有向世界展示任何它所暗示的、有问题的内容。
受婴儿学习方式的启发,Deep Mind 的计算机科学家开发出一种程序能学习物体行为的简单物理学规则。研究报告发表在《Nature Human Behaviour》期刊上。当婴儿看到违反物理规则的画面时他们会表现出惊讶,比如视频中的球突然消失了。但 AI 在理解此类行为上的能力欠缺。Luis Piloto 和同事开发出名叫 Physics Learning through Auto-encoding and Tracking Objects (PLATO) 的软件模型,像婴儿那样学习简单的物理学规则。研究团队通过给 PLATO 观看许多描绘简单场景的视频来训练它,比如球落到地上,球滚到其他物体后面又再次出现,很多球之间弹来弹去。训练之后,研究人员给 PLATO 观看了有时包含不可能场景的视频,以此作为测试。和年幼的小孩一样,PLATO 在看到“不可能场景”时表现出了“惊讶”,比如物体互相穿过却没有发生相互作用。PLATO 只观看了 28 小时的视频就获得了以上学习效果。这些结果对 AI 和人类认知研究皆有重大影响。研究团队表示,这一模型可以学习各种物理概念,且体现出与发展心理学的发现一致的特点,而 PLATO 可以作为研究人类如何学习直观物理的一个有力工具,同时也表明了物体表征对于人类理解周围世界具有重要作用。
AI 在许多承诺上都失败了。随之而来对人工智能的怀疑甚嚣尘上,我们面临一个选择:选择变得过于愤世嫉俗,在一旁观望等待赢家出现,或者找到一种方法过滤噪音,尽早发现商业突破,参与到这一历史性的经济机会之中。有一个简单的框架可以区分近期现实和科幻。我们使用对任何技术最重要的单一标准——成熟度进行衡量:它管理通常被称为边缘案例的不可预见事件的能力。随着技术的不断完善,它变得越来越擅长处理越来越少见的边缘案例,并且由此逐渐解锁新的应用。这是一个重要的观点:如果今天的人工智能专注于精确度或者检索,就可以实现非常高的性能。换句话说,它以牺牲一个代价优化另一个(即以更少的误报换取更多的漏报,反之亦然)。但是要同时在这两方面实现高性能,人工智能模型会遇到困难。解决该问题是人工智能的圣杯。

自动送货移动机器人(AMR)是城市自主商业化的首个应用,机器人出租车仍然在等待无法企及的高保真人工智能性能。行业的进步速度以及过去五年的经验强化了我们的观点,即人工智能商业化的最佳方式是专注于用低保真人工智能支持窄应用,在需要的时候通过人工干预实现高保真性能。在这个模型中,低保真人工智能带来早期商业化,之后的增量改进帮助推动业务 KPI。通过瞄准更宽容的用例,企业可以使用低保真人工智能及早实现商业成功,同时对于需要多年才能实现的高保真功能保持现实的看法。毕竟科幻在商业规划中没有立足之地。
在微软/GitHub 商业化其 AI 编程助手 Copilot 的同时,亚马逊开始预览它的 AI 编程助手 CodeWhisperer。和 Copilot 类似,CodeWhisperer 使用开源代码库进行训练,根据上下文向开发者提供代码完成建议。Copilot 因为代码许可证方面的问题引发了争议,CodeWhisperer 存在类似的问题,但它的做法要好于微软/GitHub——在提供示例代码建议时它会给出代码的来源,开发者将能知道是来自于是可以自由使用的 MIT 授权代码,还是来自于对使用有所限制的 GPL 授权代码。
研究人员表示,可以通过监听鸡叫声改善养殖鸡福祉的人工智能可能会在五年内问世。新研究表明,这项新技术可以检测和量化大型室内棚屋中的鸡发出的求救信号,将其与其他谷仓噪声区分开,准确率达到 97%。类似的方法最终可被用于提高其他养殖动物的福祉标准。每年全世界大约要养殖 250 亿只鸡——许多鸡都生活在巨大的鸡舍中,每个鸡舍里都饲养着数千只鸡。监听它们发出的声音是评估此类生物福祉的一种方法。香港城市大学动物行为和福利学副教授 Alan McElligott 表示:“鸡的声音非常响亮,但是求救的声音往往比其他的声音更响亮,就是我们所说的纯音调的叫声。”“即使是未经训练的耳朵也不难将它们分辨出来。”理论上农民可以根据鸡的叫声衡量其痛苦程度,在必要时加以照料。然而在饲养了数千或数万只鸡的商业化鸡群中,安排人类观察员是不切实际的。McElligott 表示,一方面人类的存在可能会进一步给鸡群带来压力,而且鸡的数量这么大,客观量化求救信号的数量是不可能的。
芝加哥大学科学家开发出一种新算法,可提前一周预测未来的犯罪,准确率达到了 90%,预测范围约为 1000 英尺。它通过学习暴力和财产犯罪方面公共数据的模式进行预测。该工具使用了芝加哥市两类报告事件进行测试和验证:暴力犯罪(凶杀、袭击和殴打)和财产犯罪(入室盗窃、盗窃和机动车盗窃)。之所以使用这两类数据是因为在历来对执法部门缺乏信任和合作的城市地区,这两类案件是最有可能报警的。与毒品犯罪、交通拦截检查和其他的轻罪不同,这两类犯罪也不太容易出现执法偏见。 新模型通过检查离散案件的时间和空间坐标划分犯罪,检测模式以预测未来的犯罪。它将城市划分为大约 1000 英尺宽的“空间片”,然后预测区域内的犯罪情况。以前的模型更多地依赖传统邻里或者政治边界,这会受到偏见的影响。该模型在美国其他七个城市的数据上也表现得同样出色:亚特兰大、奥斯汀、底特律、洛杉矶、费城、波特兰和旧金山。主要作者 Ishanu Chattopadhyay 谨慎地指出,工具的准确性并不意味着它应该被用于指导执法政策; Chattopadhyay 表示,例如警察部门不应该使用它来主动在社区聚集以防止犯罪。相反它应该被添加到城市政策和治安策略的工具箱中应对犯罪。他表示:“我们创建了城市环境的数字孪生。如果向它提供过去发生过的数据,它会告诉你未来会发生什么。”Chattopadhyay 补充表示:“这并不神奇;也存在局限性,但我们对其进行了验证,效果非常好。”“现在你可以将它作为一个模拟工具,看看如果城市内一个地区的犯罪率上升是什么情况,或者另一个地区加强执法会发生什么。如果你应用所有这些不同的变量,你就会看到系统的回应是如何演变的。”研究论文发表在《Nature Human Behavior》期刊上。
英国知识产权局(IPO)决定 AI 系统暂时不能为发明申请专利。IPO 最近一次咨询发现,专家对人工智能目前是否能在没有人类帮助的情况下进行发明持怀疑态度。IPO 表示,现行法律允许人类为人工智能协助完成的发明申请专利,尽管有误解,但实际情况并非如此。去年上诉法庭裁定 Stephen Thaler 败诉,后者曾表示他的 Dabus AI 系统应该被认定为两项专利申请的发明人:一种食品容器和一种闪光灯。法官以二比一的多数支持 IPO 必须是真人才能作为发明人的立场。大法官 Laing 在她的判决中写道:“只有人才能拥有权利——机器不行。”“专利是一项法定权利,只能够被授予个人。”但是 IPO 也表示,它将“需要了解我们的知识产权制度在未来如何保护人工智能设计的发明”,并致力于推动国际讨论,保持英国的竞争力。

很多人工智能系统都是使用从互联网上复制的大量数据训练的。 IPO 周二还宣布计划修改版权法,为了公共利益允许所有人合法访问——而不是像现在一样仅限于进行非商业研究的人访问,以此“促进人工智能技术的使用,并拓宽‘数据挖掘’技术。”权利持有人仍然能控制其作品的访问权并为此收取费用,但是不能再针对挖掘它们的能力收取额外费用。在咨询中,IPO 指出,英国是少数几个保护无人类创作者的计算机生成作品的国家之一。它表示,“计算机生成的作品”的“作者”被定义为“为作品创作进行必要安排的人”。保护期限为自作品完成之日起 50 年。表演艺术工作者工会 Equity 呼吁修改版权法,以保护演员的生计免受人工智能内容的影响,例如用他们的面部图像或声音生成“deepfakes”。IPO 表示他们会慎重对待该问题,但“现阶段人工智能技术对表演者的影响仍不明确。”该机构表示“将继续关注这些问题。”
机器学习模型正呈指数级增长。训练它们所需的能量也成倍增长——通过训练之后 AI 才能准确处理图像或文本或视频。随着人工智能社区努力应对其对环境的影响,一些会议现在要求论文提交者提供有关二氧化碳排放的信息。新研究提供了一种更准确的方法计算排放量。它还比较了影响它们的因素,并测试了两种减少排放的方法。 研究人员训练了 11 个规模不等的机器学习模型处理语言或图像。训练时间从单 GPU 上 1 小时到 256 个 GPU 上 8 天不等。他们记录每秒的能耗数据。还获得了 16 个地理区域 2020 年期间以五分钟为单位的每千瓦时能源碳排放量。然后他们可以比较在不同地区、不同时间运行不同模型的碳排放量。 为训练最小模型的 GPU 供电的碳排放量大致相当于为手机充电。最大的模型包含了 60 亿个参数,参数是衡量模型大小的标准。虽然它的训练只完成了 13%,但是 GPU 的碳排放量几乎相当于一个美国家庭一年耗电的碳排放量。而一些已部署的模型,例如 OpenAI 的 GPT-3,包含的参数超过了 1000 亿个。 减少碳排放的最大因素是地理区域:各地区每千瓦时的二氧化碳排放量从 200 克到 755 克不等。除了改变位置之外,研究人员还测试了两种减少二氧化碳排放的方法,他们能做到这一点得益于高时间粒度的数据。第一种方法是“灵活的开始”,这种方法可能会将训练延迟长达 24 个小时。对于需要几天时间训练的最大的模型,推迟一天通常只能将碳排放量减少不到 1%,但是对于小得多的模型,这样的延迟可以减少 10% 到 80% 的排放量。第二种方法是“暂停加恢复”,这种方法是在排放量高的时段暂停训练,只要总的训练时间增长不超过一倍即可。这种方法给小模型带来的好处只有几个百分点,但是在半数的地区,它让最大的模型受益达到 10% 到 30%。每千瓦时的排放量随着时间波动,部分是因为由于缺乏足够的能量存储,当风能和太阳能等间歇性清洁能源无法满足需求时,电网必须依赖“脏电”。
人工智能的使用正在蓬勃发展,但是它可能并不是你想象中的秘密武器:从网络行动到虚假信息,人工智能拓展了国家安全威胁的触角,可以精确、快速大规模地针对个人和整个社会。随着美国努力保持领先地位,美国情报体系(IC)正努力适应并开启人工智能即将带来的革命。美国情报体系启动了一些针对人工智能的影响和道德用途的举措,分析师开始构思人工智能将如何彻底地改变他们的学科,但是这些方法和 IC 对此类技术的其他一些实际应用在很大程度上都是分散的...美国不同的政府机构正在如何使用人工智能查找全球网络流量和卫星图像中的模式,但是在使用人工智能解释意图时存在着一些问题:Pyrra Technologies 的首席技术官 Eric Curwin 表示,人工智能的理解可能更类似于刚学会走路的人类幼儿。该公司帮助客户识别从暴力到虚假信息在内的各种虚拟威胁。Curwin表示:“例如人工智能可以理解人类语言的基础知识,但是基本模型不具备完成特定任务的相关知识或对上下文的理解。”Curwin 解释说,为了“建立可以开始取代人类直觉或认知的模型,研究人员必须首先了解如何解释行为,并将该行为转化成人工智能可以学习的东西。”
2009 年当时在普林斯顿大学的计算机科学家李飞飞创造了一个将改变人工智能历史的数据集。该数据集被称为 ImageNet,包含了数百万张标记图像,可训练复杂的机器学习模型识别图片中的内容。2015 年,这些机器超越了人类的识别能力。不久之后,李飞飞开始寻找她所谓的另一个“北极星”——将以完全不同的方式推动人工智能发展为真正的智能

她回顾了 5.3 亿年前的寒武纪大爆发——当时许多陆地生物物种首次出现,她从中获得了灵感。一种有影响力的理论认为,新物种爆发的部分原因在于第一次能看到周围世界的眼睛的出现。李飞飞意识到,动物的视觉永远不会自行出现,而是“深深根植于一个需要在瞬息万变的环境中移动、导航、生存、操纵和改变的整个身体之中。”她表示:“这就是为什么我会很自然地在人工智能方面转向更积极的愿景。”

如今李飞飞的工作重点是人工智能代理,它们不仅可以从数据集中接受静态图像,还可以在三维虚拟世界的模拟环境中四处移动并与环境交互。这是一个被称为具身人工智能(embodied AI)的新领域的广泛目标,李飞飞并不是唯一投身于该领域的人。该领域与机器人技术重叠,因为机器人可以是具身人工智能代理在现实世界中的物理等价物,而强化学习——总是训练交互式代理学习将长期奖励作为激励。但是李飞飞和其他一些人认为,具身人工智能可以推动从机器学习直接能力(如识别图像)到学习如何通过多个步骤执行复杂的类人任务(如制作煎蛋卷)的重大转变。