solidot新版网站常见问题,请点击这里查看。
布鲁斯威利斯(Bruce Willis)今年初因为患上失语症而宣布退出影坛。但在深度伪造(deepfake)技术的帮助下,这位影星将能重返大银幕。他成为第一位出售肖像权允许创建“数字双胞胎”以便于在屏幕上使用的好莱坞明星。威利斯允许美国公司 Deepcake 使用他的脸部肖像。利用深度伪造,威利斯的脸部将通过数字技术转移到另一位表演者身上,出现在广告中,即使他本人并没有出现在拍摄片场。更新(10/2):布鲁斯威利斯的发言人否认了这一消息。
欧盟提出 AI 责任指令( AI Liability Directive)降低起诉 AI 产品的举证负担。自动驾驶汽车、语音助手和搜索引擎都可能在该指令的管辖范围之内。如果获得通过,该指令将配合拟议中的 AI 法——首个对 AI 系统设定限制的法律。AI 责任指令引入了 “因果关系推定”,只要证明产品的 AI 性能与相关伤害之间有因果关系,受害者将不需要破译复杂的 AI 系统以证明案件具有关联性。举例来说,如果无人机造成了伤害,其 AI 系统在其中起到了作用,那么厂商将不能免责。
美国国家情报总监办公室(ODNI)的研究部门 Intelligence Advanced Research Projects Activity (IARPA) 启动了 The Human Interpretable Attribution of Text Using Underlying Structure (HIATUS)研究项目,旨在开发能识别语言指纹的软件。人类创作的文本包含有作者的语言特征,能用于揭示作者身份。IARPA 相信有了正确的模型就能从不同文本样本中识别出作者的风格,软件同时还能修改这种风格去掩盖作者身份实现文本匿名性。
OpenAI 今年早些时候发布了自然语言图像合成系统 DALL-E 的最新版本,开放 Beta 测试,但用户需要申请并通过一个等待名单。现在 OpenAI 宣布将允许任何人立即使用 DALL-E(目前尚未解除限制)。DALL-E 吸引了数字艺术家、图形设计师和尝鲜者,它能从随机输入的短语创造出合成图像,结果常常会令人眼前一亮,就像是对话式的 Photoshop,网民对 AI 的进步感到吃惊。DALL-E 也推动了语言图像合成模型的流行,Google 和 Meta 都开发了类似的系统,创业公司 Midjourney 和 Stable Diffusion 发布了自己的版本,其中 Stable Diffusion 开放了源代码更是吸引了许多人的参与。
卡内基梅隆大学研究人员设计出一个名为 Clio 的定制自动化机器人平台,并与一个名为 Dragonfly 的基于贝叶斯优化的 AI 相结合。利用这些工具,他们证明该系统能在两个工作日里的 42 次实验中,自主筛选并确定出 6 种高导电非水锂离子电池的电解质配方。研究人员指出,他们的方法发现电解质的速度是随机筛选速度的 6 倍。研究团队在商用锂离子软包电池中测试了该电解质溶液,并以传统的电解质组分作为基线实验,演示了其快速充电的性能。研究团队总结道,他们的研究有助于高性能充电电池的研发,对于更大范围的能源应用和材料科学具有重要意义。
瑞士软件工程师 Matthias Bühlmann 发现,流行的 AI 自然语言图像合成模型 Stable Diffusion 能用于压缩位图图像,在高压缩率下比 JPEG 或 WebP 有更少的视觉瑕疵,缺陷是可能会添加原图不存在的东西。Stable Diffusion 利用互联网上数百万张图片进行训练,能根据文本描述或提示生成图像。在训练过程中,它在图像和相关词语之间进行统计关联,对每张图像提取出较少的关键信息表述,将其作为“权重(weights)”储存。绝大部分用户在使用 Stable Diffusion 时是通过文本描述去生成图像,但 Bühlmann 剔除了文本编码器,强行让图像通过 Stable Diffusion 的图像编码器进行处理,能将低精度的图像转变成高精度的潜在空间(latent space)表示,在此过程中大幅减少图像体积。测试显示一张 768KB 的图像用 JPEG 压缩到 5.68KB,用 WebP 压缩到 5.71 KB,而用 Stable Diffusion 压缩到 4.98KB。
OpenAI 开源了它的多语言语音识别系统 Whisper,源代码采用 MIT 许可证托管在 GitHub 上。语音识别系统是科技巨头软件和服务的核心部分,Whispe 能将多种语言的语音翻译到文本,并将其翻译到英语。它使用了 68 万小时的多语言语音数据进行训练,数据集是从网络中收集到的,改进了对独特口语、背景噪音和技术术语的识别。
盖蒂图片社(Getty Images)禁止上传和销售 AI 工具如 DALL-E、Midjourney 和 Stable Diffusion 生成的图像。过去几个月自然语言图像生成模型如 DALL-E 产生了一批令人称奇的艺术图,部分艺术家随后将图像上传到图像销售网站销售。但出于版权方面的担忧(AI 图像是在现有图像的基础上生成的),图片网站 Newgrounds、PurplePort 和 FurAffinity 都禁止了此类内容。盖蒂图片社是最新一个做出类似决定的平台,CEO Craig Peters 表示此举是出于对 AI 生成内容合法性的担忧,以及旨在保护其客户,AI 生成的图像可能会给客户带来法律风险。另一个平台 Shutterstock 尚未禁止此类内容,但限制了搜索
如果有人给你看鳄鱼照片问是不是鸟,你可能会笑。如果你友善且有耐心,可能会帮助纠正错误。根据发表在 PNAS 期刊上的一项研究,研究人员借助 Instagram 展开的研究发现,这种策略能显著提高 AI 解释新图像的正确率。研究人员奖励系统写出能理解的问题,当用户对问题做出回应时,系统收到反馈调整内部工作。然后 AI 逐渐学会了语言和社会规范相关的知识,改进它提出有意义问题的能力。研究团队 8 个月内在 Instagram 用逾 20 万个问题进行训练,系统回答与已回答问题相似问题的正确率提高了 118%。
本月举行的 Sinquefield Cup 国际象棋比赛上,19 岁的美国棋手 Hans Niemann 爆冷击败了 53 场不败的棋王 Magnus Carlsen,结果却引发了一场作弊的指控。Niemann 承认以前网上比赛曾作弊过,但坚决否认线下比赛作弊。不管真相是什么,每个人都同意在 2022 年国际象棋比赛中作弊是非常简单的事情,过去 15 年名为 chess engines 的 AI 软件包可以轻而易举的击败最强的国际象棋大师。棋手面对机器毫无胜算,那么人类棋手之间的对弈就主要依赖于心理弱点寻找漏洞击败对手,因此国际象棋比赛变成了一场心理战,就像是打扑克牌。要理解机器的优势有多大,可以参考国际象棋排名:Carlsen 保持了人类最高的得分记录 2882 分,1997 年击败卡斯帕罗夫的 IBM 深蓝超算得分 2853,今天最强大的 AI 程序 Stockfish 保守估计得分超过 3500 分,Carlsen 基本上不可能打败它。
百度发布了自己的自然语言图像合成模型 ERNIE-ViLG,有中国视频主播对比了用 ERNIE-ViLG、DALL-E 2 和 Stable Diffusion 等不同模型生成的图像,认为 ERNIE-ViLG 产生了更精确的图像。百度在 Hugging Face 上发布了 ERNIE-ViLG 的 DEMO,用户很快注意到与 DALL-E 2 和 Stable Diffusion 等 AI 模型的区别:有敏感词限制。输入某些词语会返回“存在敏感词,请重新输入”或者“输入内容不符合相关规则,请调整后再试!”
YouTube 主播 Yannic Kilcher 使用 4chan 匿名论坛政治不正确讨论版块 /pol/ 三年的内容训练了一个 AI 语言模型。 /pol/ 是 4chan 上最活跃的版块,以其种族主义和其它极右极端主义内容著称。Kilcher 将该 AI 模型用于 10 个机器人程序,然后去 /pol/ 上发帖,24 小时发了 1.5 万个帖子,占了当天该版块所有帖子的十分之一。该语言模型被命名为 GPT-4chan,它在模仿 /pol/ 用户发帖上做到了惟妙惟肖,虽然偶尔会犯错,但该版块的用户花了两天时间才注意到问题,并识别出了其中一个机器人账号。机器人账号导致了用户之间的不信任,即使 Kilcher 关闭机器人程序之后用户彼此之间仍然会指责对方是机器人
开源 Python 机器学习库 PyTorch 成为 Linux 基金会托管的顶级项目。Linux 基金会的核心使命是协作开发开源软件。PyTorch 项目同时宣布成立基金会,其理事会的核心成员包括 AMD、Amazon Web Services (AWS)、Google Cloud、Meta、Microsoft Azure 和 NVIDIA。PyTorch 最早由 Meta/Facebook 创建,也主要由 Meta AI 开发。自 2017 年以来逾 2400 名开发者在 PyTorch 基础上创建了 54000 个项目,PyTorch 成为了 AI 研究的主要平台之一。
今年早些时候 OpenAI、Google 和 Meta 先后宣布了各自的自然语言图像合成 AI 模型,但曲高和寡,能接触到的人并不多,直到 8 月 22 日 Stability AI 开源了它的 AI 模型 Stable Diffusion,称在质量上能匹敌 OpenAI 的 DALL-E 2。Stable Diffusion 的优势是能运行在单张显卡上,测试显示使用英伟达的 RTX 3060 12GB GPU,能在 10 秒内生成 512×512 图像,如果显卡升级为高端的 3090 Ti,生成每幅图像只需要 4 秒。即使你没有英伟达的显卡,你也可以利用在线 DEMO 排队去生成文本图像。仅仅过去一周, Stable Diffusion 就吸引了数十个项目。在 Reddit 的 Stable Diffusion 非官方论坛上,数以万计的用户在分享用该模型生成的合成图像。AI 合成图像如何影响我们还有待观察。
最近开源的自然语言图像合成模型 Stable Diffusion 引发了社区和用户的浓厚兴趣。Stable Diffusion 的一大优势是能运行在单张显卡上,包括苹果的 M1 Mac GPU,因此普通用户也可以在本地使用,不需要上云端。利用 Stable Diffusion 一位名叫 frigis9 的网友更新了经典 MS-DOS 游戏的图像,将像素图变成细节非常丰富的图像,效果令人称奇
通用旗下的无人驾驶汽车公司 Cruise 在发生车祸导致一位乘客受伤后召回了无人驾驶出租车。Cruise 前不久获得了完全无人驾驶出租车的商业服务许可,出租车的工作时间限制在晚上十点到凌晨六点之间。事故发生时无人驾驶出租车在十字路口左转然后停了下来,它猜测迎面而来的一辆汽车会转弯,结果是汽车迎面与出租车相撞。Cruise 称这辆汽车在限速 25 英里/时的车道上以大约 40 英里时速行驶,公司发言人拒绝发布车祸视频。该公司表示召回无人驾驶出租车是出于对公众透明的考虑。
AI 创造的艺术打败了人类创造的艺术。在美国科罗拉多州的艺术竞赛中,名叫 Jason Allen 的艺术家递交的作品《Théåtre D'opéra Spatial》赢得了 Digital Arts/Digitally Manipulated Photography 类别的第一名。Allen 使用商业图像合成模型 Midjourney 生成了一系列图像,然后放大打印在画布上递交参与比赛。他的胜利引发了有关艺术的性质和何为艺术家的热烈讨论。有人认为 AI 的出现将会导致所有人类艺术家被机器所取代,其他人认为艺术会适应新的技术并演化发展,比如音乐合成器。
AI 技术发现逾 2 万个未申报游泳池给法国税务部门带来了一笔意外之财。因为建造水池能提高房价,意味着更高的财产税,根据法国法律业主需要申报。平均面积 30 平方米的游泳池每年的税收为 200 欧元。2020 年法国有逾 320 万个私人游泳池,新冠疫情期间愈来愈多的人在家办公,游泳池的安装量也进一步激增。法国税务部门使用的软件由 Google 和咨询公司 Capgemini 开发。除了寻找未申报游泳池,税务部门还计划用它发现未申报的房屋扩建、庭院或凉亭,这些扩建建筑都会提高房产税。
Google 研究院发布了 AI 图像降噪工具 MultiNerf。源代码托管在 GitHub 上,采用 Apache License 2.0 许可证。MultiNerf 的算法运行在原始图像数据上,利用 AI 计算出没有噪声的图像会怎么样。Google 研究人员在今年 5 月发布一则视频(YouTube)演示了其工作原理。
微软的代码建议完成工具 GitHub Copilot 可能是完美的编程考试作弊工具。马萨诸塞大学阿默斯特分校的 CS 教授 Emery Berger 对教师发出警告,认为 Copilot 就像是学生带着乌兹枪去参加刀战,让传统的编程考试变得毫无意义,因为 Copilot 知道所有答案。对使用 Copilot 的学生而言,教师的课程目标就像是敲一下 Tab 键去生成期望输出的代码。Berger 称,Copilot 不同于在编程问答社区 Stack Overflow 搜索答案,你能在网上找到示例代码,教师也能这么做,然后可以用剽窃检测工具对比下代码。Copilot 能生成网上没有的代码。他认为编程教学需要适应这一新情况。