solidot新版网站常见问题,请点击这里查看。
Meta 透露了在策略游戏《外交(Diplomacy)》中达到人类水平的 AI Cicero。这款游戏涉及社交技能,玩家在游戏中扮演不同国家进行合作对抗。这是一个涉及合作和竞争的战略游戏,强调七个玩家之间的自然语言谈判和战术协调。AI 必须表现出同理心,使用人类的语言交流,建立人际关系才能获胜,这对 AI 玩家来说是一项艰巨的任务。Cicero 通过《外交》学习了自己的技能,随着时间的推移成为游戏高手。Cicero 将语言模型的规划和强化学习算法相结合,可以通过对话推断玩家的信念和意图,并根据其计划生成对话。在《外交》游戏的 40 场匿名在线比赛中,Cicero 的平均得分是人类选手的两倍多,在 72 小时的比赛中,它发送了 527 7条信息,在不止一场比赛中排名前 10%。Cicero 目前仍只能协调玩家在当前回合的行动。它没有能力模拟对话在游戏的长期过程中如何影响与其他玩家的关系。AI 可以通过预测整局比赛走势制定发言计划,但却很难预测发言后对游戏内人际关系的长期影响。

创业公司 Stability AI 宣布释出开源文本图像模型 Stable Diffusion 的 v2.0 版本。新特性包括:用全新文本编码器 OpenCLI 训练的文本图像模型,比 1.0 版本显著改进了生成图像的质量,模型现在能以默认分辨率 512x512 和 768x768 生成图像;Upscaler Diffusion 模型增强了图像分辨率,系统现在能生成 2048x2048 或更高分辨率的图像;新模型 depth2img 能推断输入图像的深度,能利用深度信息生成新图像;等等。

创业公司 Stability AI 宣布释出开源文本图像模型 Stable Diffusion 的 v2.0 版本。新特性包括:用全新文本编码器 OpenCLI 训练的文本图像模型,比 1.0 版本显著改进了生成图像的质量,模型现在能以默认分辨率 512x512 和 768x768 生成图像;Upscaler Diffusion 模型增强了图像分辨率,系统现在能生成 2048x2048 或更高分辨率的图像;新模型 depth2img 能推断输入图像的深度,能利用深度信息生成新图像;等等。

英伟达的研究人员演示了文本 3D 模型生成系统 Magic3D,它能让任何人无需任何训练就能创造 3D 模型。类似 DALL-E 和 Stable Diffusion 等文本图像生成模型,Magic3D 在输入一段文字系统就能产生相应的 3D 模型,举例来说,输入“一只蓝毒箭蛙坐在水莲上”,系统就会生成相应的 3D 模型,改变其中的描述也会改变模型中的对象。Google 研究人员在今年 9 月宣布了它的文本 3D 模型 DreamFusion,英伟达的 Magic3D 生成 3D 模型的速度比 DreamFusion 快两倍。研究人员在预印本平台 arxiv 上发表了论文,但并没有公布相应的代码。

名叫 Liu Liu 的美国旧金山开发者在 App Store 上发布了一个免费应用 Draw Things: AI Generation,将开源文本图像生成模型 Stable Diffusion 带到 iPhone 平台。Stable Diffusion 的一大优势是能运行在单张英伟达的中高端显卡上,有开发者对其进行优化之后能运行在普通显卡上。Liu Liu 对其进一步优化使其能运行在 iPhone 上。Liu Liu 称主要挑战在于内存占用,如果 iPhone 的内存有 6GB,当一个应用占用超过 2.8 GB 之后 iOS 会开始将其杀死;如果内存只有 4GB,那么超过 2GB 之后就会被干掉。测试显示,在 Phone 11 Pro 上生成一幅 384×384 图像耗时逾两分钟,如果是 iPhone 14 Pro 则所需时间会更少。

2016 年前顶尖的人类围棋棋手仍然能打败顶尖的围棋 AI。但在使用神经网络通过自我对弈精通围棋的 DeepMind AlphaGo 之后,人类就一败涂地了。最近 KataGo 作为一种开源围棋 AI 而风行一时。上周一组研究人员发表论文,描述了利用 KataGo 盲点的对抗性技术去挫败 KataGo 的方法。通过 KataGo 训练集之外出乎意料的落子,一个会输给业余棋手的对抗性围棋程序能击败 KataGo。KataGo 使用数百万次自我对弈学习围棋,但这仍然不足以覆盖所有可能的情况,留下了可利用的漏洞。研究人员的对抗性围棋程序发现 KataGo 容易受 off-distribution 等策略的影响。研究显示,达到人类水平的 AI 往往会犯一些非常奇怪的错误,以让人类感到惊讶的方式失败。如果 AI 在安全关键系统中犯下类似的错误,可能会导致严重后果。

Google 旗下的 AI 子公司 DeepMind 今年早些时候宣布了预测蛋白质结构的 AI 系统 AlphaFold。现在社交网络巨头 Meta/Facebook 的研究人员完成了类似的工作,他们利用了一种语言模型,用已知的蛋白质结构序列进行训练,然后再用它去预测其它蛋白质的结构。研究人员将他们的 AI 模型称为 ESMFold,它没有 AlphaFold 精确,但预测蛋白质结构的速度是 AlphaFold 的 60 倍。研究人员用了两周时间预测了逾 6.17 亿蛋白质的结构,相比之下 AlphaFold 需要用数分钟才能完成一个蛋白质结构的预测。在 6.17 亿结构中,逾三分之一被认为是高质量的,被认为是正确的。其中有数百万是全新的,与已知蛋白质结构数据库都不同。

Meta/Facebook 宣布了 AI 驱动的新音频编解码器 EnCodec,压缩后的大小仅为 MP3 文件格式的十分之一。Meta 表示这项技术能显著改善低带宽下的语音声音质量。Meta 同时在预印本平台 arxiv 上发表了论文《High Fidelity Neural Audio Compression》。新的方法由三部分组成,首先编码器将未压缩数据转换成低帧率的潜在空间(latent space)表示;量化器 quantizer 随后压缩表示到目标大小,同时跟踪最重要信息以用于未来重建原始信号;解码器最后用单 CPU 上的神经网络将压缩后的数据实时转变成音频。研究人员表示他们是第一个实现将神经网络技术应用于压缩 48 kHz 立体声。

美国唱片业协会(RIAA)向美国贸易代表办公室递交了最新的恶名市场名单(PDF),其中包括了 BT 网站、网盘以及盗版串流服务。此外,RIAA 还将 AI 视为新兴的版权威胁。RIAA 称有在线服务利用 AI 创作出与参考的艺术家乐曲相似或几乎一样的新乐曲。RIAA 提到的一个服务是 Songmastr,其底层技术是开源的 Matchering 2.0,代码发布在 GitHub 上。该网站许诺可根据知名乐人如碧昂丝、泰勒斯威夫特、鲍勃迪伦的乐曲创作(或称为 master)相似风格的乐曲。
Facebook/Meta 开发出闽南语 AI 翻译系统演示了一段闽南语和英语之间的实时翻译。“我们利用普通话作为中间语言来建立伪标签,我们首先将英语(或闽南语)语音翻译成普通话文本,然后我们再翻译成闽南语(或英语),并将其加入训练数据。”Meta的研究团队称。目前,该系统允许讲闽南语的人与讲英语的人交谈,尽管很生硬。该模型一次只能翻译一个完整的句子。Meta 宣布,除了从这个项目中获得开源的模型和训练数据外,该公司正在发布首个基于闽南语语料库的语音翻译基准系统,以及语音矩阵(SpeechMatrix),“一个使用Meta的LASER数据挖掘技术的大型语音到语音翻译语料库”,这个系统将使研究人员能够创建他们自己的语音到语音翻译(S2ST)系统。
在 Adobe 的 MAX Sneaks 活动上,它演示了一系列 AI 图像合成工具:Project Clever Composites 使用 AI 和自动化快速合并图像,比如你想把旅游照片中的人像裁剪下来无缝的合并到其它背景中,Clever Composites 可以将整个过程简化成几次点击;另一个实验性功能是 Project Blink,让用户在编辑视频时对视频内容根据特定的文字或对象、声音或运动类型进行搜索;Project All Of Me 利用 AI 生成照片中不存在的部分,如从小图生成大图,从另一个角度生成照片,等等。
靛青之花 写道 "10 月 20 日, pixiv 发布公告宣布即将开始针对 AI 生成的一类作品划分单独的属性, 包括:
1. 在作品编辑页中, 提供可选标识为 AI 生成作品的选项; 2. 在筛选功能中, 可过滤 AI 生成作品; 3. 提供 AI 生成作品的独立排行榜, 与其他常规作品单独区分.
预计将于今年十月下旬开始实施, 但这些选项更新并不是「永久的」, pixiv 在公告中谈及 AI 技术时将其视作类似 3D 技术和其他创作工具一样的, 能够有效辅助于创作的「得力助手」. 文末说道, 现今 AI 技术发展中的我们正处于「一个相关道德伦理、条例规定尚未明确的过渡阶段。」, 仍需要更多调查和审议."
AI 能轻而易举的打败最强的国际象棋选手,但 AI 驱动的扫地机器人仍然会卡住某个地方耗尽电力。你认为 AI 对企业哪方面的影响最大:能完成曾经由人类完成特定任务的机器人,还是基于历史和当前可用数据做出最佳商业决策的程序?AI 首先取代的可能不是临时工而是中层管理,而这将能为企业每年节省数十亿美元,也能为推动 AI 自动化提供资金。当然不是所有人都认同这一观点。
华盛顿大学研究人员开发出深度学习软件 Omnipose,能帮助解决在显微镜图像中识别各种微小细菌的挑战。研究论文发表在《自然·方法学》杂志上。Omnipose 的源代码托管在 GitHub 上,采用非商业许可证。研究人员发现,在大型细菌图像数据库上训练的 Omnipose 在表征和量化混合微生物培养物中的无数细菌方面表现良好,并消除了其前身可能出现的一些错误。此外由于不同细菌的光学特性存在差异,Omnipose 在克服识别问题方面表现出色。研究人员称,Omnipose 在各种细胞形态和模式上的高性能,可能会从以前无法访问的显微镜图像中解开信息,这或将改变生物图像分析的游戏规则。
丹麦艺术家团体 Computer Lars 和非营利艺术科技组织 MindFuture Foundation 在今年 5 月成立了合成党(The Synthetic Party),顾名思义即倡导人类与 AI 的和谐共处。该党正试图在今年 11 月的议会选举中赢得一个席位。合成党的公众形象和挂名领袖是聊天机器人 Leader Lars。它不参与投票,通过 Discord 与民众交流,它理解英语,但会用丹麦语回应提问。合成党的政策包括推动设立每月 10 万丹麦克朗(两倍于平均工资)的基本收入,设立互联网和 IT 部门,提高对 AI 在生活中作用以及政府如何让 AI 对偏见等负责的认识。合成党提出的可持续发展目标是 Life With Artificials,重点是人类与 AI 之间的关系。
在 Meta 宣布其文本视频 AI 模型 Make-A-Video 之后,Google 演示了自己的同类工具Imagen Video。它能根据书面提示以每秒 24 帧速生成分辨率为 1280×768 的视频。从文本合成图像到文本合成视频过去半年 AI 扩散模型(diffusion models)进步显著。Google 研究人员称,Imagen Video 的视频能表现出不同风格,如根据梵高的作品生成视频。Google 希望通用视频合成模型能显著降低高质量内容生成的难度。Imagen Video 使用 LAION-400M 图像文本数据集,以及1400 万视频文本对和 6000 万图像-文本对进行训练,和 Meta 一样短时间内不会对公众开放使用。
我们所欣赏、所阅读和所购买的很多东西是 YouTube、Twitter 和 Amazon 等网站通过推荐系统渗透到我们的意识中的。定制化的算法推荐旨在增加广告流量、点击或购买量。推荐系统有时候会让用户觉得算法根本不了解我们,但有时候也让人觉得它就像肚子里的蛔虫什么都知道。推荐系统不仅能根据我们的偏好进行调整,实际上还能塑造我们的偏好。国际机器学习会议(International Conference on Machine Learning)上发表的研究表明,当推荐系统使用强化学习增加参与度时,可能会产生改变偏好以增加参与度的副作用。研究人员介绍了检测和减少此类 AI 操纵的方法。
Google 子公司 DeepMind 的研究人员在《自然》期刊上发表论文报告了名为 AlphaTensor 的 AI 找到更快的矩阵乘法算法。数学在计算机编程中经常出现,通常作为描述和操纵现实世界现象表示的一种手段。例如,它用于表示计算机屏幕上的像素、天气状况或人工网络中的节点。在这种情况下,使用数学的主要方式之一,就是对矩阵进行计算。在对游戏进行编程时,矩阵描述了可能的运动选项。为了实现这样的运动,矩阵经常被相乘和/或相加。这需要海量的工作,随着矩阵变得越来越大尤其如此,这就是为什么计算机科学家花费大量时间和精力来开发越来越有效算法来完成工作的原因。1969 年,数学家沃尔克·斯特拉森想出了一种方法,只使用 7 个乘法运算而不是标准的8个乘法运算将两个 2×2 矩阵相乘。DeepMind 研究人员从游戏系统中寻找灵感,这些游戏大多数都是基于强化学习的。在构建了一些初步系统之后,研究小组将重点转向了树搜索,这也用于游戏编程,是系统在特定情况下查看各种方案的一种手段。当应用于乘法矩阵时,研究人员发现,将 AI 系统转换为游戏可搜索最有效的方法来获得所需的结果——数学结果。研究人员通过允许它搜索、评估来测试他们的系统,然后使用现有算法,并以奖励来激励选出最有效的算法。系统学会了影响矩阵乘法效率的因素。接下来,研究人员将允许系统创建自己的算法,寻求进一步提高效率。他们发现,在许多情况下,系统选择的算法比人类前辈创建的算法更好。
波士顿动力等公司发表公开信,承诺不会武器化机器人,并呼吁业内企业能做出类似的承诺。除了波士顿动力,签署公开信的企业包括 Agility Robotics、ANYbotics、Clearpath Robotics、Open Robotics 和 Unitree Robotics。公开信称,给能自主或远程操作、能进入人类生活的机器人引入武器会带来伤害风险和严重的道德问题。这些企业承诺不会给自己制造的机器人添加武器,也不支持其它企业武装机器人。它们还承诺将会审查客户的计划,避开试图将机器人变成武器的客户。
美国白宫周二发布了旨在保护个人数据不被人工智能算法滥用的指导方针。它不具约束力,也不包括执行措施。指导方针确定了“应指导设计、使用和部署自动化系统的五项原则,从而在人工智能时代保护美国公众”。这五项原则是:保护人们免受不安全或无效的自动化系统的影响;防止通过算法发生歧视;保护人们不受滥用数据行为的影响,并让他们有权决定自己的数据如何被使用;告知人们一个自动化系统正在被使用;让用户可选择退出自动化系统。