solidot新版网站常见问题,请点击这里查看。
在一项衡量创造力和激发情绪反应潜力的测试中,AI 生成的广告的表现优于典型的美国平面广告,相关研究结果已经提交首届 BrXnd 营销和 AI 大会。这项比赛的灵感来自最初的图灵测试,这一测试挑战机器在对话中模仿人类的能力。比赛要求非人工制作的参赛作品使用 ChatGPT 等 AI 工具创建和组织所有图像和文本,所有团队都被要求根据一个名为 Volt 的虚构能量饮料品牌的描述和标志制作平面广告。评分研究公司 System1 Group 对广告的创意质量和引发情绪反应的能力进行了评分:5 颗星是最高分,1 颗星是最低分,结果表明,典型的美国平面广告平均得分为1.8颗星。而两个AI制作的广告分别获得2.1颗星和2颗星。该公司表示,得分超过 2 分的广告被认为“超出常规,非常棒”。

Meta 公司的 AI 研究人员在预印本平台 arXiv 上发表论文《MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers》,提出了一种革命性的可扩展模型架构 Megabyte。今天的高性能生成式 AI 模型如 OpenAI 的 GPT-4,都是基于 Google 研究人员在 2017 年提出的 Transformer 架构。Meta 的研究人员认为 Transformer 架构可能达到了其阈值,它有两大设计缺陷:第一,随着输入输出长度的增加,自我关注显著扩大。Transformer 语言模型需要注意所有单词,当需要处理的单词量数以千计,计算非常密集。第二,前馈神经网络存在扩展性难题。Megabyte 模型提出了一种不同的架构,它将输入输出序列分割为“补丁(patches)”而不是个别的令牌(tokens)。在每个补丁中,局域 AI 生成结果,全局模型管理协调所有补丁的最终输出,从而解决了扩展性问题。Megabyte 能并行进行计算,相比下传统 Transformers 是串行计算。测试显示,有 15 亿参数的 Megabyte 模型比有 3.5 亿参数的 Transformers 模型生成序列快 40%。Megabyte 模型能支持最多 120 万个令牌,相比下 GPT-4 是 3.2 万个令牌,Anthropic 的 Claude 是 10 万个令牌。

Meta 开源了它的计算机视觉基础模型 DINOv2,源代码托管在 GitHub 上,和 Meta 近期开源的其它 AI 模型一样,采用的是非商用的 CC-BY-NC 4.0 许可证。DINOv2 是基于 Vision Transformer (ViT)架构,使用一个包含 1.42 亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta 称 DINOv2 模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。

马斯克(Elon Musk)在 WSJ 举行的 CEO Council Summit 峰会上表示,他认为有必要开展 AI 业务,与谷歌和微软相抗衡,这可能涉及他的企业帝国的不同部分,其中包括 Twitter。Twitter 可能会是他创建 AI 业务努力的一部分。特斯拉直在使用 AI 来改善其先进的辅助驾驶功能。他说,Twitter 和特斯拉可以成为一家 AI 公司的合作伙伴,有点像微软和 OpenAI 之间的关系。长期以来,这位 Twitter 和特斯拉的老板一直试图引领AI的发展,但时而发现自己被人超越了。马斯克对 AI 方面的进展表达了关切,并呼吁政府进行监管。

微软在 Build 开发者大会上宣布将在未来几个月为 Windows 11 加入 AI 辅助功能 Windows Copilot。Windows Copilot 将以一个独立的窗口展示在屏幕右侧,能根据用户的要求完成多项任务。微软在演示中 Copilot 改变了 Windows 设置、用 Snap Layout 重新安排窗口、总结内容和重写文档,打开应用如 Spotify、Adobe Express 和 Teams。微软没有谈及 Copilot 的隐私和安全问题,如用户文档的内容是否保持私有,其 AI 处理是在本地进行还是通过微软的服务器,聊天记录和上下文信息是否会在会话之间保存,是否会在不同计算机之间同步,等等。更多信息要等到 Windows Copilot 发布之后才知道。

OpenAI CEO Sam Altman、总裁 Greg Brockman 和首席科学家 Ilya Sutskever 通过官方博客呼吁设立监管超级智能的国际机构。“我们最终可能需要类似于 IAEA(国际原子能机构)的东西来进行超级智能方面的努力;任何超过一定能力(或计算等资源)门槛的努力都需要接受国际权威机构的检查,要求进行审计,测试是否符合安全标准,对部署程度和安全级别进行限制,等等。追踪计算和能源使用情况会有很大的帮助,并给我们一些希望,这个想法实际上是可以实现的。作为第一步,公司可以自愿同意开始实施这样一个机构有朝一日可能要求的要素,而作为第二步,各个国家可以实施。重要的是,这样一个机构应专注于减少存在的风险,而不是那些应该留给各个国家的问题,例如定义人工智能应该被允许说什么。”

Meta 宣布了新模型 Massively Multilingual Speech (MMS),能识别和产生逾千种语言的声音。代码托管在 GitHub 上,源代码和模型权重采用 CC-BY-NC 4.0 许可证授权。Meta 称,世界上大约有 7000 种语言,但现有的语音识别模型只能识别其中的约 100 种,原因是此类的模型需要大量的已标记训练数据,而只有英语、西班牙语和中文等少数语言能提供此类数据。MMS 是基于 Meta 在 2020 年发布的 AI 模型,该模型只支持识别约 100 种语言,但能从音频中学习语言模式,不需要大量标记数据。MMS 能识别逾 4000多种语言,预训练模型支持逾 1400 种语言,文本到语音模型支持逾 1100 种语言。

Meta 今年初开源了它的大语言模型 LLaMA,相比之下它的竞争对手 Google 和 OpenAI 都没有公开其最新的大模型。LLaMA 推动了大模型的快速发展,但 Google 和 OpenAI 等对手则批评没有约束的开源方法是危险的。Google 研发副总裁 Zoubin Ghahramani 认为这可能会导致滥用。Meta AI 首席科学家 Yann LeCun 表示 Google 和 OpenAI 对 AI 日益保密的做法是一个巨大的错误,消费者和政府将拒绝拥抱 AI,除非它们不受 Google 和 Meta 等公司的控制。在 AI 领域 Google、微软 和 OpenAI 是最引人注目的明星,但 Meta 也在该领域深耕了近十年。斯坦福研究员 Moussa Doumbouya 利用 LLaMA 的模型生成了有问题的文本,包括如何处理尸体而不被抓住的方法,发表支持希特勒观点的文章。他在私下聊天中认为向公众分发该技术就像“每个人都能在杂货店里买到手榴弹”。LeCun 认为制造和传播虚假信息和仇恨言论早就存在,这是无法阻止的,但平台可以阻止其传播。他相信一个最有活力的生态系统必须是开放的,人人都可以做贡献。

意大利拨款 3000 万欧元,提高最可能被 AI 取代的工人的技能。意大利政府部门的数据显示,16-74 岁人口中有 54% 缺乏基本的数字技能,相比之下欧盟国家的平均比例为 46%。被称为 Fondo per la Repubblica Digitale (FRD)的基金将以两种方式分配 3000 万欧元,其中 1000 万欧元用于提高其工作因自动化和技术创新而面临取代的工人的技能,其余 2000 万欧元用于帮助失业和非经济活动人口发展数字技能。FRD 称,受自动化影响的工作包括运输和物流、后勤和管理、生产、服务和零售部门。

苹果在开发自家 AI 技术之际,已限制使用 ChatGPT 和其他外部 AI 工具。苹果担心员工使用这类程序可能会泄露机密数据。苹果还告诉其员工不要使用微软旗下的 GitHub 的产品 Copilot。苹果的 AI 开发由该公司 2018 年从 Google 挖来的 John Giannandrea 领导。苹果最近还在密切关注 iPhone 应用商店上架的加载生成式 AI 技术的新软件。应用开发商 Blix 曾尝试更新其电子邮件应用 BlueMail,加载一项 ChatGPT 功能,但苹果临时屏蔽了这一更新,理由是有可能向儿童展示不适当内容。苹果曾在 2011 年推出 Siri 语音助手,是 AI 消费应用的早期参与者之一。但在随后几年中,Siri 的发展落后于亚马逊的 Alexa 等语音助手。

OpenAI 发布了免费的 ChatGPT iOS 应用,Android 版本将在晚些时候推出。该应用能与 Web 版本同步,支持基于开源模型 Whisper 的语音输入,将首先在美国推出,然后未来几周逐步推广到其它国家。自去年 11 月底推出以来,ChatGPT 是最受欢迎的 AI 聊天机器人,吸引了上亿用户使用。根据 Similarweb 的估计,ChatGPT 在去年 12 月吸引了约 2.66 亿次访问,到上个月月访问量高达 17.6 亿次。

以 ChatGPT 为代表的生成式 AI 被一部分人视为是版权小偷。目前此类的 AI 并不具有意识,它们是 Gmail 或 Google 文档中的预测文本机器人的高级复杂形式。Google 的机器人能在你输入一个单词后预测短语的后续部分,而 ChatGPT 使用了更庞大的数据集训练,它能预测整个句子、段落或文章。没有人说 ChatGPT 是 C-3PO 或者奇点临近。但我们也不能授予它们作者身份。它们训练使用的数据集是人类作者创造的,这些作者没有得到认可也没有付费和使用授权。从某种意义上说,AI 机器人是原材料打成最小的碎片然后重新利用去形成新产品。

Google 宣布其免费 Jupyter Notebook 环境 Colaboratory (Colab)将加入 AI 辅助编程功能,包括代码补全,用自然语言去生成代码,辅助编程的聊天机器人。Colab 将使用基于 PaLM 2 的代码模型家族 Codey,而 Codey 利用了从外部来源获得授权的高质量代码数据集进行微调,为 Python 和 Colab 特定用途进行了定制。

Reuters/Ipsos 的民调显示,61% 的美国人认为 AI 威胁人类的未来。调查是在 5 月 9 日-15 日进行的,有 4415 名美国成年人参与。结果显示,61% 的人认为 AI 有风险,22% 的人不同意,17% 的人不确定。民调还显示了对待 AI 上的党派差异和宗教差异:特朗普的投票者中有七成对 AI 有更大的担忧,拜登投票者中的比例则是六成;福音派基督徒中有 32% 的人强烈同意 AI 对人类构成威胁,非福音派基督徒则是 24%。民调凸显的另一个问题是不同人对 AI 有着不同的理解,很多人可能没有意识到 AI 在日常生活中已经非常普遍了。

OpenAI 名字里有 Open,一开始也是以非盈利的名义开发 AI ,但自从 2019 年去除非盈利状态之后它就走向了闭源。OpenAI 的聊天机器人 ChatGPT 使用的模型 GPT-3.5 并没有开源。据 The Information 援引知情人士的消息报道,OpenAI 准备发布一个新的开源模型。看起来 OpenAI 在目睹了以 LLama 为代表的开源大模型(但商业使用受限)短时间内取得惊人进展之后重新对开源产生了兴趣。

OpenAI CEO Sam Altman 呼吁美国国会为先进 AI 系统制定许可和安全标准,目前两党议员正开始推动对消费者使用的强大新 AI 工具进行监管。Altman 周二在参议院小组委员会听证会上谈到 AI 技术时说,他理解人们担心 AI 会如何改变人们的生活方式,如果这项技术出了问题,可能就会是很大的问题。他呼吁成立一个新的机构,对能力超过一定规模的项目颁发许可,并可以取消许可证,确保符合安全标准。他说,与此同时,OpenAI会预先测试并不断更新其工具,以确保安全。他认为,让公众广泛使用这些工具,实际上有助于该公司识别和降低风险。

AI 模型的训练需要大量的算力,而美国的技术出口限制让中国无法进口最先进的硬件。为了集中力量办大事,北京市发布了《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,意见截止日期 19 日。征求意见稿提出,“加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等,向在京高校院所和中小企业公布一批优质算力供应商。将新增算力建设项目纳入算力伙伴计划,加快推动海淀区“北京人工智能公共算力平台”,朝阳区“北京数字经济算力中心”等项目建设,快速形成规模化先进算力供给能力,支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发...”

美国专利商标局(USPTO)正征求与 AI 技术和发明权相关的意见。USPTO 询问 AI 如何应用于发明创造,以及它在发明创造中的贡献是否有资格被视为是共同发明人。如果 AI 系统对一项发明的贡献与被视为共同发明人的人类处于同等程度,那么根据当前的专利法该发明是否可授予专利?是否存在一种情况 AI 对发明的贡献不属于任何实体因此属于公有领域的一部分?搜索巨人 Google 递交了它的意见书,认为根据美国专利法 AI 技术不应该视为发明人。

AI 公司 Anthropic 宣布它类似 ChatGPT 的语言模型 Claude AI 能在一分钟内分析整本书。它将 Claude 的上下文窗口扩大到了 100,000 tokens,或相当于 7.5 万字。Claude 是类似 OpenAI GPT-4 的大语言模型,tokens 是简化 AI 数据处理的最小文本单元,上下文窗口类似短期记忆——大模型一次能处理的输入数据。更大的上下文窗口意味着大模型能一次性处理图书或持续数小时或数天的漫长对话。Anthropic 称,普通人阅读 7.5 万字需要大约 5 小时,之后还需要时间消化、记忆和分析,Claude 能在不到一分钟内做到。《了不起的盖茨比(The Great Gatsby)》有 72K tokens,他们将其输入 Claude,修改了一行字,将原书中的叙述人 Nick Carraway 的背景改为“在 Anthropic 从事机器学习的软件工程师”,让模型找不同。Claude 花了 22 秒钟找到了差异。

Google 发布了实验性的 AI 文本音乐生成工具 MusicLM。用户现在可通过 AI Test Kitchen 应用试用。Google 是在今年初宣布了 MusicLM,该模型使用了 28 万小时的音乐数据集进行训练,学习从复杂的文本描述中生成连贯的歌曲。当时 Google 没有公开测试,原因是需要解决 AI 生成音乐相关的伦理问题。过去几个月 Google 称它一直和音乐家合作,举办了研讨会,以“弄清楚这项技术如何赋权创意过程”。结果是公开的 MusicLM 版本无法生成特定艺术家或特定音乐作品的音乐。