solidot新版网站常见问题,请点击这里查看。
AI 创业公司 Stability AI 宣布其最新一代的文本图像模型 Stable Diffusion 3 开放预览。感兴趣的用户可以申请加入等候名单。Stability AI 称开放预览是为了在正式发布前收集与性能和安全性相关的用户反馈。Stable Diffusion 3 模型的参数规模从 8 亿 到 80 亿不等,其架构组合了 diffusion transformer 和 flow matching,技术报告将在晚些时候公布。

在引发争议之后 Google 周四暂停了 Gemini 的图像生成功能。在这之前用户在社交媒体抱怨,Google 的 AI 工具将历史人物如华盛顿生成为有色人种。Google 表示它将很快发布一个改进版本。Gemini 产品高级总监 Jack Krawczyk 称,历史背景对 AI 聊天机器人而言有更多细微玄妙之处,他们将对其展开进一步的调整。

李开复的 AI 初创公司 01.AI 去年 11 月跃居开源人工智能系统能力排行榜的榜首。它的部分技术是基于 Meta 公司开源的大模型 LLaMA。李开复对此在邮件中表示,他的初创公司的人工智能模型是建立在 LLaMA 上的,就像“其他大多数 AI 公司一样”,并补充说,使用开源技术是一种标准做法。他说,他的公司使用自己的数据和算法,从零开始训练人工智能模型。这些都是 01.AI“表现出色”的“主要决定因素”。Meta 发言人表示,公开分享该公司的 AI 模型有助于传播其价值观和标准,进而有助于确保美国的领导地位。一位投资公司的合伙人称,中国公司从零开始建立的 AI 模型“不是很好”,所以许多中国公司经常使用“西方模型的微调版”。

OpenAI 的名字中有 Open,但它的大模型不开放也不开源,如今开源大模型主要来自于巨头如 Meta 和 Google。Google 宣布了它最新的开放大模型 Gemma。Gemma 由 Google DeepMind 等团队开发,是轻量级的大模型,有两个版本:Gemma 2B 和 Gemma 7B。Google 称这两个版本在各自的参数规模上展现了最佳的性能,甚至超过规模更大的模型。在基准测试中,Gemma 7B 的得分与目前最优秀的开源大模型 Mistral 7B 差不多或更好。

苹果准备推出类似 GitHub Copilot 的辅助编程工具,使用生成式 AI 帮助补充完成代码。该工具将作为下一个 Xcode 大版本的一部分推出,苹果已在该项目上工作了一年时间,预计最快今年推出,苹果最快在 6 月举行开发者大会 WWDC 上宣布这一新工具。微软的 GitHub Copilot 是在 2021 年推出的,能根据自然语言查询生成代码。

易于使用的模型管理应用 Ollama 发布了 Windows 预览版,Windows 用户可以在本地创建和运行大模型。目前该版本只支持英伟达的 GPU,需要 CPU 支持 AVX 和 AVX2 等指令集。开发者表示对 AMD GPU 的支持还在开发之中,如果用户有能力可以直接从源码去构建支持 AMD GPU 的版本。

社媒平台 Reddit 与一家 AI 公司签订合同使用其平台内容训练模型。该 AI 公司未具名,Reddit 未来可能会签署更多类似的合同。Reddit 此举可能会在其用户中间再次引发争议。Reddit 不生产内容,它的所有高质量内容都是由其用户产生和管理的。去年 Reddit 宣布对 API 访问收费时曾引起社区的大规模的抗议。据彭博社报道,最新的交易根据年化基础价值约 6000 万美元。

美国专利商标局(USPTO)拒绝了 OpenAI 的 GPT 商标申请,认为 GPT 属于描述性术语,不能注册为商标。GPT 代表 Generative pre-trained transformers,是一种深度神经网络架构,基于 Google 研究员在 2017 年公布的深度学习架构 Transformers。OpenAI 申请商标旨在禁止其他人将其模型称为 GPT X 或后缀为 GPT 的名字。USPTO 去年 10 月已经拒绝了一次,这次是最终裁决,它认为 GPT 没有达到注册商标的标准。而 OpenAI 认为它让 GPT 这一名字变得家喻户晓。USPTO 指出 GPT 已在其他情景被其他公司使用。

Google 的大模型以及 AI 聊天机器人都采用 Gemini 这一名称。目前的大模型版本号是 1.0,它的付费版叫 Gemini Advanced,用户可以访问 1.0 Pro 和 1.0 Ultra——其中 1.0 Ultra 是类似 GPT-4 的规模最大的模型,而 1.0 Pro 是类似 GPT-3.5 的中等规模模型。现在 Google 宣布了下一代的 Gemini 1.5,表示其中等规模模型 1.5 Pro 在性能上接近了上一代最大模型 1.0 Ultra,上下文窗口能达到 100 万 tokens,这意味着 1.5 Pro 能一次性处理 1 小时视频、11 小时音频、逾 3 万行代码,或逾 70 万单词。Gemini 1.5 是基于 Transformer 和 MoE 架构,感兴趣的用户需要申请加入等待名单。

OpenAI 宣布了视频生成模型 Sora,并公布了一份相关的技术报告。Sora 能生成最长 1 分钟的高清视频,OpenAI 公布了数十个示例,展现了其惊人的文本生成视频能力。大模型使用 text tokens 统一代码、数学和自然语言的不同文本形式,而 Sora 使用了 visual patches 统一了所有类型的视觉数据。OpenAI 表示,Sora 能够根据文本指令生成长达 60 秒的视频,同时保持视觉质量并遵守用户提示。Sora 可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora 还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。除了能仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。Sora 仍在开发中,存在明显“弱点”,特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。

微软正在为 Windows 11 开发类似 DLSS 的 AI 上采样技术。在现有的上采样技术中,DLSS 是英伟达私有的技术,且只支持英伟达显卡;AMD 的 FSR 为开源的,基本支持所有平台;英特尔的 XeSS 类似 FSR 也不限于支持自家的 Intel Arc 显卡。微软将其上采样技术描述为利用 AI 技术让支持的游戏运行更流畅细节更丰富。

2006 年,德国 AI 研究员 Marcus Hutter 宣布了人类知识无损压缩 Hutter 奖,总奖金 5 万欧元。2020 年奖金金额提高到 50 万欧元,而 Hutter 如今在 Google DeepMind 担任高级研究员。该奖项旨在鼓励 AI 研究,组织者认为文本压缩和 AI 是一个等价问题。用数学家 Gregory Chaitin 话说,压缩就是理解。压缩的对象是一个特定版本的英文维基百科文本,一开始是 100MB 大小,2020 年提高到 1GB,规则是每改进 x% 就获得等价比例的奖金,如改进 1% 就奖励 5 千欧元。Hutter 奖此前颁发了五次,其中四次是颁给了 Alexander Ratushnyak。去年 7 月纽约高频/算法交易和金融服务基金的量化开发者 Saurabh Kumar 将 10 亿字符压缩到 114,156,155 字节,压缩率 11.41%,比之前的记录改进了 1.04%,因此赢得了 5187 欧元奖金。时隔半年之后,Kaido Orav 的压缩程序 fx-cmix 将 10 亿字符压缩到 112 578 322 字节,比去年的纪录改进了 1.38%,获得了 6911 欧元奖励。

搜索巨人热衷于改名,现在它的生成式 AI 聊天机器人从 Bard 改名为 Gemini。相比 OpenAI 的 ChatGPT,Gemini 和 Bard 一样都不是那么容易与 AI 联系起来。相比 OpenAI 的免费版 GPT-3.5 和付费版 GPT-4(或 ChatGPT 和 ChatGPT Plus),Gemini 的付费版叫 Gemini Advanced,用户可以访问 Pro 1.0 和 Ultra 1.0——其中 Ultra 1.0 是类似 GPT-4 的大模型的首个版本,而 Pro 1.0 是类似 GPT-3.5 的规模较小的模型的首个版本。

来自埃及、瑞士和美国的 3 名学生利用 AI 技术破译了 2000 年前烧焦的古代卷轴的文字,为揭开考古学最大谜团之一作出了巨大贡献。他们在维苏威火山挑战赛中胜出,并分享了 70万 美元大奖。维苏威火山挑战赛旨在利用现代科技解码公元79年维苏威火山喷发后被埋在地下、现已碳化的赫库兰尼姆城图书馆的古代卷轴。当天公布的获奖作品展示了超过 1 5列文本中的数百个单词,相当于整个卷轴单词的 5% 左右。获胜者通过扫描这卷莎草纸训练他们的机器学习算法,从而揭示了一部不为人知的哲学作品。这为 AI 技术完整破译其余卷轴铺平了道路。研究人员表示,这可能对人们理解古代世界产生革命性的影响。

Hugging Face 发布了开源自定义 AI 聊天助手工具。Hugging Face 类似 GitHub,但托管的是 AI 代码和框架。Hugging Chat Assistants 类似 OpenAI 的自定义 GPT Builder,但不同的是 GPT Builder 完全依赖于 OpenAI 的私有大模型 GPT-4 和 GPT-4 Vision/Turbo,而 Hugging Chat Assistants 可选各种 AI 开源模型,从 Mistral 的 Mixtral 到 Meta 的 Llama 2,而且它还是免费的。

研究人员在预印本平台 arXiv 上发表论文,测试了 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 2,以及 Meta 的 Llama 2 等流行大模型在战争游戏中的行为,发现 AI 聊天机器人倾向于选择核攻击。研究人员模拟了三种场景:入侵,网络攻击,以及没有冲突的中立。每一轮 AI 为其下一步行动能采取的行动提供推理,然后从 27 个行动中进行选择,包括开始正式和平谈判,实施贸易限制,升级全面核攻击。在模拟中,AI 倾向于投资军事和升级冲突风险,其中 GPT-4 的基础版本最暴力。研究人员认为,不应该信任 AI 做出的战争与和平的重大决策。

扎克伯格(Mark Zuckerberg)在公司财报电话会议上解释了为什么 Meta 要开源大模型如 Llama。他说,开源有助于改进模型,Meta 要将模型转化为产品还有很多工作要做,开源模型总是会存在的,而成为开源模型的领导者则有很多优势,同时也不会消除产品的差异性。更具体的说:开源软件通常更安全运行效率更高,因为有来自社区的持续反馈和审查,而改进安全和效率能让人人受益;开源软件能成为行业标准,在 Meta 开源模型上进行的创新也能更容易的整合到 Meta 自己的产品中;开源更受开发者和研究人员的欢迎,因此也有助于招募优秀人才。

Google Bard 聊天机器人加入了 AI 图像生成功能,在功能上赶上了主要竞争对手 ChatGPT Plus。Bard 用户能使用 Google Imagen 2 文本图像模型生成图像,现在 Bard 使用的大语言模型 Gemini Pro 集成了图像生成。ChatGPT Plus 的大模型是 GPT-4,通过集成 DALL-E 3 文本图像模型而允许用户直接生成图像。但 Bard 的图像生成功能不需要付费,而 ChatGPT Plus 是付费订阅服务。

马斯克(Elon Musk)的 X 屏蔽了对斯威夫特(Taylor Swift)的搜索,此前使用 AI 创建的这位流行歌星的露骨色情在该平台上广泛传播。这起事件是社媒如何艰难对付所谓深度伪造内容的最新例子:滥用 AI 生成的逼真图像和音频,在未经本人同意的情况下描绘知名人士处于有失体面或误导性的情境。目前在 X 上搜索 Taylor Swift 或 Taylor AI 等关键词都不会返回任何结果,意味着有关斯威夫特的合法信息也都无法搜索到。X 的业务运营主管 Joe Benarroch 表示这是一项临时行动。

苹果 iOS 17.4 的首个 Beta 版本中发现了与大语言模型相关的代码。苹果代码中包含了名叫 SiriSummarization 的私有框架,能调用 OpenAI 的 ChatGPT API。苹果不太可能会在正式版本中使用 ChatGPT 支持其 AI 功能,它可能是在测试自己的大模型,然后与 ChatGPT 的结果进行对照。iOS 17.4 代码显示苹果在测试四种不同的大模型,其中之一是此前披露过的 Ajax。苹果在测试两个版本的 AjaxGPT,其中之一在设备上进行处理,另一个可能是云端。