solidot新版网站常见问题,请点击这里查看。
OpenAI 正式公布了它的多模态大语言模型 GPT-4。GPT-4 是多模态模型,这是和 GPT-3 的一个显著区别,它的输入输出不再局限于文本,可以是图像或者是视频。简单对比的话 ,GPT-4 和 GPT-3.5 的差别可能很小,OpenAI 称当任务的复杂性达到足够的阈值,GPT-4 优势就会非常明显,它更可靠,更富有创造性,能处理更细微的指令。GPT-3.5 有 1750 亿个参数,GPT-4 的情况未知,可能更多,它的数据训练集仍然停留在 2021 年 9 月,但它在测试中的表现远胜于 GPT-3.5。OpenAI 称它在律师考试中的得分能进入前 10%,而 GPT-3.5 是后 10%;在生物奥林匹克竞赛 USABO Semifinal 2020 和 GRE 写作中能接近满分。但它也存在与 GPT-3.5 类似的局限性,就是会产生错误的答案会胡说八道。OpenAI 演示了 GPT-4 处理税务问题、图像识别等问题的能力。目前 GPT-4 还没有开放给公众试用。

皮尤研究中心(Pew Research Center)调查了 11,004 名美国成年人对周围产品使用 AI 的认识。这次调查是在去年 12 月进行的,当时 ChatGPT 还没有成为最热门的科技话题。调查发现,一个人受教育程度越高,或家庭收入越高,那么更有可能识别 AI。一个人使用互联网的次数越多,也越可能认识到 AI 的使用。在被调查的人中,约四分之一听过 AI,15% 从未听过。对于 AI 可能带来的隐患,38% 的人担忧多于兴奋,15% 的人兴奋多于担忧。人们对 AI 的了解越深入,那么他们就越可能兴奋不已。

提供机器人律师服务的创业公司DoNotPay 被芝加哥律师事务所 Edelson 起诉无证执业。DoNotPa 的服务被认为将减少客户聘请律师的机会,对律所的生存构成了挑战。Edelson 在诉状中称,对客户来说,DoNotPay 不是一个机器人,不是律师,也不是一个律所。DoNotPay 没有法学学位,不受任何司法管辖,也没有任何律师的监督。DoNotPay 成立于 2015 年,最初是一款帮助客户处理停车罚单的应用,后来扩大了业务范围,使用 AI 帮助客户处理一系列法律服务。DoNotPay 否认了指控,表示将会积极为自己辩护。

单机版大语言模型正快速向我们走来。自 ChatGPT 发布以来,一些人就对 AI 模型内置的对敏感话题的限制以及需要为使用 API 向 OpenAI 付费而感到沮丧。大语言模型的开源方案也存在,但距离普通人很遥远,它们或者需要大量的 GPU 显存和存储空间,或者在消费级硬件上达不到 GPT-3 级别的性能。但 Meta 的 LLaMA 改变了这一现状。2 月 24 日 Meta 宣布了它的大语言模型 LLaMA,参数规模在 70 亿到 650 亿之间,它还没有开源,只是提供给一部分研究人员预览。但在 3 月 2 日有人通过 BT 泄露了 LLaMA。随后开源社区迅速围绕 LLaMA 进行优化和开发,使其能运行在普通人能访问的硬件上。3 月 11 日 Georgi Gerganov 创建了能运行在 M1 Mac 的 llama.cpp;12 日 Artem Andreenko 在 4GB 内存的树莓派 4 上运行 LLaMA 7B(生成速度 10 sec/token);13 日有人设法在 Pixel 6 手机上运行 llama.cpp;同一天斯坦福研究人员发布了 LLaMA 7B 的优化版 Alpaca 7B,性能接近 OpenAI 的 text-davinci-003 但硬件需求低得多。

两年前,两名 Google 研究员开始力促公司发布一款聊天机器人,它依托的技术在当时是所向披靡的。他们开发的那款对话式应用可以自信地进行哲学辩论,拿它最喜欢的电视节目打趣,还能即兴创作有关牛和马的谐音梗。 据知情人士说,两名研究员告诉同事们,像他们开发的这种由最新 AI 驱动的聊天机器人将彻底改变网络搜索和人机交互方式。他们催促 Google 允许外部研究人员使用该聊天机器人,尝试将其整合到虚拟助手 Google Assistant 中,随后还要求 Google 进行公开演示。Google 高管多次回绝了他们,至少有一次说这个项目不符合公司关于 AI 系统安全性和公平性的标准。两人在 2021 年辞职创业从事于类似技术。Google 帮助开创了现代人工智能时代,而如今,它对这项技术的谨慎做法在一位宿敌的挺进下面临考验。

作为与微软广泛合作的一部分,通用汽车正探索将 ChatGPT 带到汽车上。通用汽车副总裁 Scott Miller 上周在接受采访时表示,ChatGPT 将无处不在。Miller 称,通过 ChatGPT 车主可以查询汽车手册中使用特定功能的信息,给车库门编码,或从日历中导入日程安排。汽车司机的 AI 助手将不同于其它聊天机器人如 Bing Chat,通用正努力在 ChatGPT 使用的大语言模型上加入一个汽车特定层。

今天回顾过去,创业公司 Stability AI 去年 8 月开源文本图像生成模型 Stable Diffusion 代表着一个重要时刻,它推动了图像生成模型的创新,这一过程至今还在持续。尤其是最近 ControlNet 的出现让 Stable Diffusion 在能力上领先于竞争的模型 Midjourney 和 DALL-E。 现在,大语言模型也迎来它们的 Stable Diffusion 时刻。ChatGPT 使用的 GPT-3 大语言模型在构建和运营上比图像生成模型更昂贵。GPT-3 由 OpenAI 构建和控制,没有开源,即使能获得 GPT-3 模型你也无法在商用级硬件如英伟达的 A100 GPU 上运行。但 Facebook 的 LLaMA 模型改变了这一切,你甚至可以在一台 MacBook 电脑上运行 LLaMA。

阿里巴巴、亚马逊 AWS、AMD、苹果、Arm、Cerebras、Google、Graphcore、Hugging Face、英特尔、Meta 和英伟达等行业巨头联合宣布了一个开源机器学习编译器生态系统 OpenXLA,源代码托管在 GitHub 上,包括了 XLA、StableHLO 和 IREE 等库。OpenXLA 旨在消除机器学习基础设施中的碎片化和孤立性问题,改进相关模型的可移植性、提高效率和加速产品化。

Heise 报道,微软德国首席技术官A ndreas Braun 在一场 AI 活动中提到,将于下周推出 GPT-4,“我们将在下周推出 GPT-4,它将是一个多模态模型(multimodal models),能够提供完全不同的可能性,比如支持视频。”Braun 将大语言模型(LLM)称为“游戏规则改变者”,因为它们能够使得机器以统计学的方式理解人类的自然语言。此外他表示,这项技术已经能够基本上“适用于所有语言”,例如用户可以用德语提问,并得到意大利语的答案。微软是 OpenAI 的合作伙伴。在 ChatGPT 正式发布之前,GPT-4 已经经过几个月的测试和微调,几乎已经准备就绪。三位了解 OpenA I内部运作的人士表示,该模型原本计划于今年年初发布。

在 Facebook 为代表的社交网络发展的黄金时期,Google 一度陷入恐慌,担心社交网络会吞噬一切。时任 CEO Larry Page 下令将员工奖金和社交上的成功挂钩,将所有服务都整合社交功能。结果是一团糟,这次强制性整合社交以惨败告终,Google 最终从其服务中移除了 Google+ 并将其关闭。十年前的失败剧本并没有阻止 Google 在新一轮恐慌中将其作为参考模板:搜索巨人据报道计划在所有服务中整合类似 ChatGPT 的功能。Google 在很多年里都是 AI 技术的领导者,由于担心推出不完美的产品,Google 的 AI 技术都关在实验室里。ChatGPT 的出现并在短时间里吸引了 1 亿用户,Google 不再被视为 AI 的领导者,它的股价也在股市遭受惩罚。

自 iPhone 以来,还没有一种产品像 ChatGPT 那样引发如此强烈的反响。所有人都感到焦虑不安。Google 也许比其他任何公司都更有理由对 AI 聊天机器人既爱又恨。它已宣布进入“紧急状态”,因为聊天机器人的能力可能对其 1620 亿美元的广告业务造成打击。但 Google 的云计算业务也可能是赢家,因为目前的 AI 聊天机器人是运行在云端。对网络出版商来说,一个严峻的挑战是当聊天机器人从网站上获取信息,但送到网站的访问者变少时,网站应该怎么办?《华尔街日报》已表示,用该报发表的文章来训练 AI 系统需要获得其许可。

距离 3 月 16 日百度推出类 ChatGPT 聊天机器人还有一周时间,该公司员工表示,他们正抓紧时间赶在发布最后期限前完成任务,而被称为文心一言(Ernie Bot)的 AI 聊天机器人仍难以完成一些基本功能。为了赶上发布,数百名员工在夜以继日地工作。一些员工说,他们没有足够的时间来打造一款功能完善的产品。百度计划分阶段推出该产品,首先向部分用户开放公测。知情人士称,春节假期过后,李彦宏要求包括自动驾驶部门在内的整个公司的 AI 研究团队将他们最强大的计算机芯片英伟的 A100 支援给文心一言的开发。去年年底实施的美国芯片制裁令禁止中国公司购买新的 A100。

Google 和柏林科技大学的一组研究人员透露了可用于控制机器人的多模态 Embodied 视觉语言模型(VLM)PaLM-E,有 5620 亿个参数,融合了视觉和语言处理。当用户发出“高阶指令”,如“将抽屉里的米片拿过我”, PaLM-E 能为装备机械臂的移动机器人平台生成一个行动计划,并自行执行。它执行不同任务不需要预先或重复训练。消除数据预处理或注释给予了机器人更强大的自主控制。PaLM-E 是基于 Google 现有的大语言模型 PaLM,通过加入感觉信息和机器人控制使其有具身性(embodied) 。它能与处理语言的相同方式理解感觉信息。

Meta 最近宣布了它的大语言模型 LLaMA,其参数规模从 70 亿到 650 亿参数不等,该模型的一大优势是能运行在单张显卡上。Meta 还没有开源 LLaMA,而是通过邀请制的方式出于研究的目的将源代码提供给社区。但 Meta 控制 LLaMA 访问的努力显然是徒劳的,有匿名用户通过 BT 种子公开了 LLaMA-65B——有 650 亿个参数的 LLaMA,容量为 220GB。它已被确认是真实的,已有用户在单张显卡上运行了 LLaMA,结果相当出色,这位用户使用的显卡是服务器级别的英伟达 A100 80GB。虽然模型遭到泄露,Meta 表示会继续与挑选的研究人员共享 LLaMA。

Google 宣布它正朝着支持一千种语言的大 AI 模型的目标前进。搜索巨人是在去年 11 月宣布千种语言倡议(1,000 Languages Initiative),旨在构建一个机器学习模型能翻译世界上最常用的 1000 种口语,给全世界居民带来更大的包容性。本周一,Google 分享了其 Universal Speech Model(USM)的更多信息。USM 是一个语音模型家族,有 20 亿个参数,使用 1200 万小时的语音和逾 300 种语言的 280 亿文本语句训练。Google 研究人员在预印本平台 arXiv 上发表了论文《Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages》,利用无标签多语言大数据集预训练模型,在较小的有标签数据集上微调,使之能识别代表性不足的语言。USM 已被 YouTube 用于生成隐藏式字幕,它还支持自动语音识别(ASR),自动检测和翻译语言,包括英语、普通话、阿姆哈拉语、宿务语、阿萨姆语等。现在 USM 支持逾 100 种语言,将作为一个基础去构建更庞大的语言系统。

瑞银估计,OpenAI 的 AI 聊天机器人 ChatGPT 在今年 1 月吸引了逾一亿用户。在此之后,更多初创公司试图将这一热潮带入商业市场,以 ChatGPT 语言模型为基础建立企业应用,或利用类似的生成式 AI 功能。根据市场分析机构 PitchBook 的数据,去年全球风投通过 78 笔交易向开发生成式 AI 软件的初创企业投入了 13 亿美元。投资规模接近过去五年类似初创企业获得的资金总额,而且是在风投交易普遍放缓的情况下发生的。

当 OpenAI 在 2022 年 11 月发布 ChatGPT 时它并没有预料到这个 AI 聊天机器人会取得难以想象的成功。OpenAI 内部将之视为研究预览,旨在收集公众的反馈消除部分缺陷。参与开发 ChatGPT 的科学家 Liam Fedus 说,我们不想将其夸大为一次巨大的基础性突破。MIT 科技评论采访了 OpenAI 的科学家以及联合创始人 John Schulman,揭示 ChatGPT 的开发过程和技术细节,介绍 ChatGPT 是如何构建的。自去年 11 月以来,OpenAI 已经多次更新了 ChatGPT,主要是通过对抗性训练阻止用户诱骗聊天机器人绕过限制——这种做法被称为越狱。 对于 ChatGPT 的巨大成功,OpenAI 团队也有几分感到不解,因为 ChatGPT 使用的技术都不是新的,ChatGPT 使用了微调版的 GPT-3.5,而 GPT-3.5 是 2020 年发布的 GPT-3 的更新版,OpenAI 在 2022 年 1 月发布了微调版 GPT-3.5 的预览。相关 API 也早就发布了,不过这些都不是面向公众的。

开源 AI 文本图像模型 Stable Diffusion 的开发商 Stability AI 发布了 Stability for Blender,为开源 3D 设计软件 Blender 提供了官方的生成式 AI 插件,允许 Blender 用户直接在软件内使用文本描述生成图像。Blender 有第三方的 Stable Diffusion 插件,而官方的插件应该会表现更好,它还承诺会定期更新。该插件还允许用户使用现有的渲染创建图像,无需重建场景的情况下实验不同风格。Stability for Blender 免费,使用插件甚至无需独显,只需要联网和获得 Stability API 密钥。

电邮应用 BlueMail 在最新更新中引入了生成式 AI,但苹果决定推迟批准应用的更新,理由是担心 AI 可能生成少儿不宜的内容。文件显示,苹果应用审查小组表示,由于该应用可能产生不适合所有受众的内容,BlueMail 应将其年龄限制提高到 17 岁及以上,或进行内容筛查。苹果公司设在 17 岁及以上用户的年龄限制针对的是可能包含攻击性语言、性内容和提及毒品等内容的应用程序类别。BlueMail 开发商 Blix 联合创始人 Ben Volach 表示,这项要求不公平,其他使用类似 AI 功能的应用软件没有年龄限制,并已开放苹果公司用户使用。

微软研究人员在预印本网站 arXiv 发表论文,介绍了它的多模大语言模型 Kosmos-1,能理解图像内容,解决视觉难题,执行视觉文本识别,通过视觉 IQ 测试,理解自然语言指令。研究人员认为,集成文本、音频、图像和视频等不同输入模式的多模 AI 模型是构建通用 AI(AGI)的关键一步。研究人员称,作为智能的基本组成部分,多模感知是实现 AGI 所必不可少的。Kosmos-1 能分析图像并回答关于相关问题,能从图像中读取文本,为图像写标题,以 22-26% 的准确率完成视觉 IQ 测试。微软使用来自 Web 的数据训练 Kosmos-1,包括 The Pile(800GB 容量的英文文本资源)和 Common Crawl。训练后通过一系列测试去评估了 Kosmos-1 的能力。微软称,在众多测试中,Kosmos-1 的表现超过了目前最先进的模型。