solidot新版网站常见问题,请点击这里查看。
Linus Torvalds 与 Verizon Open Source Program Office 负责人 Dirk Hohndel 谈论了近期火热无比的 AI。Torvalds 讽刺的说,“看起来很搞笑!也许我会被 AI 模型取代!”Hohndel 认为今天的 AI 只是一种更强大的自动修正工具。Torvalds 认为需要再等十年才能知道 AI 会走向何处。Torvalds 已经注意到 AI 狂热对内核的影响——作为 AI 热的最大受益者英伟达公司,其开发者与内核开发者之间的沟通更频繁,该公司正在改进内核的内存管理,因为它需要 Linux 更高效的运行 AI 大模型。Torvalds 对 AI 产生的错误信息表达了谨慎,Hohndel 开玩笑的说这是美丽科学,“美丽科学进,美丽科学出。”

微软亚洲研究院发布了 VASA-1 模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语,提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。

美国空军试飞院和 DARPA 宣称在机器学习上取得突破,它演示了 AI 软件控制的 F-16 战斗机能与人类飞行员展开近距离缠斗。演示是基于 X-62A VISTA,该试验机是修改版的 F-16 战斗机,集成了飞行模拟器,能让 AI 或者称为机器学习代理(ML-Agents)控制飞机。AI 首次驾驶 X-62A 是在 2022 年 12 月,2023 年 9 月 AI 驾驶的 X-62A 与人类驾驶的 F-16 进行了模拟空战。DARPA 认为,X-62A 团队的成就将被视为类似 AlphaGo Zero 对国际象棋、将棋和围棋的影响,作为军事和商业应用的自主驾驶验证。

Meta 发布了 80 亿和 300 亿参数版本的 Llama 3 模型,有 4050 亿参数的版本还在训练之中,将在未来几个月发布,将支持多模和多种语言间的交流,以及更长的上下文窗口。Llama 3 是开放模型,源代码和权重托管在 GitHub 和 Hugging Face 上。Meta 还开放了它的 AI 聊天服务 Meta AI,类似 OpenAI 的 ChatGPT,访问 Meta.ai 也无需注册,但如果要保留聊天记录需要登陆。Meta AI 支持美国、澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦等国家和地区的用户访问,可能因为欧盟的法律限制该服务目前不对欧盟用户开放。

印度总理莫迪(Narendra Modi)接受该国亚洲国际新闻社(ANI)采访时表示利用 AI 制定了 25 年发展蓝图。他的团队收集了 150 万人的意见,然后用 AI 精炼和分类。莫迪正寻求连任,竞选第三个总理任期,预计会轻松获胜。他没有透露发展路线图的细节,表示会在大选之后实施。他领导的印度人民党周二公布了竞选宣言,承诺利用 AI 打击非法毒品贸易,改善交通管理。其中包括投资 12.4 亿美元支持 AI 发展,构建基础设施,建造至少有 1 万个 GPU 的超算,以及推动构建本土大模型,等等。

中科院深圳先进技术研究院、北大、中科大以及零一万物等学术机构和企业的研究人员最近推出了 COIG-CQIA 中文高质量指令微调数据集,旨在为中文自然语言处理社区提供高质量且符合人类交互行为的指令微调数据。他们的测试发现弱智吧的语料表现最出色。论文主要作者、深圳先进技术研究院研究生白岳霖澄清,他们只使用了弱智吧的标题,没有使用用户评论,“因为我们的目标是构建符合大模型指令微调质量需求的数据,而贴吧中网友的评论通常不适合直接作为微调数据,因此我们并没有将‘弱智吧’网友的评论纳入我们的数据中。”论文通讯作者、加拿大滑铁卢大学博士生张舸进一步解释:“‘弱智吧’中网友们绞尽脑汁想出来的‘弱智问题’,的确为大模型提供了角度清奇的高质量指令。但是帖子的回答,却有很多冒犯性表述甚至事实性错误,许多回答就是抖机灵、玩梗的,而GPT-4的回答基本上都‘很正经’,经过人工筛选基本上能得到较为可靠的回答。”

法国 AI 创业公司 Mistral 宣布了其最新的开放大模型 Mixtral 8x22B,公布的测试显示它是目前最先进的开放模型。Mistral 称 8x22B 是真正开放的模型,使用 Apache 2.0 许可证,允许任何人不受限制的使用。它是一种稀疏 Mixture-of-Experts (SMoE)模型,有 1410 亿参数,但活跃参数仅为 390 亿,在其规模下提供了无与伦比的成本效率。Mixtral 8x22B 的优点包括:精通英语、法语、意大利语、德语和西班牙语,具有强大的数学和编码能力,原生能函数调用,64K 令牌上下文窗口。

微软亚洲研究院的中国研究人员周二发布了一个新的 AI 模型 WizardLM-2-7B,权重发布在 Hugging Face 平台上。但几小时后微软就将其从平台上移除。研究人员解释说,原因是他们意外错过了微软发布新模型前要求进行的安全测试步骤。一位知情人士表示,微软的 AI 政策要求,在发布任何 AI 模型前,必须首先获得公司委员会 Deployment Safety Board 的批准,该委员会将测试模型是否能执行有害任务,如生成暴力或令人不安的内容。WizardLM-2-7B 模型能完成文本生成、代码建议、翻译不同语言,或解决数学问题等任务。

今天流行的开源大模型主要由 Meta 和 Google 之类的巨头发布,而 OpenAI 等则转向了闭源,此外中国很多 AI 公司的大模型是在 Meta 的 Llama 开源模型基础上开发的。在深圳举行的 Create 2024 百度 AI 开发者大会上,百度 CEO 李彦宏站在了 OpenAI 闭源这边。他认为,开发者通过文心 4.0 降维裁剪出来的更小尺寸模型,要比直接拿开源模型调出来的模型,同等尺寸下效果明显更好;同等效果下,成本明显更低。“大家以前用开源觉得开源便宜,其实在大模型场景下,开源是最贵的。所以开源模型会越来越落后。”但开源模型一直在发展中,并非停滞不前。

奥特曼系列版权所有者日本圆谷制作披露,中国法院审判了一起与 AI 生成奥特曼相关的版权诉讼,判处被告侵权。去年中国运营商的网络服务中发现了酷似奥特曼的由生成式 AI 制作的图像。奥特曼中国代理商认为这是未经许可让 AI 学习版权作品后生成的图像,要求相关运营商停止服务及赔偿损失,并于今年 1 月提起了诉讼。广州互联网法院 2 月 8 日认定被告侵犯著作权。要求被告赔偿损失人民币 1 万元和防止图像生成的再度发生。

斯坦福公布了 2024 年 AI 指数报告:AI 在图像分类、视觉推理和英语理解等方面打败了人类,但在竞赛数学、视觉常识推理和规划等更复杂任务上不如人类;2023 年科技行业的企业发布了 53 个值得注意的机器学习模型,学界只发布了 15 个,学界和业界合作发布了 21 个;OpenAI 的 GPT-4 模型训练费用预计为 7800 万美元,而 Google Gemini Ultra 模型的计算成本约为 1.91 亿美元,先进模型的算力投资急剧上升;美国是先进 AI 模型的主要来源国,2023 年美国发布了 61 个先进的大模型,而欧盟是 21 个,中国是 15 个;美国的 AI 相关监管法规在 2023 年有 25 个,而在 2016 年只有 1 个;Ipsos 的调查显示认为 AI 在 3-5 年内显著影响生活的人的比例比 60% 上升到 66%,皮尤的数据显示 52% 的美国人表示对 AI 更感到担忧而不是兴奋,

Medium 通知用户,其付费服务 Partner 禁止使用 AI 生成完整内容。新政策于 2024 年 5 月 1 日生效。完全用 AI 生成的故事将从付费墙内移除,可能会导致用户被踢出付费服务。Medium 强调,它是为了人讲故事,不希望平台上出现完全由 AI 生成的故事。Medium 表示它理解用 AI 有助于更清晰的写作,或者有助于非母语者写作,但不允许完全用 AI 生成内容。Medium 允许负责任的用 AI 帮助写作,但要求用户公开透明,在文章前两段声明使用了 AI。

最近的新闻清晰表明,如果 AI 在一项人类任务中表现出色,那么很有可能该任务实际上就是人类做的。今年初,乔治卡林(George Carlin)遗产执行机构起诉了声称使用 AI 制作了乔治卡林风格节目的播客,该播客之后披露节目剧本事实上是名叫 Chad 的人类完成的。双方之后达成了和解。一家为汽车餐厅提供 AI 语音界面的公司在没有人工帮助下只能完成三成工作。亚马逊新商店放弃了 Just Walk Out 自动结账系统,原因是该系统事实上需要人类进行验证。如果我们的记忆不是三秒钟的话,同样的事情几年前就发生过:2015 年 AI 聊天机器人就很热门。一家创业公司 x.ai 称其 AI 助手能阅读邮件安排会议,一家叫 GoButler 的公司可以帮助预订航班或订购薯条。这些所谓的 AI 助手都需要人工。人类躲在机器人后面,确保它不会犯错误或胡说八道。

Adobe 正以每分钟约 3 美元的价格购买视频构建文本视频生成模型,试图赶上 OpenAI 的 Sora。Adobe 要求摄影师和艺术家递交表现人们日常活动的视频,比如步行,或者表达情绪如快乐和生气。 Adobe 要求提供逾百种人物动作和表现情感的短片,以及脚、手或眼睛的简单解剖片段。它不希望视频包含版权材料,裸体或其它冒犯性内容。视频的平均费用约为每分钟 2.62 美元,最高每分钟 7.25 美元。

检测抄袭的 Turnitin 公司公布的数据显示,去年学生递交了使用生成式 AI 撰写的逾 2200 万篇论文。Turnitin 在一年前发布了 AI 写作检测工具,至今它检测了逾 2 亿篇论文,这些论文绝大多数是由高中生和大学生撰写的。结果发现,11% 的论文其中五分之一的内容可能是 AI 帮助撰写的,3% 的论文八成或以上的内容是 AI 帮助撰写的。ChatGPT 的推出引发了英语课作文可能消亡的担忧,生成式 AI 可以在短时间内生成大量内容,但因为所谓的“幻觉”这些信息未必正确。Turnitin 的 AI 写作检测工具已经更新,能检测 Grammarly 等服务帮助美化的文章。

知名 AI 专家吴恩达(Andrew Ng)本周加入了亚马逊的董事会,这一时机恰逢科技巨头们在生成式 AI 领域展开激烈竞争。亚马逊云服务面临微软将 OpenAI 的 AI 技术整合到云服务 Azure 的压力,它的 Alexa 语音助手面临 OpenAI 的 ChatGPT 和 Google 的生成式 AI 聊天机器人的竞争。吴恩达此前领导了 Google 和百度的 AI 项目,他目前是斯坦福大学的客座教授,经营着自己的 AI 风险工作室和学习公司。

Meta 新一代大模型 Llama 3 预计将在今年夏天推出,类似 Google 的大模型 Gemini,Llama 3 也将有不同参数规模的版本,而夏天发布的将是最大参数规模的版本,而较小参数规模的版本预计将在下周发布。Llama 3 大版本将支持多模,能理解并生成文本和图像,Meta 希望它能赶上 OpenAI 的 GPT-4。但计划在下周发布的两款小版本不支持多模。

英特尔宣布了 AI 加速器 Gaudi 3,相关产品将在第三季度上市。Gaudi 3 使用 5 纳米工艺制造,芯片巨人可能将其交给了台积电等代工。英特尔在 Meta 的开源大模型 Llama 以及 Falcon 等模型上测试了 Gaudi 3,称其功耗低于英伟达的芯片,能效是英伟达 H100 GPU 的2 倍,运行大模型的速度是其 1.5 倍。Gaudi 3 和 AMD 的 AI 加速器类似都使用了开放标准接口 Open accelerator module (OAM),相比下英伟达使用了私有接口。

Google 宣布了辅助编程用的开放大模型 CodeGemma,模型权重可以在 huggingface 上下载。CodeGemma 是基于 Google 今年 2 月发布的轻量级开放大模型 Gemma,针对 Gemma 的两个不同参数规模的版本 Gemma 2B 和 Gemma 7B 发布了 CodeGemma 2B 和 CodeGemma 7B(有预训练和指令微调两种)。

日本最大的电信公司 NTT 和最大的报纸读卖集团对 AI 可能导致社会秩序崩溃表达担忧,呼吁尽快立法限制生成式 AI。虽然生成式 AI 潜在能提高生产力,但 NTT 和读卖的 AI 声明认为 AI 工具开始损害人类尊严,因为这些工具旨在吸引用户注意力,不考虑道德或准确性。声明称,除非 AI 受到限制,在最糟糕的情况下,民主和社会秩序可能崩溃,导致战争。声明呼吁日本政府立即采取应对措施,包括制定法律保护选举和国家安全免受生成式 AI 滥用的影响。