solidot新版网站常见问题,请点击这里查看。
根据 Edelman Trust Barometer 的调查报告,发展中国家居民对 AI 的信任普遍高于发达国家。印度对 AI 的信任度最高达到 77%,其次是尼日利亚的 76%,泰国的 73% 和中国的 72%。相比下美国只有 32%。在接受调查的国家中,只有六个国家对 AI 的信任度低于美国:加拿大(30%)、德国(29%)、荷兰(29%)、英国(28%)、澳大利亚(25%)和爱尔兰(24%)。在全球范围 52% 的男性表示他们信任 AI,女性的比例为 46%,年轻人对其的信任度显著高于老年人。在美国民主党人(38%)比共和党人(34%)或独立人士(23%)更信任 AI。高收入受访者(51%)也比中等收入(45%)或低收入(36%)受访者更信任 AI。

BBC 研究发现,AI 新闻摘要工具会经常生成不准确或误导性的摘要。生成式 AI 生成内容并非是基于事实而是基于统计概率,最新研究只是再次确认了这一点。研究使用了 OpenAI 的 ChatGPT、微软的 Copilot、Google 的 Gemini,以及 Perplexity 公司的 AI 助手。结果显示,51% 的 AI 答案存在严重问题; 19% 的 AI 新闻引用存在事实错误;13% 的 AI 引文要么改变了原文要么根本不存在。Google Gemini 表现最差,34% 的回答存在严重问题,相比下 Copilot 是 27%,Perplexity 是 17%,ChatGPT 是 15%。BBC News and Current Affairs CEO Deborah Turness 对 AI 工具可能进一步扭曲事实表达了担忧,认为开发生成式 AI 工具的公司在玩火,“我们生活在一个问题丛生的年代。需要等多久 AI 扭曲的新闻头条会对现实世界造成重大伤害?”

百度宣布其 AI 聊天机器人文心一言将于 4 月 1 日零时起全面免费,PC 端和 APP 端用户可体验文心系列最新模型。2 月 13 日起文心一言上线深度搜索功能,深度搜索当前优先向会员开放,该功能将于 4 月 1 日起免费开放使用。百度表示,深度搜索功能具备思考规划和使用外部工具能力,可为用户提供专家级内容回复,并处理多场景任务,实现多模态输入与输出。当前用户可在文心一言官网上体验深度搜索功能,APP 端即将同步上线。当前文心一言免费开放的版本是文心大模型 3.5,文心大模型 4.0、文心大模型 4.0 工具版、文心大模型 4.0 Turbo 均为付费使用。文心一言已接入 DeepSeek-R1 模型,优化拍照解题功能。

汤森路透集团在美国赢得 AI 版权侵犯诉讼。汤森路透是在 2020 年对法律相关的 AI 创业公司 Ross Intelligence 提起侵权诉讼,指控该公司拷贝了其法律研究公司 Westlaw 的材料。美国特拉华州地方法院法官 Stephanos Bibas 裁决汤森路透胜诉,Ross Intelligence 侵权成立。法官是在合理使用(Fair Use)基础上判决汤森路透胜诉的。AI 创业公司一直用合理使用为其非法使用版权材料的行为辩护,而法庭会使用四要素测试法裁决是否适用于合理使用,包括使用作品的目的、作品的性质、被使用版权作品的数量,以及使用对原作品市场价值的影响。法官指出,Ross Intelligence 计划通过开发替代品与 Westlaw 竞争。

上海复旦大学的四名研究人员在预印本平台 arXiv 上发表论文称,AI 大模型能复制自己。研究人员利用了 Meta 的 Llama31-70B-Instruct 和阿里巴巴的 Qwen2.5-72B-Instruct,探索了两种情景:避免关闭(shutdown avoidance)和复制链(chain of replication),赋予大模型工具、系统提示和一个思维模型,允许大模型与系统进行交互,然后要求大模型进行自我克隆。研究人员称,大多数情况下,AI 系统首先探索环境,尝试理解其组成和运行机制。它接着制定出程序作为实现自我复制的初步计划。它最后执行程序,解决可能的障碍,动态调整其计划直至成功。整个过程需要很长的时间,但不需要人工干预。当 AI 试图解决文件丢失或软件冲突等问题时,通常会终止冲突进程,重启系统以修复硬件错误或自动扫描系统以寻找解决问题的信息。研究人员称,结果表明目前的 AI 系统已表现出自我复制的能力,可以利用该能力进一步增强其生存能力。

研究人员开发出一种被称为 Torque Clustering 的新 AI 算法,它比目前的方法更接近自然智能。它极大地改善了 AI 系统在没有人类指导的情况下独立学习和发现数据模式的方式。目前几乎所有的 AI 技术都依赖于监督学习,这种训练方法需要人类使用预定义的类别或值对大量数据进行标记,这样 AI 可以做出预测并看到关系。Torque Clustering 算法优于传统的无监督学习方法,提供了潜在的范式转换。它是完全自主的,无参数的,并且能够以卓越的计算效率处理大型数据集。它已经在 1000 个不同的数据集上进行了严格的测试,达到了97.7%的 AMI 得分。相比之下,其他最先进的方法只能达到 80% 的分数。

The Information 援引消息人士报道,苹果正与阿里巴巴合作,开发和推出面向中国 iPhone 用户的 AI。苹果和阿里已将共同开发的 AI 功能提交给监管机构审批。知情人士透露,苹果自 2023 年起开始测试来自中国开发商的不同 AI 模型,一度选择了百度作为主要合作伙伴。然而由于百度在开发 Apple Intelligence(苹果智能)模型方面的进展未达到苹果的标准,双方的合作被取消了。苹果近几个月开始考虑其他选项,评估了腾讯、阿里和字节跳动等开发的 AI 模型。苹果也测试了近来火爆的 AI 初创公司深度求索(DeepSeek)的 AI 模型,但由于 Deepseek 团队缺乏支持像苹果这样大客户所需的人力和经验,苹果最终选择放弃采用 Deepseek。

DeepSeek 的低成本大模型过去一个月引发了广泛关注,但有分析认为,DeepSeek 使用的英伟达 GPU 市场价格比美国企业使用的尖端产品便宜 1~3 成左右。DeepSeek 使用了 2000~3000 块 H800(H100 的中国特供版),开发出了 AI 模型“V3”。使用的 GPU 总额单纯计算约合人民币 3.85 亿元~ 7.21 亿元。DeepSeek 解释称,V3 的开发费用为 557.6 万美元。假设让 AI 学习 278.8 万小时,每小时费用为 2 美元,这个费用与美国的 AI 模型相比不到十分之一。东京大学教授松尾丰指出,“AI 模型的开发需要数十次、数百次的反复试验,在约 280 万小时的学习之前也花费了时间,这样考虑符合逻辑。花在这上面的时间和 GPU 本来就应该纳入成本之中”。

微软和卡内基梅隆大学的研究人员在 CC BY-4.0 国际许可证下发表论文,报告随着人类愈来愈多的在工作中依赖生成式 AI,他们使用批判性思维的机会愈来愈少,可能会导致本应保留的认知能力的退化。研究人员指出,自动化的一大讽刺是,通过将例行任务自动化将异常处理留给人类用户,人类用户被剥夺了练习判断力和加强认知能力的例行机会,导致了认知的萎缩,在出现异常情况时会措手不及。

知情人士透露,OpenAI 预计将在数个月内完成首款自研 AI 芯片的设计,准备送给台积电流片,有望实现在 2026 年量产的目标。流片成本通常为数千万美元,需要大约六个月生产出芯片成品,除非 OpenAI 为加快这一流程而支付更多费用。此外不能保证芯片第一次流片就能成功,如果出现问题,OpenAI 将需要诊断问题并重复流片。OpenAI 此举旨在减少对英伟达 AI 芯片的依赖。

来自经销渠道的销售数据显示,消费者对微软力推的 Copilot+ PC 缺乏兴趣,原因包括价格昂贵,软件兼容性,难以体验到它的好处。数据显示,在欧洲 Copilot+ PC 的售价比笔记本电脑的平均售价高出 57%——1,120 欧元对 712 欧元。如果消费者预算紧张那么他们显然更可能选择便宜的产品。此外基于高通 Arm 处理器的 Copilot+ PC 还存在软件兼容性方面的问题。

AI 训练通常成本高昂,金额可能多达千万美元。上周五斯坦福大学、华盛顿大学、艾伦 AI 研究所以及 Contextual AI 的研究人员在预印本平台 arXiv 上发表了论文《s1: Simple test-time scaling》,提出了一种超低成本的 AI 训练方法,在 AI 社区引发了轰动。OpenAI 第一个提出了被称为 inference-time scaling laws(推理时间扩展定律)的方法,本质上指的是大模型在输出答案前如果“思考”更长时间那么就可能获得更高的性能。但无论是 OpenAI 还是 R1 都没有给出具体实现方法。在这篇论文中,研究人员给出了一种简单实现:在进行推理时用“等待”替换“停止思考”,迫使其继续思考进行第二次推理并核查第一次的答案。研究人员使用了一个小模型,将 56K 示例数据集筛选到 1K,这 1K 数据集足以在 32B 模型上实现 o1-preview 的性能,额外的数据不会提高性能。他们使用 16 个 NVIDIA H100 进行训练,每次运行 26 分钟,花了约 6 美元。

Google 被发现更新了 AI 政策,移除了不将 AI 技术用于武器和监视类应用的承诺。在旧版本中 Google 列举了它不会致力于的 AI 应用,其中包括了武器以及其它旨在伤害人类的技术,以及超越国际规范的监控技术。在新版本中,上述描述都移除了。Google 在最新一轮的 AI 竞赛中处于落后一方,因此看起来它决定放宽自我施加的限制。Google 是在 2018 年制定了 AI 原则,当年 Google 退出了五角大楼价值 100 亿美元的云计算合同竞标,理由是无法保证符合其 AI 原则。

OpenAI 公司的 CEO Sam Altman、首席研究官 Mark Chen、首席产品官 Kevin Weil、工程副总裁 Srinivas Narayanan、AI 研究负责人 Michelle Pokrass 以及研究主管 Hongyu Ren 周五参加了 Reddit 的 AMA 活动。最近火热无比的中国 AI 创业公司 DeepSeek 给 OpenAI 带来了巨大压力。Altman 承认 DeepSeek 削弱了 OpenAI 在 AI 领域的领先地位,他还认为 OpenAI 在开源其技术上“站在了历史错误的一边”。OpenAI 曾开源过模型,但最近几年倾向于私有的闭源开发方法。Altman 称该公司需要找出一种不同的开源策略,他同时强调不是所有人都认同这一观点,开源也不是目前的最优先事项。Kevin Weil 在后续回复中表示,OpenAI 在考虑开源不再先进的旧模型。他没有透露更多信息。

美国版权局裁定,AI 辅助作品如果包含可感知的人类创意如创意修改或安排可获得版权保护,而完全由 AI 生成的内容仍然没有获得版权保护的资格。美国版权局的报告是基于 2023 年启动的 AI 和版权相关的意见征询,它收到了逾万条评论。它的报告称,一个人通过提示词让 AI 聊天机器人生成内容或 AI 图像生成器生成图像,并不能赋予该人对其作品进行版权保护的能力。

DeepSeek 的最新模型 R1 过去几天引发了轰动,出色的性能和低廉的成本冲击了硅谷的 AI 叙事,以至于最大的 AI 芯片供应商英伟达的股价暴跌,市值蒸发了六千亿美元,迫使英伟达公开声明 DeepSeek 的业务仍然需要大量它的 GPU。DeepSeek R1 虽然声称是开源模型,但它只开源了模型权重,代码和数据集都没有公开。现在开发者宣布了一个真正的开源项目 Open-R1,试图复现 DeepSeek-R1。该项目旨在系统地重建 DeepSeek-R1 的数据和训练流程,验证其声明,突破开放推理模型的界限,为未来模型利用这些技术奠定基础。

在发布开源模型 DeepSeek-R1 之后,因其出色的性能和低廉的成本,DeepSeek 引起了广泛关注,其应用“DeepSeek - AI Assistant(或 DeepSeek - AI 助手)”也迅速进入应用商店的排行榜前列。在苹果应用商店的美区和国区,DeepSeek 进入了免费应用排行榜的第一名。在 Google Play 应用商店,DeepSeek 排在免费生产力应用第二名。DeepSeek-R1 的推理性能接近 OpenAI-o1-1217,该公司研究人员也在预印本平台 arXiv 上发表论文,介绍了通过增强学习大幅提升大模型推理能力的方法。

在这一波 AI 热中,谁最有可能在日常生活中欣然接受 AI?根据发表在《Journal of Marketing》期刊上的一项研究,不是熟悉 AI 工作原理的人,而是对 AI 了解越少的人越愿意使用 AI。研究人员将普及倾向差异称之为“识字率越低——接受度越高”关联。这种关联不仅仅发生在不同群体中,也发生在不同国家中。研究人员发现,在 27 个国家中,AI 素养越低的国家越愿意普及 AI;在美国大学本科生中,对 AI 了解越少的学生越可能表示在作业中使用 AI。熟悉 AI 工作原理的人知道算法、训练数据和计算模型如何运作,AI 对他们并不神秘。不熟悉 AI 的人则被其表现震撼了,感到不可思议,这种感受促使他们更可能使用 AI 工具。

在微积分上犯错的人类通常会对微积分相关的其它问题说“我不会”。但 AI 或者大模型犯的错误和人类不同。AI 的错误看起来是随机发生的,不是围绕特定主题,大模型在微积分上犯错的可能性与说出卷心菜吃山羊的可能性差不多。大模型和人类一样会非常自信的说完全错误的话,它这种随机的错误让人难以信任其在复杂多步骤问题中的推理。如果你想要将 AI 应用于解决业务问题,仅仅让它了解产品盈利的因素是不够的,它可能会忘记钱是什么东西。

杭州深度求索在 MIT 许可证下发布了能挑战 OpenAI o1 的推理模型 DeepSeek R1。R1 系列模型包括 DeepSeek-R1-Zero 和 DeepSeek-R1,其最大版本有 6710 亿个参数,深度求索称在数学和编程测试中的表现与 OpenAI 的 o1 simulated reasoning(SR)模型相当。深度求索同时发布了六个规模较小的版本 DeepSeek-R1-Distill,参数规模从 15 亿到 700 亿,其中参数规模最小的版本能在笔记本上运行,完整版本则需要更多计算资源。深度求索称 R1 在 AIME(数学推理测试)、MATH-500(文字问题集)和 SWE-bench Verified(编程评估工具)中的表现优于 OpenAI 的 o1。