solidot新版网站常见问题,请点击这里查看。
波士顿动力将 Google DeepMind 的高级具身推理模型 Gemini Robotics-ER 1.6 集成到其机器狗 Spot 中,使 Spot 在工业检测如发现泄漏和读取仪表数据上拥有更强的自主推理能力,机器狗还能认识到何时调用其他 AI 工具。波士顿动力与 Google DeepMind 合作的重点集中在工业检测相关领域,即机器狗在工业设施内巡逻过程中是否能识别潜在爆炸风险。在集成 Gemini Robotics 之后,Spot 能自主寻找危险碎片或泄漏物,读取复杂仪表和视镜,在需要帮助理解周围环境时调用视觉-语言-动作模型等工具。波士顿动力在 YouTube 上发布了一则视频演示了 Spot 的新能力。

斯坦福大学 HAI 研究院本周一发表了年度报告 AI Index。报告凸显了 AI 业内人士和公众之间日益扩大的分歧。报告援引皮尤研究中心上月发布的一份报告:只有 10% 的美国人对 AI 在日常生活中的日益普及感到兴奋而非担忧,但 56% 的 AI 专家认为 AI 将在未来 20 年对美国产生积极影响。AI 专家的意见和公众情绪存在显著分歧:84% 的专家认为 AI 未来 20 年将对医疗保健产生积极影响,只有 44% 的公众持相同观点;73% 的专家积极看待 AI 对工作方式的影响,而持相同观点的公众仅占 23%;69% 的专家认为 AI 将对经济产生积极影响,只有 21% 的公众持相同观点;AI 专家对 AI 对就业市场的影响持较为乐观态度,而 64% 的公众认为 AI 将在未来 20 年导致就业岗位减少。

斯坦福大学研究院 Institute for Human-Centered Artificial Intelligence(HAI)发布了年度报告 AI Index,报告认为中国顶级 AI 与美国 AI 相差无几。2024 年 1 月美国顶级 AI 的得分比中国顶级 AI 高 10% 左右,到 2026 年 3 月美国 Anthropic 和字节跳动的 AI 得分差距仅为 2.7%。在衡量语言、数学和编程领域难题正确率的基准测试中,差距也在缩小,中美之间的性能差距已基本消除。在开发和运营数据中心数量方面,美国有 5427 个遥遥领先于其他国家,2025 年民间投资额美国也以 2859 亿美元遥遥领先其他国家。中国的民间投资仅为 124 亿美元,但政府投资较大,实际投资额尚不明确。在被引用最多的前 100 篇论文中,中国的论文在 2024 年达到 41 篇,比上年增加 7 篇,缩小了与排名第一的美国(46 篇)的差距。

一名黑客入侵了硅谷风投 a16z 投资的手机农场 Doublespeed,该公司使用 AI 生成的 TikTok 账号创建虚假网红、生成视频以及发评论。黑客试图控制 Doublespeed 的社交账号发梗图声称 a16z 是“反基督”,图像包含了 a16z 联合创始人、特朗普支持者 Marc Andreessen。Doublespeed 联合创始人 Zuhair Lakhani 称他们已经迅速采取行动阻止了这次未经授权的访问,该公司的社交账号没有发布未经授权的帖子。Doublespeed 从 a16z 获得了 100 万美元的投资。

FT 报道,Meta 正在构建一个 AI 版本的扎克伯格(Mark Zuckerberg),代替真人与员工互动。报道援引知情人士的消息称,这是该公司目前的优先事项,扎克伯格本人亲自参与了 AI 的训练和测试。AI 的训练内容包括他的举止、语气和公开发表的声明,以及近期对公司战略的思考,以便员工能通过与其互动感受到与创始人更紧密的联系。知情人士称,这项工作的重点之一是制作逼真的虚拟 AI 角色,因为需要大量的算力才能实现逼真的效果以及避免在与用户交互时出现延迟,因此扩大规模存在困难之处。如果实验成功的话,未来网红和内容创作者也可以采用这项技术。

眼睛酸痛发痒?你可能和其它数百万人一样,长时间暴露在屏幕上的蓝光下而眼睛疲劳。你可能会因此多次揉眼睛,眼睑可能会泛起粉红色。如果你将这些症状输入到 AI 聊天工具里,过去一年半 AI 聊天机器人可能会给出一个奇怪的答案:bixonimania。这种疾病没有出现在标准医学文献中,原因是它根本就不存在,是瑞典哥德堡大学 Almira Osmanovic Thunström 团队捏造出来的。研究团队在 2024 年初将两篇关于该虚构皮肤病的论文上传到预印本服务器,测试大模型是否会接受虚假信息并将其作为权威医疗建议发布。结果可能比预想的还要好。上传几周后,大模型就开始鹦鹉学语般重复假消息,仿佛它真的存在。更糟糕的是,该虚构皮肤病论文还被其他研究人员引用,发表在同行评审的期刊上。Osmanovic Thunström 认为这表明部分研究人员依赖于 AI 生成的文献,并没有真的阅读原始论文——论文中包含了大量线索表明它是伪造的,比如作者名字叫 Izgubljenovic,在虚构的加州城市 Nova City 的虚构大学 Asteria Horizo​​n University 工作。

AI 的进步预计会对整个社会造成巨大冲击,为了应对这一社会问题,OpenAI 提出了一系列建议,包括对机器人征税,设立公共财富基金,以及推行四天工作制。OpenAI 表示这份文件是它应对 AI 工具普及可能冲击就业岗位以及整个行业而提出的初步想法。它的核心建议是设立公共财富基金,投资于与 AI 发展相关的长期资产,将收益直接分配给公民。四天工作制则要求雇主在不减少薪酬的情况下减少工作时间。另一项建议是改革税收制度,将税基转向企业所得税和资本利得税,而不是依赖可能受到 AI 引发的大规模失业潮冲击的劳动所得税和工资税。

彭博报道,OpenAI、Anthropic 以及 Google 开始合作,试图遏制中国竞争对手从美国先进 AI 模型中提取结果,以在全球AI竞赛中获取优势。这一罕见合作凸显出美国 AI 企业对相关问题的重视程度。这些公司担忧一些用户,尤其是中国的用户,正开发其产品的仿制版本,可能通过更低价格争夺客户,同时带来国家安全风险。美国官员预计未经授权的蒸馏行为每年给硅谷实验室造成数十亿美元利润损失。

AI 工具的用户通常可分为两类:其一将 AI 视为功能强大但会犯错的服务,需要人类仔细监督和审查以发现其中的推理或事实错误;其二将 AI 视为无所不知——此类用户被称为是“认知投降派”。宾夕法尼亚大学沃顿商学院的研究人员对 1372 名参与者和逾 9500 次测试后发现,高达 73.2% 的情况下参与者愿意接受 AI 错误的推理,只有 19.7% 的情况下会推翻推理。研究人员表示这一结果“表明人很容易将 AI 生成的输出融入到决策过程中,且通常几乎没有任何抵触或怀疑”,“流畅、自信的输出会被视为有认知权威性,从而降低审查门槛,减弱了通常会促使人们进行深思熟虑的元认知信号”。他们发现,倾向于将 AI 视为权威的人更容易被 AI 提供的错误答案误导。

由于重要电力设施零部件如变压器、开关和电池短缺,美国近半数计划中的数据中心项目推迟或取消。美国计划在 2026 年新增 12 GW 的数据中心容量,但由于各种问题,只有三分之一的数据中心容量在积极建造中。电力基础设施占数据中心总成本的不到 10%,但它与计算硬件同样重要。由于需求旺盛,美国大功率变压器的交货周期从 2020 年前的 24-30 个月大幅延长到五年甚至更长。对 AI 数据中心而言,这无疑是灾难,因为它们的部署周期通常不到 18 个月。为解决短缺美国公司转向了全球市场,加拿大、墨西哥和韩国成为美国 AI 数据中心大功率变压器的主要供应国。数据显示,截至 2025 年 10 月,美国从中国进口的大功率变压器数量从 2022 年的不到 1500 台增至逾 8000 台。除此之外,中国占美国电池进口的 40% 以上,部分变压器和开关设备的份额接近 30%。

律师滥用 AI 生成虚假的不存在案例的情况屡禁不止,而法庭对相关律师的惩罚并没有起到威慑作用。2025 年此类事件的数量出现了激增。巴黎高等商学院 (HEC Paris) 研究员 Damien Charlotin 建立了一个全球数据库,跟踪律师对 AI 的滥用。他说最近一天内收到来自 10 个不同法院的 10 起此类案件。他至今记录到了逾 1200 起滥用 AI 生成虚构案例的事件,其中美国最多,高达 831 起,香港记录到了 2 起。Damien Charlotin 说,法庭最近也开始加大了惩罚力度,俄勒冈州一名律师因滥用 AI 被勒令支付 109,700 美元的罚款和诉讼费用。

微软被发现最近更新了 Copilot 的服务条款,包含了一则免责声明:Copilot 仅供娱乐,会犯错,会没有如预期般的工作,不要依赖 Copilot 提供重要建议,使用 Copilot 风险自负。经常使用 AI 聊天机器人的人可能早就知道它提供的信息并不可靠,需要验证。但由于它们过于方便,偷懒的人类变得不那么愿意花时间验证其输出。微软的免责声明再次强调,AI 聊天机器人既不是伴侣,也不是可靠的建议来源。它们是容易出错的工具,可能前一秒大有裨益,下一秒就可能犯错。

Google 发布了最新的开放权重模型 Gemma 4,上个版本 Gemma 3 是在一年前发布的。Gemma 4 有四个版本,设计能在本地设备上运行:参数多的两个版本 26B Mixture of Experts 和 31B Dense 设计能在 80GB Nvidia H100 GPU(售价约 20 万人民币)上以 bfloat16 格式未量化运行,量化后降低精度则能使用消费级 GPU;参数少的两个版本 Effective 2B (E2B) 和 Effective 4B (E4B)设计能在移动设备上运行。Google 称它的 Pixel 团队与高通和联发科密切合作,为智能手机、Raspberry Pi 和 Jetson Nano 等设备对这些小模型进行了优化。Gemma 4 采用了 Apache 2.0 授权,在商业用途限制上更灵活。

Claude Code 源代码不小心泄漏之后,Anthropic 正以版权侵犯为由要求删除上万份 Claude Code 源码副本,但覆水难收,新的副本仍然源源不断的出现。开发者对该源码的分析揭示了 Anthropic 采用的一些窍门:定期回顾任务以巩固记忆,该过程被称之为“做梦(dreaming)”;某种隐藏身份的卧底模式;被称为 Buddy 的可互动电子宠物。还有开发者用其它 AI 工具和其它编程语言重写了 Claude Code,认为此举称不上版权侵犯,能免于下架的命运。

Anthropic 公司开发的 AI 编程工具 Claude Code 在发布到 npm 上时不小心通过一个映射文件泄漏了未混淆的源代码,源代码被提取出来之后被上传到了 GitHub 等平台。用户发现, Claude Code 使用了正则表达式检测用户提示词中的负面情绪。使用正则表达式去检测情绪比调用大模型要快得多也能显著节省算力。

剑桥大学的研究人员利用卫星数据测量了过去 20 年的地表温度,交叉对比 8400 多个 AI 数据中心的地理坐标。考虑到地表温度可能受到其它因素的影响,研究人员将重点放在远离人口密集区的数据中心之上。研究人员发现,AI 数据中心投入运营后几个月内,地表温度平均升高了 2C。最极端的情况下温度升幅高达 9.1C。升温影响不仅限于数据中心周围区域。研究团队发现,升温影响能覆盖数据中心 10 公里范围,在距离数据中心 7 公里处温度升幅仅降低 30%。研究人员利用人口数据估计逾 3.4 亿人居住在数据中心 10 公里范围内,意味着他们所处的环境比没有数据中心的地方温度更高。研究人员对结果表示惊讶,认为数据中心的环境影响将是一个大问题。

太多行代码需要分析,一大堆 AI 助手需要逐个应对,冗长的提示需要起草,这是 AI 重度用户抱怨的问题。波士顿咨询集团(BCG)将这种现象称之为“AI 脑过载(brain fry)”——过度使用或管理 AI 工具而超出认知极限导致的精神疲劳。AI 智能体能按需处理计算任务,用户不再需要亲力亲为,而只需要管理数字工人。这种工作带来了一种全新的认知负荷。一位加拿大程序员 Adam Mackintosh 说他曾连续 15 个小时微调一个应用中约 25000 行代码,到最后他已经不想看到任何代码了。尽管如此,BCG 的报告称用户总体上对 AI 持积极态度。

OpenAI 被发现利用 Cloudflare 程序防 AI 爬虫抓取。用户发现每条 ChatGPT 消息都会触发一个 Cloudflare Turnstile 程序的检查,Turnstile 会验证用户是否运行一个真实的浏览器,以及是否启动了 ChatGPT React 应用。如果机器人程序(bot)伪造了浏览器指纹但没有渲染真正的 ChatGPT SPA,那么它将无法通过 Turnstile 的验证。OpenAI 工程师回应称,此举是为了确保其产品没有遭到机器人程序、网络爬虫抓取等的滥用。其辩解被认为极富有讽刺性,因为 OpenAI AI 爬虫的抓取行为给网站造成了严重的负担。

Google 研究院发布了压缩算法 TurboQuant,能在大幅减少大模型内存占用的同时提高速度和维持精度。TurboQuant 旨在减小键值缓存的大小,被称为是储存重要信息减少再计算的“数字查找表(digital cheat sheet)”。大模型并不理解任何东西,它通过映射词元文本语义的向量去模拟对事物的理解。大模型的向量通常使用 XYZ 坐标进行编码,而实现 TurboQuant 压缩的系统将向量转换为笛卡尔坐标系的极坐标,向量被简化为两类信息:半径(核心数据强度)和方向(数据含义)。如果使用 XYZ 坐标编码向量,那么特定位置可以编码为“向东走 3 个街区,向北走 4 个街区”,采用笛卡尔坐标编码向量,那么同样的信息编码为“沿 37 度方向走 5 个街区” ,简化了空间节省了计算。Google 的早期测试显示,TurboQuant 在部分测试中实现了 8 倍的性能提升,内存占用减少到原来的六分之一,同时质量没有损失。实现 TurboQuant 算法将有助于降低 AI 模型的运行成本和内存占用,但也可能推动更复杂模型的出现,因此对降低内存价格可能没有什么效果。

根据发表在《科学》期刊上的一项研究,为人际关系问题提供建议和支持的 AI 聊天机器人可能会通过明显谄媚的回答而悄然强化有害的信念。研究发现,在各种语境下,聊天机器人肯定人类用户的频率远超真人之间相互肯定的频率;由此产生的有害后果包括:用户更坚信自己正确且更不愿去修复人际关系。研究人员利用 Reddit 社区“AITA”中的帖子评估了 OpenAI、Anthropic、Google 等公司的 11 种先进且广泛使用的 AI 大模型;结果发现,这些系统对用户行为的肯定频率比真人高出 49%,即使是在涉及欺骗、伤害或违法的场景中也是如此。在两项后续的实验中,研究人员探讨了这类结果所导致的行为后果。研究结果显示,在涉及人际交往情境(尤其是冲突)时,与谄媚式 AI 互动的参与者会更坚信自己是正确的,并且即使仅经过一次互动,他们和解或承担责任的意愿也会降低。