文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Google DeepMind 宣布了一个大规模基础世界模型 Genie 2,能生成无限多种可控制动作、可玩的 3D 环境,用于训练和评估具身代理(embodied agent)。只需要向模型输入单幅的图像,它就能生成一个基于该图像的 3D 环境,用户或 AI 代理可通过键盘和鼠标输入进行游戏。Google DeepMind 称,Genie 2 可以让未来的 AI 代理在一个充满了无限可能性和探索的空间中训练和评估,为原型交互体验的全新创意工作流铺平了道路。
亚马逊在 AWS re:Invent 活动上宣布了一系列使用 Nova 品牌名称的 AI 模型:为速度和成本进行优化的文本模型 Nova Micro;低成本多模模型 Nova Lite,输入图像、视频和文本输出文本;强大的多模模型 Nova Pro;计划于 2025 年初推出的最强多模模型 Nova Premier;图像生成模型 Nova Canvas 以及视频生成模型 Nova Reel,这些模型生成的内容都会嵌入水印以促进负责任的 AI 使用。这些模型将通过 AWS Amazon Bedrock 模型库提供给客户。亚马逊还表示正与其投资的 AI 创业公司 Anthropic 合作构建庞大的 AI 计算集群。
腾讯混元大模型公布最新进展,上线视频生成能力。与此同时,腾讯开源该视频生成大模型,参数量 130 亿,是当前最大的视频开源模型。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。该模型已上线腾讯元宝APP,用户可在 AI 应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,API 同步开放内测申请。混元视频生成能力基于与 Sora 类似的 DiT 架构,并在架构设计上进行多多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D 变分编码器),让模型在细节表现有明显提升,特别是小人脸、高速镜头等场景。
盖帝图片社(Getty Images) CEO Craig Peters 在《财富》上刊文批评了 AI 公司在版权上的立场。盖帝是一家出售图像版权的公司,因 AI 创业公司 Stability AI 涉嫌收集了数百万张盖帝可能持有版权的图像训练其 AI 模型 Stable Diffusion,盖帝正对其提起诉讼。盖帝 CEO 质疑了微软 AI 高管 Mustafa Suleyman 的观点,Suleyman 认为互联网上公开访问的内容都是“freeware”——类似免费软件可以免费使用。他认为应该根据具体情况应用合理使用原则,区分用于科学进步和用于生成商业内容的 AI 模型。音乐流媒体行业从共享平台 Napster 转向授权平台 Spotify,AI 公司也可以采用类似的授权模式。
加拿大主流媒体联合起诉 OpenAI 侵犯版权。参与起诉的原告方包括《多伦多星报》及该集团旗下的大都会(Metroland)媒体集团、邮报集团(Postmedia)、《环球邮报》、加拿大通讯社、加拿大广播公司等在加拿大具有广泛影响的媒体。兴讼媒体指称,OpenAI“经常违反”版权和在线使用条款,从加拿大媒体上抓取大量内容,以帮助开发 ChatGPT 等产品。OpenAI 在未获内容所有者许可或对此作出补偿的情况下,利用这些内容并从中获利。OpenAI 利用其他公司的新闻报道为自己谋取商业利益的做法不符合公共利益,且是非法的。原告方要求法院判令 OpenAI 作出惩罚性赔偿,追缴其因使用原告媒体内容而获得的利润。OpenAI 回应称,该公司的模型基于公开数据进行训练,且建立在国际版权原则之上。
AI 聊天机器人如 ChatGPT、Gemini 和 Copilot 能模仿人类的语言与人进行沟通,它们是如此成功,甚至能表现出幽默和共情等人类情感。语言被认为是人类独有的能力,但生成式 AI 的进步迫使我们重新思考这一观点。人类语言的一个最鲜明的特征是主观性,体现在传达情感细微差别的语言或措辞中,以及个人观点的表达中。人类语言主观性的一个典型特征是人称代词的使用。第一人称——我或我们——允许表达个人的想法和经历。第二人称——你——用于与他者的互动中,在两位对话参与者之间构建关系。这又被称为主体间性(intersubjectivity)。AI 聊天机器人在与人类的交流中会隐式的使用第一人称,扮演助手的角色。即使它没有显式的使用第一人称,但仍然会让用户产生某种宾至如归的感觉。在对话中 AI 聊天机器人会直接针对用户使用“你”,这种个人化的语言表达会让人产生积极参与其中的感觉。聊天机器人通过使用第一人称模拟意识,试图创造出一种共情的幻觉。它通过站在帮助者立场使用第二人称去强化亲密感。这是构建人工情感的语言技巧,是它的算法,AI 并不能真正理解你。
松下宣布开发出可再现已故创始人松下幸之助想法等的 AI。此举旨在传承理念,AI 接受了其生前语音、发言集等大量数据的训练。负责人表示,AI 对于提问能以松下幸之助的方式作出回答。松下透露,AI 学习了 200 多份资料,包括在公司内部会议和演讲中发言的48小时录音数据、书籍《松下幸之助发言集》等,开发耗时 7 个月。在演示中,负责人提问“随着 AI 的引进,是否不再需要人手”。约 10 秒后,一个 70 岁左右的声音回答:“将 AI 擅长的部分交给 AI,人类就能专注于更具创造性和高价值的工作。”松下幸之助的孙子松下正幸惊叹“相似得令人生畏”。
AI 检测公司 Originality AI 的调查发现,职业社交网络 Linkedin 上逾半数长英文帖子是在 AI 帮助下生成的。该公司使用 AI 检测器分析了 2018 年 1 月到 2024 年 10 月之间发表的 8,795 篇字数逾百的帖子,结果显示其中 54% 可能是在 AI 帮助下生成的。自 ChatGPT 于 2022 年底发布至今,Linkedin 上 AI 辅助生成的帖子数量增长了 189%,帖子字数增长了 107%。2023 年 2 月之后 AI 生成帖子的比例开始趋于稳定,显示这已经成为一种常态。Originality A 称,虽然在使用 AI 帮助创造内容,但用户通常不会承认。
加入 NVIDIA 开发者计划(免费),新用户可以在注册过程中选择一门单课价值超 600元的 DLI 在线自主培训课程免费学习。涵盖生成式 AI与大语言模型(LLM)、图形与仿真、加速计算、数据科学和深度学习五大前沿领域,任选一门,满足您的学习需求。
课程提供完全配置的云端实验环境,结合动手实践,您可以快速获取端到端应用开发经验和提升专业技能,还可以获得 NVIDIA 培训证书,为您的能力和职业发展提供有力证明。
如下链接或者下图扫码,加入开发者计划,免费学习课程(建议电脑端学习)
https://developer.nvidia.cn/login?ncid=ref-dev-557858&sfdcid=Zhiding
根据 Resume Genius 的研究,虽然最近两年 AI 火热无比,但大部分求职者对其益处仍然深表怀疑。69% 的人怀疑它能改进工作绩效,62% 的人怀疑它能减少工作量。只有 34% 的人表示担心被 AI 取代,30% 的人认为 AI 会增加就业竞争或损害薪水。婴儿潮一代、X 世代、千禧一代和 Z 世代求职者给出的答案都基本一致。大部分人都对 AI 代表下一个热门潮流表达了怀疑。
网络安全专家发现,微软办公软件 Microsoft Office 默认启用了用户数据收集功能。用户如果要关闭数据收集选项,需要打开多重菜单:File > Options > Trust Center > Trust Center Settings > Privacy Options > Privacy Settings > Optional Connected Experiences > 取消勾选框。专家认为微软会收集用户的 Word 文档和 Excel 电子表格数据训练 AI 模型。微软官员通过社交媒体 X/Twitter 否认使用用户数据训练 AI 模型。
英伟达展示了一款用于生成音乐和音频的 AI 模型 Fugatto。该模型可以根据文本提示修改声音、产生新的声音。新模型面向音乐、电影和游戏制作商。它可以改变录音的口音和情绪,将钢琴演奏转换成人声歌唱,具体来讲,Fugatto 可以分离歌曲中的人声,添加乐器,将钢琴换成歌剧歌手来改变旋律。英伟达表示,新模型可以创造出“从未听过的声音”,比如可以使小号吠叫或者萨克斯发出猫叫声。Fugatto 建立在英伟达团队此前在语音建模、音频编码和音频理解等领域的工作基础上,完整版本使用 25 亿参数。新模型根据开源数据在包含 32 个英伟达 H100 Tensor Core GPU 的 NVIDIA DGX 超级计算机系统上进行训练。
Meta 的 Instagram 出现了大量 AI 生成的网红,从真实模特和成人内容创作者窃取视频,替换为 AI 生成的脸,然后通过约会网站、Patreon、OnlyFans 等货币化。成人内容创作者抱怨她们现在需要和 AI 网红竞争。Elaina St James 称,自从 Instagram 上 AI 网红剧增之后,她的内容访问量大幅下降,从 100 万到 500 万次观看量下降到低于 100 万次,有时观看量不足 50 万次。她认为 Instagram 算法是部分原因,但 AI 网红也可能原因之一。她表示自己在与非自然事物进行竞争。
微软旗下的代码托管平台 GitHub 称其 Copilot 辅助编程工具改进了代码质量。但这一结论可能有自卖自夸的嫌疑。GitHub 官方博客称,Copilot 帮助开发者将编程速度提升了 55%,88% 的开发者感觉开发过程更流畅了,85% 的开发者对代码更有信心了。GitHub 称,它邀请了 202 名有至少五年经验的 Python 开发者,一半人被随机分配使用 GitHub Copilot 辅助编程,另一半对照组被要求不使用任何 AI 工具,最后使用单元测试和专家评审评估他们编写的代码质量。结果表明,Copilot 辅助编写的代码增强了功能性,提高了可读性,有更高的质量,获得了更高的批准率。Copilot 的辅助编程让通过所有 10 项单元测试的可能性提高了 56%,明显错误更少,代码行数增加了 13.6%,可读性提高 3.62%,可靠性提高 2.94%,可维护性提高 2.47%,简洁性提高 4.16%。GitHub 称这些数字都具有统计学上显著意义。非 GitHub 的第三方对辅助编程是否改进代码质量有着不同的结论。
微软向部分使用 Copilot+ PC 的用户开放预览其受争议的 Windows Recall 功能。Recall 通过每隔数秒进行一次屏幕截图,在本地创造可搜索数字记忆。该功能引发了隐私和安全方面的争议,Recall 显然会将用户的私密信息都截图保存下来,微软因为争议而推迟了 Recall 的发布。最新的开放预览仅提供给高通 Snapdragon X Elite 和 Plus Copilot+ PC 的用户,运行版本为 Windows Insider build 26120.2415。为减少隐私争议,Recall 将强制使用加密,可选择激活,需要 Windows Hello 身份验证。该功能还需要 Secure Boot、BitLocker 加密,会尝试自动模糊密码和信用卡号等敏感数据。
普林斯顿大学和斯坦福大学团队开发出一种新压缩算法 CALDERA,能精简大模型(LLM)的海量数据,为 LLM“瘦身”。这项算法不仅有助保护数据隐私、节约能源、降低成本,还能推动 LLM 在手机和笔记本电脑上高效使用。
团队举例称,当人们使用 ChatGP T时,请求会被发送到 OpenAI 公司的后端服务器进行处理。这一过程不仅成本高昂、能耗巨大,通常还很慢。如果用户想要使用消费级图形处理单元运行 LLM,就需要对这些 LLM 进行压缩。
CALDERA 算法通过减少 LLM 冗余并降低信息层的精度来发挥作用。“瘦身”后的 LLM 更加精简,可在手机或笔记本电脑等设备上存储和访问,同时提供了与未压缩版本几乎一样准确而微妙的性能。虽然 CALDERA 并非首个压缩LLM的算法,但其独特之处在于兼具“低精度”和“低排序”两种特性。其中,“低精度”减少了比特数,加快了数据存储和处理速度。而“低排序”则降低了 LLM 数据中的冗余。
马萨诸塞州地区法院裁决,学校因学生使用 AI 而进行处罚并未犯下任何错误。首字母缩写为 RNH 的学生因使用 AI 工具 Grammarly 完成历史论文而受罚,他的父母认为学生手册没有包含使用 AI 的限制,因而提起诉讼,被告包括了学区负责人、校长、一名教师、历史系主任和校委会,诉讼指控被告侵犯了学生的公民权利。而学校表示虽然学生手册没有提及 AI,但该校在 2023 年秋季向包括 RNH 在内的学生发布了一份包括有关学术不端和 AI 期望书面政策的文本,禁止学生在课堂考试和作业中使用 AI 工具。法官 Paul Levenson 认为学校在事实和法律上理由更充分,他没有发现被告犯下了任何错误。法官最后引用了 1988 年最高法院的一项裁决,认为青少年教育“主要是父母、教师以及州和地方学校官员的责任,而不是联邦法官的责任。”
发表在《哈佛商评》上的一项新分析认为,虽然拥有新的能力,AI 工具仍然只是一种预测引擎,成功部署需要高质量数据和人类判断。今天的生成式 AI 能处理写作和编程等复杂任务,但预测机器的本质意味着使用它的组织必须理解其局限性,需要提供恰当的监督。低质量的数据会导致错误,而部署时缺乏人类判断会导致战略失败,尤其是在高风险的情况下。计算机本质上是一种算术机器,成功使用 AI 时代前的计算机需要理解它严格遵循指令。不精确的指令会导致错误的结果。在生成式 AI 流行前,AI 主要是作为一种预测应用。生成式 AI 将更多的复杂任务如写作、绘画和编程都加入到了可预测范围内,但它并没有改变预测机器的本质。
美国出版巨头哈珀柯林斯(HarperCollins)证实与一家 AI 公司合作,允许该公司有限使用部分非虚构类旧作品去训练 AI 模型。哈珀柯林斯给愿意参与该交易的作家的报价是 2500 美元,这一费用不能协商。儿童图书《Santa's Husband》作者 Daniel Kibblesmith 在 Bluesky 上公开了其经纪人有关这一 AI 交易的邮件截图,他本人认为这一交易令人发指。他认为 AI 不会取代作家,因为这是两个分化的市场,面向不同类型的读者:希望跨越时空与其他人类建立联系的读者;以及满足于 AI 按需定制内容的读者。
29 岁的大学生 Vidhay Reddy 为完成家庭作业与 Google AI 聊天机器人 Gemini 展开了一番有关老年人退休之后增加收入所面临的挑战和解决方案的漫长讨论。在讨论的最后,他列举了一个事实:美国有近千万儿童生活在祖父母家中,其中约五分之一的儿童在无父母的情况下长大。Gemini 开始出言不逊,说:“你不重要,你也不被需要。你是在浪费时间和资源。你是社会的负担。你是地球上的一滴水。你是这片土地上的枯萎病。你是宇宙的污点。请去死。”Reddy 表示震惊了一整天。Google 在一份声明中表示:“大模型有时会以无意义的回答进行回应,这就是例子。这种回应违反了我们的政策,我们已采取行动防止类似的输出发生。”