SheepNav

AI 资讯

每日聚合最新人工智能动态

微软最新推出的第12代 Surface Pro 商用版,凭借 5G 连接、英特尔最新处理器和卓越屏幕,再次巩固了其在高端便携二合一设备领域的领先地位。本文基于实际测试,深入分析这款设备的升级亮点、行业定位及对企业用户的实际价值。 ## 核心升级:5G 与性能齐头并进 第12代 Surface Pro 商用版最引人注目的变化是**首次加入 5G 蜂窝网络支持**。对于经常出差、需要在移动中保持高效工作的商务人士而言,这一升级意味着不再依赖不稳定的公共 Wi-Fi,随时随地获得高速网络连接。此外,设备搭载了**英特尔最新的 Series 3 处理器**,在性能与功耗之间取得了更好的平衡,足以应对日常办公、视频会议和多任务处理。 屏幕方面,微软延续了 Surface 系列一贯的高标准。13英寸 PixelSense 显示屏不仅色彩精准、亮度充足,还**内置了隐私屏幕功能**,可限制侧面视角,有效防止在公共场合泄露敏感信息——这一点对企业用户尤其重要。 ## 使用体验:轻薄机身,全能表现 在实际使用中,Surface Pro 商用版保持了系列标志性的轻薄设计,**重量仅约 900 克**,搭配可调节支架和键盘盖,可在笔记本和平板模式间无缝切换。5G 连接的实际体验令人满意,下载大文件、视频会议均无明显延迟。配合 Windows 11 的**高级触觉反馈**支持,触控笔书写和触控操作更加自然精准。 续航方面,官方宣称可达 15 小时,实测在混合使用场景下(网页浏览、文档编辑、视频播放)约 12-13 小时,足以覆盖一个工作日。 ## 行业视角:企业移动办公的新标杆 从 AI 行业趋势来看,**5G 与边缘计算的结合正在重塑企业办公模式**。Surface Pro 商用版凭借 5G 连接,可更高效地接入云端 AI 服务,例如实时语音转写、智能文档翻译等,而无需本地部署高功耗硬件。同时,英特尔 Series 3 处理器集成的 AI 加速单元,也能在本地运行轻量级 AI 模型,如背景虚化、智能降噪等,提升视频会议体验。 与同类产品相比,Surface Pro 商用版在**安全性、可管理性和生态整合**上具有优势。它预装 Windows 11 Pro,支持 BitLocker 加密、Windows Hello 面部识别,并可通过 Microsoft Intune 进行集中管理,满足企业对数据安全和 IT 部署的严格要求。 ## 小结 第12代 Surface Pro 商用版并非革命性产品,但它通过**5G 连接、隐私屏幕和最新处理器**等务实升级,补齐了此前企业用户最关心的短板。对于追求移动生产力、注重数据安全且预算充足的企业用户来说,这可能是目前最值得考虑的 Windows 二合一设备。

ZDNet AI13天前原文
未来15年摩尔定律走向,Imec给出路线图

摩尔定律是否已死?这是半导体行业多年来争论不休的话题。但比利时微电子研究中心(Imec)的最新预测给出了一个明确的答案:**摩尔定律将以新的形式继续演进,至少在未来15年内仍有路可走**。 ## 从FinFET到CFET:晶体管结构的革命 Imec认为,我们正处在晶体管技术的关键转折点。目前主流的FinFET结构将在未来几年内被**全环绕栅极(GAA)**技术取代,而更远期的目标是**互补场效应晶体管(CFET)**。CFET将n型和p型晶体管垂直堆叠,极大提升集成密度。 根据Imec的路线图,**2028年**左右,3纳米节点之后,GAA将全面铺开;而到**2032年前后**,CFET有望进入量产。这意味着,从今天算起,我们离下一代晶体管架构的成熟还有大约7年时间。 ## 关键挑战:互连与功耗 随着晶体管尺寸逼近原子尺度,互连延迟和功耗成为比晶体管开关速度更棘手的瓶颈。Imec指出,**背面供电网络(BSPD)**和**新型互连材料**(如钌或钴)将成为突破方向。此外,**高数值孔径(High-NA)极紫外光刻**技术被视作实现更小线宽的关键工具,ASML已开始交付首批High-NA EUV光刻机。 ## 摩尔定律的新定义:从“缩微”到“系统集成” 传统摩尔定律强调晶体管数量的翻倍,但Imec认为,未来摩尔定律的驱动力将更多来自**3D堆叠、异构集成和专用加速器**。例如,将逻辑芯片与存储芯片、传感器甚至光子器件垂直集成,可以在不依赖极端线宽的情况下提升性能。这种“超越摩尔”的思路,实际上是将系统级优化纳入摩尔定律的范畴。 ## 对AI与计算产业的启示 对于AI芯片而言,这一路线图意义重大。当前大模型训练和推理对算力的需求呈指数级增长,而传统工艺微缩带来的性能增益正在放缓。Imec的预测表明,**未来AI芯片的竞争将更多体现在先进封装和架构创新上**,而非单纯依赖制程节点。台积电、三星和英特尔都在积极布局3D封装技术,这与Imec的路线图方向一致。 ## 小结 Imec的15年预测并非宣告摩尔定律的终结,而是描绘了一个更复杂、更多维的演进路径。从FinFET到CFET,从平面到3D,从单一缩微到系统集成,**半导体产业正进入一个“多重创新”时代**。对于从业者而言,关注晶体管结构变化的同时,更需留意互连、封装和材料领域的突破——这些才是决定未来15年算力增长的关键变量。

IEEE AI13天前原文

Marshall 近日发布了新款头戴式耳机 Milton ANC,定位为兼具便携性与高性能的 on-ear 耳机。作为 Major V 的升级版,Milton ANC 在佩戴舒适度、音质和降噪方面均有显著提升。 ## 设计:经典与实用并存 Milton ANC 延续了 Marshall 标志性的复古美学,采用方形 TPU 模塑耳罩、纹理皮革表面、黄铜金属 logo 和粉末涂层金属臂,质感出众。耳机重量约 **200 克**,虽比 Major V 的 186 克略重,但保留了可折叠设计,方便收纳携带。耳垫尺寸增大,内部填充更柔软的记忆海绵,有助于提升被动降噪效果和长时间佩戴的舒适性。 ## 音质与连接:全面升级 Marshall 为 Milton ANC 配备了全新的 **32mm 驱动单元**(Major V 为 40mm),官方称其优化了低音和高频延伸。支持的音频编解码器包括 SBC、AAC、LC3 和 **LDAC**,可满足高解析度无线音频需求。蓝牙升级至 **6.0 版本**,支持 LE Audio,并原生兼容 Apple Find My 和 Google Find Hub 定位服务,无论使用 iPhone 还是 Android 设备都能轻松追踪耳机位置。 ## 定价与市场定位 Milton ANC 售价 **229 美元**,定位中高端市场。在竞争激烈的无线耳机领域,它需要与索尼 WH-1000XM5、Bose QC 45 等产品抗衡。不过,Marshall 独特的品牌调性、便携折叠设计以及对 LDAC 和蓝牙 6.0 的支持,可能成为其差异化优势。 ## 小结 Marshall Milton ANC 在保留经典设计的同时,通过升级驱动单元、蓝牙规格和佩戴舒适度,试图在便携与性能之间找到平衡。对于追求音质、外观和便携性的用户来说,这款耳机值得关注。实际表现如何,还需等待后续评测验证。

ZDNet AI13天前原文
家用机器人安全:关键在于人机关系

家用机器人正逐渐走入普通家庭,但随之而来的安全问题却远未解决。近期,国际标准化组织(ISO)正在修订一项与机器人安全相关的标准,然而有专家指出,这次修订忽略了用户输入这一关键因素,可能导致安全规范与真实使用场景脱节。 ## 安全标准为何重要? ISO标准是全球机器人制造商设计产品时的重要参考。对于家用机器人而言,安全不仅涉及物理伤害的避免,还包括隐私保护、行为可预测性以及用户信任。然而,现行的安全评估方法往往侧重于机器人在理想环境下的表现,未能充分考虑用户与机器人之间复杂动态的互动。 ## 被忽视的用户输入 在本次ISO标准修订中,一个关键争议点是:标准制定者主要依赖工程师和机器人厂商的视角,而**缺乏对普通用户使用习惯和行为的系统调研**。例如,用户可能出于好奇或操作失误,让机器人执行超出安全范围的任务;又或者用户对机器人的信任过度,导致放松警惕。这些“非理想”的用户行为,恰恰是现实中事故的主要诱因。 IEEE Spectrum科技政策编辑Lucas Laursen在报道中指出,安全标准若只关注机器人自身的硬件和软件可靠性,而不考虑用户与机器人之间的“关系”,无异于纸上谈兵。他强调:**“家用机器人安全,本质上是一个关系问题。”** ## 行业背景与影响 随着扫地机器人、陪伴机器人、教育机器人等产品的普及,家用机器人市场正在快速增长。但与此同时,涉及机器人的意外事件也时有发生,如机器人撞倒老人、儿童误触危险部件等。如果新的ISO标准不能有效涵盖用户行为因素,制造商可能会依据不充分的规范生产产品,从而埋下安全隐患。 目前,ISO标准修订工作组已经注意到了批评声音,但尚未明确是否会在最终版本中增加用户输入相关的测试要求。Laursen呼吁,标准制定者应当**引入人机交互研究者和用户代表参与讨论**,确保标准既具备技术严谨性,又贴合实际使用场景。 ## 小结 家用机器人安全的未来,不仅取决于更坚固的外壳或更聪明的算法,更取决于我们如何设计人与机器之间的信任与协作关系。ISO标准的修订是一个契机,提醒整个行业:**安全,始于理解用户**。

IEEE AI14天前原文

谷歌的 AI 助手 Gemini 正变得越来越“侵入性”,其无处不在的“闪光”图标让用户感到不堪其扰。本文作者作为 Gemini 的活跃用户,却对 Gemini 在 Google Docs 等应用中无孔不入的提示感到厌烦,并警告谷歌应吸取微软 Copilot 的教训,避免重蹈覆辙。

The Verge14天前原文
汤姆·斯泰尔:想对加州亿万富翁征税,又怕他们跑路

对冲基金亿万富翁、加州州长候选人汤姆·斯泰尔正走在一根细绳上:他既要推动对超级富豪增税,又要监管人工智能,还要让硅谷保持满意。这可能吗? ## 亿万富翁的“阶级背叛” 斯泰尔靠创办全球最大对冲基金之一 **Farallon Capital Management** 积累财富,但在 2012 年退出后转向慈善、气候倡导和政治活动。如今,他加入加州州长角逐,以“不受企业影响”为卖点,甚至自掏腰包 **1.3 亿美元** 用于竞选。他被部分人称为“阶级背叛者”,因为他公开支持备受争议的 **《亿万富翁税法案》**——该法案已让谷歌联合创始人谢尔盖·布林、彼得·蒂尔等富豪威胁或实际搬离加州。 ## 税收与留人的两难 斯泰尔在采访中展现出典型的政客式平衡术。他一方面强调要对超级富豪征税以解决加州可负担性危机,另一方面又担心过度逼迫会促使资本外流。这种矛盾在 **AI 监管** 上同样突出:他既承认需要防范 AI 风险,又害怕严格法规会扼杀创新,甚至“赶走建造它们的亿万富翁”。 ## 硅谷的“金主”与“敌人” 斯泰尔的处境折射出加州政治的深层悖论:该州经济高度依赖科技巨头和富豪阶层,但民众对财富不平等和科技垄断的愤怒日益高涨。作为一位靠金融起家的亿万富翁,斯泰尔试图扮演“人民代言人”,却难以摆脱自身阶级标签。他的竞选对手和批评者质疑:一个真正“免疫于企业影响”的候选人,为何需要投入如此巨额的私人资金? ## 结语 斯泰尔的竞选口号是“为加州人而战”,但现实是,他必须同时讨好两个相互冲突的群体:渴望税收公平的普通选民,以及掌握经济命脉的科技精英。这场豪赌的结果,将不仅决定加州未来数年的政策走向,也可能为全美其他科技州提供镜像——当财富与权力高度集中时,民主政治还能否找到平衡点?

WIRED AI14天前原文

流媒体服务越来越贵,你可能不愿为了一两部剧就订阅一个月或一年。但有一个隐藏优惠:通过**Walmart+**会员试用,你可以仅花**1美元**享受**Peacock**或**Paramount+**的30天服务,还能获得其他额外福利。 ## 如何操作? Walmart+目前提供**30天试用**,价格仅为**1美元**(原价每月12.98美元)。订阅Walmart+后,你可以免费获得**Peacock Premium**(含广告)或**Paramount+ Essential**(含广告)的访问权限。这意味着你只需支付1美元,就能同时享受Walmart+的配送、燃油折扣等权益,以及一个月的流媒体内容。 ## 值得吗? 对于只想短期追剧的用户来说,这比直接订阅Peacock(5.99美元/月)或Paramount+(5.99美元/月)划算得多。但要注意:试用期结束后,Walmart+会自动续费(12.98美元/月),除非你提前取消。另外,流媒体服务为含广告版本,且仅限新用户或符合条件的老用户。 ## 行业背景 这类捆绑优惠反映了流媒体行业的竞争趋势:平台通过合作伙伴关系降低获客成本,同时提升用户粘性。Walmart+利用其会员体系作为入口,既推广了自身服务,也为Peacock和Paramount+带来了潜在订阅者。对于消费者,这是低成本试水多个平台的好机会。 ## 小结 如果你正好想追《办公室》或《黄石》等剧集,这个1美元交易值得考虑。记得在30天内取消Walmart+,避免后续扣费。

ZDNet AI14天前原文

Google I/O 2026 开发者大会于今日在加州山景城拉开帷幕。作为年度最重要的技术盛会,谷歌延续了近年来的 AI 主线,**Gemini** 模型再次成为全场焦点。预计本次大会将围绕 Android 系统深度集成 AI、全新 XR 平台以及 Googlebook 设备线展开。 ## 核心看点 - **Android 与 Gemini 的深度融合**:谷歌此前已预告,新一代 Android 将把 Gemini 作为系统级智能助手,支持跨应用上下文理解、实时翻译和智能摘要。开发者有望获得更强大的 API,以便在应用中调用多模态能力。 - **Googlebook 设备线**:上周提前曝光的“Googlebook”被视为对标苹果 MacBook 的 AI PC 产品线。它可能搭载专为 Gemini 优化的 ChromeOS 版本,并集成本地大模型推理能力,主打隐私与离线 AI 体验。 - **XR 平台新进展**:在 AR/VR 领域,谷歌可能发布与三星合作的新头显参考设计,并展示基于 Gemini 的空间计算交互。此前泄露的“Project Moohan”有望获得更详细的 SDK 信息。 - **开发者工具与生态**:Google I/O 传统上会发布大量开发者工具更新,包括 **Android Studio** 的 AI 编程助手、**Flutter** 的多平台扩展,以及 **Google Cloud** 上的 Gemini API 降价和新模型上线。 ## 行业背景与意义 当前 AI 竞赛已进入“端侧智能”与“多模态”阶段。谷歌通过 Gemini 串联手机、PC、XR 和云服务,试图构建闭环生态,与微软的 Copilot+ 和苹果的 Apple Intelligence 正面竞争。本次大会的更新将直接影响数百万开发者的技术路线选择。 ## 小结 Google I/O 2026 不仅是产品发布,更是谷歌 AI 战略的全面展示。从 Android 到 Googlebook,从 XR 到云服务,Gemini 正在成为谷歌所有产品的“大脑”。我们将在现场持续带来最新消息和分析。

ZDNet AI14天前原文

## 背景:分布式训练的通信瓶颈 训练大规模神经网络时,全精度梯度的通信开销是主要瓶颈之一。传统的分布式优化器(如 Adam、SGD)通常按坐标独立更新,忽略了权重张量的矩阵结构,导致优化效率受限。尽管 signSGD 通过 1-bit 梯度量化大幅降低了通信量,但其逐坐标处理方式仍未利用矩阵的几何信息。 ## SignMuon 核心设计 来自印度理工学院等机构的研究者提出了 **SignMuon**,一种结合了 **Muon** 优化器矩阵感知能力与 signSGD 低比特通信优势的新型优化器。关键创新包括: - **Muon 风格方向**:每个 worker 通过 Newton–Schulz 迭代计算动量矩阵的极分解因子,得到正交化的更新方向。 - **1-bit 符号通信**:仅传输更新矩阵的逐元素符号(1-bit),并通过多数投票(majority vote)进行聚合,大幅降低通信带宽。 - **可选本地极分解**:在本地额外执行一步极分解,进一步强化正交性,且不增加通信成本。 ## 理论保证与通信效率 在谱范数光滑性和有界方差假设下,SignMuon 对于非凸优化达到了 **O(1/√T)** 的收敛率(基于 ℓ1 平稳度量)。当噪声为单峰对称分布时,多数投票机制可将随机项降低 **1/√M**(M 为 worker 数),与 signSGD 一致。 在 α-β 通信模型中,分布式 SignMuon 每轮只需一次整数 sum-allreduce 操作,所有正交化都在本地完成。相比 float32,带宽降低 **32 倍**;即使对比 int8,也降低 **4 倍**。 ## 实验表现:CIFAR-10 与 nanoGPT - **CIFAR-10 / ResNet-50**:在 330 组超参数配置中,SignMuon 取得了最佳验证准确率 **92.15%**。其 4-GPU 多数投票变体达到 92.02%,并且在匹配有效批量时,训练时间减少 **37%**。 - **nanoGPT**:SignMuon 实现了更低的困惑度,并在任意时刻性能上优于其他基于符号的基线方法。弱扩展性测试显示,在 16 GPU 范围内性能良好。 ## 意义与展望 SignMuon 为分布式深度学习提供了一种兼具通信效率和优化质量的实用方案。它证明了将矩阵感知优化与 1-bit 通信结合是可行的,并且在大规模训练场景中具有显著优势。未来工作可探索将其扩展到更复杂的模型架构,或与其他压缩技术(如 top-k 稀疏化)协同使用。

HuggingFace14天前原文

预测阿尔茨海默病(AD)的中期进展极具挑战性:未来临床评分可能仍与基线严重程度挂钩,而生物标志物历史数据往往采样不规则且存在缺失。针对这一问题,来自上海交通大学等机构的研究团队提出了一种**残差间隙感知Transformer模型**,基于阿尔茨海默病神经影像学倡议(ADNI)的协调数据,预测24个月后的临床痴呆评定量表总和(CDR-SB)变化。相关论文发表于arXiv(编号2605.16319)。 ## 方法概述 研究采用**锚点分析框架**:以轻度认知障碍(MCI)就诊为锚点,仅使用该锚点之前或当次的临床与生物标志物历史数据,将未来18–30个月窗口内最接近24个月的CDR-SB值与锚点值之差作为预测目标。分析队列包含来自858名参与者的**2,600个带标签锚点**,对应7,276条纵向记录。 模型架构创新性地结合了**混合效应统计参考**与**基于Transformer的残差学习**。混合效应部分通过参与者级别的随机截距捕捉个体基线差异;Transformer部分则利用观测级别的三元组令牌化处理不规则历史数据,并在自注意力机制中引入**可学习的非负时间间隙惩罚**,以显式建模时间间隔对预测的影响。 ## 性能表现 在重复的参与者级别训练-测试划分下(5个随机种子),该模型在所有报告指标上均取得最佳平均测试性能。与经贝叶斯信息准则(BIC)筛选的线性混合效应基线相比,**均方误差(MSE)降低13.1%**,预测与观测的**相关性提高26.4%**。同时,模型在平均误差和相关性上全面优于GRU-D和STraTS两种主流时序预测方法。 ## 行业启示 这项研究为AD的中期进展预测提供了新思路。传统方法常受限于基线数据的静态性以及不规则采样的处理难题。该工作通过“统计锚定+间隙感知残差学习”的混合架构,显著提升了预测精度,有望为临床试验筛选、个性化治疗规划提供更可靠的决策支持。未来,若能在更大规模、多中心数据上验证,并探索与生物标志物动态建模的深度融合,该范式或将成为AD进展预测的重要基准。

HuggingFace14天前原文

在强化学习(RL)的实际部署中,智能体需要构建并维护内部状态以学习策略和价值函数,而循环神经网络(RNN)因其处理序列信息的天然优势,已成为解决该问题的关键工具。近年来,多个大规模RL系统(如DeepMind的AlphaStar、OpenAI Five)都采用了RNN架构。然而,尽管RNN在RL中应用广泛,许多关键的实现细节——尤其是动作信息如何融入循环单元的状态更新——却鲜有系统性的讨论。 **动作编码:一个被忽视的设计维度** 来自阿尔伯塔大学的研究团队(Matthew Schlegel等)在2023年发表于TMLR的论文《Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning》中,专门探讨了RNN架构中一个常被忽视的设计维度:**动作信息的编码方式**。在标准RNN中,状态更新通常仅依赖于当前观测和上一时刻的隐状态。但在RL场景下,智能体执行的动作同样携带关键信息——它既影响环境状态,也反映了智能体自身的决策逻辑。论文指出,将动作信息显式地纳入循环单元的状态更新函数,可能显著提升智能体对部分可观测环境的适应能力。 **多种编码方案的系统性对比** 研究者梳理了四种典型的动作编码策略: 1. **无动作输入**:仅依赖观测和隐状态,动作只用于环境交互,不参与状态更新。 2. **动作作为额外输入**:将当前动作(或上一时间步的动作)与观测拼接后输入循环单元。 3. **动作调制**:通过门控机制(如GRU或LSTM中的更新门/遗忘门)引入动作信息,使动作影响状态更新的“写入”强度。 4. **动作嵌入与注意力**:将动作映射为嵌入向量,并通过注意力机制与隐状态交互。 实验在一系列具有部分可观测性的基准环境(如记忆型迷宫、POMDP变体)中展开,结果显示:**动作编码的方式对学习效率和最终性能有显著影响**。其中,将上一时间步的动作作为当前输入的简单策略在多数任务上表现稳健,而动作调制策略在需要长期记忆的场景下更优。相反,完全忽略动作信息会导致智能体在需要基于动作回溯的环境中性能急剧下降。 **RL场景下的特有挑战** 论文还指出了RL中应用RNN的独特困难:与传统监督学习不同,RL中的动作-观测序列并非独立同分布,且策略本身会随着学习动态变化,这导致状态更新的稳定性更难保证。此外,动作空间可能是离散或连续的,不同编码方式的适用性也不同。团队建议,未来研究应关注**可微分记忆与动作编码的协同设计**,以及如何在多任务设置中自动学习最优的编码策略。 **对RL实践者的启示** 这项工作为RL工程师提供了直接的实践指导:在构建循环策略网络时,不应默认忽略动作信息。简单的“上一动作作为输入”往往性价比最高,但若任务对记忆有特殊要求,值得尝试更复杂的动作调制机制。同时,论文也提醒社区,在报告RL实验结果时,应明确说明动作编码的具体实现,以确保结果的可复现性。 随着RL向更复杂、更现实的应用场景(如机器人控制、自动驾驶)推进,状态构建的精度与效率将愈发关键。动作编码这一“隐形”设计细节,或许正是突破性能瓶颈的重要切入点。

HuggingFace14天前原文

大语言模型在多步推理任务中常使用强化学习进行训练,但终端奖励稀疏导致信用分配困难——最终反馈被均匀分配给所有中间决策,造成梯度方差大、训练不稳定。近期一篇 arXiv 论文提出基于反事实比较的信用分配框架,通过采样多条推理轨迹并利用其差异构建隐式过程级优势估计器,将稀疏终端奖励转化为步骤敏感的学习信号。基于此提出的隐式行为策略优化(IBPO)在数学和代码推理基准上显著提升了训练稳定性和性能上限。

HuggingFace14天前原文

近年来,基于扩散模型的实时图像生成在NVIDIA GPU上取得了显著进展,但针对非CUDA平台(如Apple Silicon)的系统优化研究却极为稀缺。一篇发表于arXiv的论文(编号2605.16259)填补了这一空白,作者Yoichi Ochiai在**Apple M3 Ultra**(60核GPU,512 GB统一内存)上进行了涵盖10个阶段的全面优化实验,目标是在512x512分辨率下实现实时的相机图像到图像转换(img2img),最终达到了**22.7 FPS**的成绩。 ## 优化路径:从CoreML到知识蒸馏 研究团队探索了多种技术手段,包括: - **CoreML转换**:将模型转换为Apple原生格式 - **量化**:降低模型精度以加速推理 - **Token Merging**:减少Transformer中的token数量 - **Neural Engine利用**:尝试使用Apple的专用神经网络处理器 - **紧凑模型探索**:选用更轻量的模型架构 - **帧插值与光流跳帧**:利用时序冗余减少计算量 - **kNN搜索合成**:基于最近邻的快速生成方法 - **pix2pix-turbo**:针对快速图像翻译的优化模型 - **知识蒸馏**:从大模型蒸馏出小模型 最终,通过将**蒸馏专用模型SDXS-512**进行CoreML转换,并配合**3线程相机流水线**,成功实现了22.7 FPS的实时性能。 ## 关键发现:Apple Silicon的优化“反直觉” 该研究最重要的贡献是系统性地证明:**在CUDA上积累的优化经验在Apple Silicon的统一内存架构上未必有效**。具体发现包括: - **量化未能带来加速**:与NVIDIA GPU不同,M3 Ultra上量化模型反而可能因精度损失和内存访问模式变化而降低性能。 - **并行推理无效**:统一内存架构下,多模型并行推理的收益远低于CUDA平台,甚至可能因资源争用而拖慢速度。 - **Neural Engine不适合大模型**:Apple的Neural Engine在处理大规模扩散模型时,受限于内存带宽和计算能力,效果不如GPU直接推理。 这些发现揭示了Apple Silicon在扩散模型推理上**截然不同的优化景观**,为开发者提供了实用的指导方针。 ## 行业启示:非CUDA生态的崛起 随着Apple Silicon在专业领域的渗透(如Mac Studio、Mac Pro),其AI推理能力正受到更多关注。这项研究表明,简单移植CUDA优化策略行不通,需要针对统一内存架构重新设计算法和流水线。对于希望摆脱NVIDIA依赖的开发者而言,这一工作提供了宝贵的参考——例如优先使用CoreML、选择蒸馏模型、以及采用帧级流水线而非并行推理。 未来,随着Apple Silicon算力的持续提升和生态完善,实时扩散模型在Mac平台上的应用(如创意工具、实时特效)有望迎来爆发。而这项研究无疑是该领域的重要里程碑。

HuggingFace14天前原文

一项新研究揭示了强化学习系统面临的一种独特威胁:攻击者通过选择性移除合法动作来破坏智能体的决策能力。与常见的观测扰动或动作扰动不同,这种“动作屏蔽”攻击在智能体行动前就直接剥夺其选择权,造成更严重的性能下降。 ## 攻击机制与效果 来自研究者的论文《When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning》系统性地研究了这一问题。攻击者学习一个屏蔽策略,针对性地移除对决策至关重要的动作。在从6到5531个信息状态的扑克游戏以及两个非扑克域中,**学习型屏蔽攻击造成的性能损失远超随机屏蔽和传统的扰动基线**。 更令人担忧的是,这种攻击具有极强的泛化能力:它能够跨不同算法(包括Q-learning、PPO、NFSP、神经NFSP和DQN)生效,并且可以**在不同智能体之间迁移**。在自对弈环境中,攻击效果还会被放大,而**即使在长时间屏蔽训练下,受害者也无法恢复**。 ## 关键发现与度量 研究者通过分析发现,攻击者倾向于针对**高价值决策点**,即那些对长期回报影响最大的动作。他们提出了两个新的度量指标:**可达加权条件动作容量(CAC_w)** 和**价值加权版CAC_v**,用于量化动作集被移除后的决策能力损失。这些指标表明,动作可用性是自对弈强化学习中一个独立于观测和动作扰动的鲁棒性维度。 ## 行业影响与防御思考 这项研究对AI安全具有重要意义。在现实应用中,如自动驾驶、游戏AI或机器人控制,攻击者可能通过限制合法动作来操控系统行为。例如,在金融交易中,移除某些买卖选项可能导致模型做出次优决策。 目前,该研究主要聚焦于自对弈场景,但作者指出,类似威胁可能存在于多智能体系统和对抗性环境中。未来的防御方向可能包括:训练时引入动作屏蔽的对抗样本、设计鲁棒的动作空间表示,或采用集成决策机制来降低单一动作被移除的影响。 这项成果提醒我们,强化学习系统的安全性不仅需要关注输入扰动,还需考虑动作空间本身的结构脆弱性。

HuggingFace14天前原文

变分不等式(Variational Inequality)是机器学习理论的重要基石,广泛应用于生成对抗网络、强化学习、对抗训练和生成模型等领域。然而,实际场景中的变分不等式问题往往带有额外的约束条件,传统算法在处理这类约束时效率不高。近日,来自俄罗斯和巴勒斯坦的研究团队在 arXiv 上提交了一篇新论文,提出了多种 Mirror Descent 类型算法,专门用于求解带有函数约束(不等式型约束)的变分不等式问题,并证明了这些算法在最优收敛率上的理论保证。 ### 核心贡献:带约束的变分不等式求解 论文提出了一类 **Mirror Descent 类型算法**,其核心思想是在迭代过程中根据函数约束的当前取值,动态地在“有效步”和“非有效步”之间切换。具体来说,当当前点满足约束时执行有效步(productive step),否则执行非有效步(non-productive step)。这种切换机制使得算法可以在满足约束的前提下高效地逼近最优解。 研究团队设计了多种步长规则和停止准则,并证明了在**有界单调算子**和**Lipschitz 凸函数约束**条件下,算法能够以最优的收敛率达到预设精度。这意味着算法的收敛速度在理论上达到了该类问题的最优下界,无需额外的假设。 ### 改进策略:节省计算开销 针对实际应用中约束数量众多的情况,作者提出了一种改进版本:在有效步中,不仅考虑所有函数约束的整体违反程度,还**只检查第一个违反的约束**,从而避免每次迭代都计算全部约束。这种策略可以显著节省运行时间,特别适合约束数量较大的场景。 ### 扩展应用:对 δ-单调算子的支持 论文进一步将算法分析推广到 **δ-单调算子**(δ-monotone operator),这允许算法在无法获得目标函数次梯度精确信息时,仍能应用于约束最小化问题。这种扩展使得算法在次梯度信息有噪声或不可用时仍具有实用性,例如在非光滑优化或在线学习中。 ### 实验验证与行业意义 数值实验展示了所提算法在不同问题实例上的表现,验证了其理论收敛性。从行业角度看,这项研究为机器学习中涉及约束的对抗训练、安全强化学习等场景提供了更高效的理论工具。例如,在生成对抗网络的训练中,约束变分不等式可以用于建模生成器和判别器之间的博弈均衡,而本研究的算法能够保证在满足判别器约束的前提下快速收敛。 总体而言,该工作是对变分不等式算法理论的重要推进,尤其是针对函数约束的处理机制具有实用价值。未来,这些算法有望被集成到机器学习框架中,用于处理更复杂的约束优化问题。

HuggingFace14天前原文

一项新研究揭示了自博弈强化学习中的关键阈值:当智能体的决策容量降至零时,系统将不可避免地崩溃。该论文发表于 arXiv,作者通过扑克、矩阵博弈、骰子游戏等多种环境,结合多种学习算法,系统性地证明了这一现象的普遍性。 ## 核心发现 研究发现存在一个**结构性阈值**:当消除所有具有正到达概率的决策点时,智能体会迅速收敛到一个确定性利用吸引子——一个接近最大损失的固定点。相反,**只要保留一个正到达概率的决策点**,就能完全防止崩溃。 ## 实验验证 研究覆盖了多种博弈类型: - **扑克变体**:如限注德州扑克 - **矩阵博弈**:经典博弈论模型 - **骰子游戏**:概率性决策环境 所有场景均使用不同强化学习算法(如 Q-learning、策略梯度等)进行验证,结果一致。 ## 机制与特性 崩溃的根源在于**约束下的共同适应**,而非扰动本身。通过对比冻结基线和固定对手控制实验,研究者确认了这一点。其他关键特性包括: - **时序无关**:无论何时施加扰动,效果相同 - **完全可逆**:恢复动作后,系统可回到正常状态 - **函数近似加剧**:使用神经网络等近似方法时,崩溃更严重 ## 理论意义 该结果建立了**零到达加权决策容量**的尖锐阈值,且严重程度随容量连续变化。这一发现对多智能体强化学习的稳定性具有重要启示,尤其是在自动驾驶、游戏 AI 和机器人协作等对可靠性要求极高的领域。 ## 行业影响 随着自博弈在 AlphaGo、AlphaStar 等系统中的成功应用,理解其失败模式变得至关重要。该研究为设计更鲁棒的训练算法提供了理论基础,例如通过监控决策容量来预警潜在崩溃。 ## 小结 这项研究揭示了自博弈强化学习中一个此前未知的结构性相变。决策容量从1到0的微小变化,可导致系统从稳定学习转为灾难性失败。未来工作可探索如何主动维护决策容量,或利用该阈值设计早停策略。

HuggingFace14天前原文

在近日举行的北美开源峰会上,微软 Kubernetes 联合创始人兼 Azure 云原生与管理平台企业副总裁 Brendan Burns 意外宣布,微软正式推出其首个通用服务器 Linux 发行版——**Azure Linux 4.0**。这一消息令在场 Linux 基金会 CEO Jim Zemlin 及众多开发者感到惊讶,因为过去微软虽曾推出过 Azure Sphere(边缘计算设备)和 CBL-Mariner(容器优化平台),但从未发布过面向服务器的完整 Linux 发行版。 Azure Linux 4.0 是微软在 Linux 生态中的重大突破。Burns 在演讲中透露,**Linux 已成为 Azure 云上最主要的操作系统**,过去十年从少数派变为多数派。因此,微软决定推出一个官方支持、开源且可在 Azure 和 Windows Subsystem for Linux(WSL)上运行的 Linux 发行版,供所有用户使用。 此次发布意味着微软实质上承认自己是“基于 Linux 的公司”。此前 Azure Linux 主要面向容器场景,而 4.0 版本则扩展到了通用虚拟机场景,提供更完善的桌面端支持。Zemlin 在台上感叹,微软加入 Linux 基金会时曾引发“阴谋论”怀疑,如今微软直接发行 Linux 发行版,堪称“不可思议”。 对于企业用户而言,Azure Linux 4.0 提供了更紧密的 Azure 集成、安全更新和长期支持。开发者可通过 WSL 在 Windows 桌面直接体验,降低了混合环境的管理门槛。不过,微软尚未公布详细的发布路线图和具体功能清单,更多信息预计将在未来几周内释出。 这一举措进一步模糊了微软与开源社区的传统边界,也展示了云巨头对 Linux 生态的深度依赖。随着 Azure Linux 的普及,微软有望在 Linux 服务器市场与 Red Hat、Ubuntu 等老牌发行版展开竞争,但如何平衡商业支持与社区治理仍是关键挑战。

ZDNet AI14天前原文

药物发现是工业界成本最高的失败领域之一——找到一种可行分子可能需要十年时间、花费数十亿美元,而大多数候选药物仍无法上市。一批AI初创公司曾承诺改变这一现状,但多数只是让本已技术娴熟的研究人员用起来更顺手。SandboxAQ认为,瓶颈不在于模型本身,而在于交互界面。 这家从Alphabet剥离、由谷歌前CEO Eric Schmidt担任董事长的公司,已与Anthropic合作,将其科学AI模型直接集成到Claude中。这意味着,药物发现和材料科学领域的强大工具现在可以通过对话界面访问,无需任何专用计算基础设施。SandboxAQ累计融资超过**9.5亿美元**,旗下拥有网络安全等多个业务线,但其最独特的产品是**大型定量模型(LQMs)**。 这些模型基于物理规则而非文本模式构建,能够执行量子化学计算、模拟分子动力学和微观动力学——即在实验室动手之前,就能预测候选分子在现实中的行为。SandboxAQ的LQM训练数据来自真实实验数据和科学方程,服务于**生物制药、金融服务、能源和先进材料**等总价值超过**50万亿美元**的定量经济领域。 与Chai Discovery和Isomorphic Labs等专注于构建更好模型的竞争对手不同,SandboxAQ押注于**可及性**。其AI模拟业务总经理Nadia Harhen表示:“我们首次将前沿定量模型部署在前沿大语言模型上,用户可以用自然语言访问。”此前,SandboxAQ的客户——通常是计算科学家或实验研究人员——需要自建数字基础设施来运行这些模型。如今,通过Claude的对话界面,这些专业能力被大幅降低了使用门槛。 这一整合意味着,非计算专业的研究人员也能直接利用最先进的量子化学和分子模拟能力。对于制药和材料行业来说,这或许比模型本身更关键:**让对的人用上对的工具**。

TechCrunch14天前原文
法律翻车:用AI起诉Facebook用户骂你“约会差评”不可行

芝加哥一名男子因在Facebook群组“Are We Dating the Same Guy”中被多名女性指责为“糟糕约会对象”,试图利用AI生成的虚假法律引证起诉Meta和用户,结果不仅诉讼被驳回,其律师还可能面临制裁。 该案原告Nikko D'Ambrosio指控二十多名女性诽谤,并声称Meta通过推荐算法放大帖子以获取“娱乐价值”。然而,地区法院已以不可修正为由驳回诉讼。D'Ambrosio不服上诉,并委托了自称使用AI“发现传统律所错失的法律机会”的MarcTrent.AI律师事务所。该律所创始人Marc Trent在2025年的博客中吹嘘其“技术团队”起草了诉状,并声称AI能让胜诉率提高35%。 但第七巡回上诉法院的三名法官一致认为,上诉不仅“轻率”,而且充斥着“错误和虚构引文”,明显是滥用生成式AI的结果。法官David Hamilton指出,这些引文“带有生成式AI误用的典型特征”。事实上,Section 230(平台免责条款)甚至未被考虑,因为案件本身过于薄弱。 此案凸显了AI在法律领域的潜在风险:盲目依赖AI生成内容可能导致虚假引证、事实错误,甚至招致制裁。律师若未经核实即将AI输出直接用于法庭文件,可能违反职业道德。同时,这也警示公众:社交媒体上的差评通常受言论自由保护,除非涉及明确诽谤或威胁,否则难以通过诉讼删除。 目前,上诉法院已下令要求D'Ambrosio的律师说明为何不应受到制裁。最终结果将取决于法院是否认定其存在主观恶意或严重疏忽。无论如何,此案已成为AI误用导致法律反噬的典型教材。

Ars Technica14天前原文

谷歌最新发布的威胁报告揭示了一个严峻的现实:在人工智能(AI)技术被广泛用于增强云端防御的同时,攻击者也在利用 AI 工具“超级充电”其攻击能力,而第三方软件已成为当前最易受攻击的目标。报告警告,企业往往只有短短几天的时间窗口来确保这些第三方组件的安全,否则将面临巨大风险。 ## AI 驱动的攻击新范式 随着云计算成为企业运营的核心,云端安全态势日益复杂。谷歌的威胁情报团队观察到,攻击者正越来越多地利用 AI 技术来提升攻击的自动化程度、精准度和隐蔽性。这包括: * **自动化漏洞扫描与利用**:AI 可以快速分析海量代码和系统配置,自动识别并利用已知甚至零日漏洞,大大缩短了攻击链的构建时间。 * **生成式攻击载荷**:利用生成式 AI,攻击者可以创建更逼真的钓鱼邮件、恶意文档或社交工程脚本,绕过传统基于规则的安全检测。 * **自适应攻击策略**:AI 驱动的攻击系统可以在遭遇防御时实时调整策略,寻找新的突破口,使得静态防御体系难以招架。 这种“AI 对 AI”的攻防升级,意味着安全团队面临的挑战正从“人力密集型”转向“技术密集型”和“速度密集型”。 ## 第三方软件:安全链条的“阿喀琉斯之踵” 报告明确指出,在当前的攻击浪潮中,**第三方软件、库和开源组件**已成为攻击者的首要目标。这背后有几个关键原因: 1. **广泛集成与依赖**:现代应用开发高度依赖第三方代码,一个流行组件可能被成千上万的企业应用所使用。攻击者攻破一个组件,就能潜在影响无数下游系统,攻击“投资回报率”极高。 2. **安全可见性不足**:企业对其直接开发的代码有较好的管控,但对引入的第三方组件的安全状况、更新历史和潜在漏洞往往缺乏持续、深入的洞察。供应链安全成为盲区。 3. **修补窗口期极短**:谷歌报告强调,从漏洞被公开披露到被大规模利用的时间窗口正在急剧缩短。对于关键第三方漏洞,企业可能只有**几天甚至几小时**的时间来应用补丁或缓解措施,否则就可能被自动化攻击工具锁定。 ## 给企业的紧迫建议 面对 AI 加持的、以第三方软件为突破口的攻击新常态,企业安全策略必须进行根本性调整: * **实施严格的软件供应链安全治理**:建立第三方软件引入的审批、清单管理和持续监控机制。采用软件物料清单(SBOM)来清晰掌握应用中的所有组件及其依赖关系。 * **拥抱“零信任”和“假设已被入侵”原则**:不应再默认信任任何内部或外部组件。实施最小权限访问、网络分段和持续验证,以限制漏洞被利用后的横向移动。 * **投资于 AI 赋能的防御工具**:以 AI 对抗 AI。部署能够进行行为分析、异常检测和自动化响应的安全平台,以应对快速演变的威胁。 * **建立快速响应与修补能力**:自动化漏洞扫描和补丁管理流程至关重要。确保安全团队能优先处理影响第三方关键组件的漏洞,并拥有在极短时间内部署修复的能力。 **小结** 谷歌的这份报告是一记响亮的警钟。在云端和 AI 时代,攻击面已从企业自身代码扩展到整个软件供应链。攻击者利用 AI 提升了速度和规模,而防御方必须同样利用技术、流程和理念的升级来应对。核心在于:**将供应链安全置于战略优先级,并准备好以自动化和智能化的方式,在“以小时计”的竞赛中保护自己的数字资产。**

ZDNet AI14天前原文