以清洁钢铁技术闻名的初创公司 **Boston Metal** 近日完成 **7500万美元** 新一轮融资,**MIT Technology Review** 独家披露。该公司将利用资金扩大关键金属生产,以应对美国工业脱碳支持减弱的形势。 ## 从钢铁到关键金属:技术延伸 Boston Metal 的核心技术是 **熔融氧化物电解(MOE)**:将矿石溶解于熔融电解质中,通入电流加热至约 **1600°C**,通过电化学反应分离金属。该技术最初用于钢铁生产——传统钢铁行业贡献全球约 **8%** 的温室气体排放。但公司发现,MOE 同样适用于其他高价值金属。 其巴西子公司 **Boston Metal do Brasil** 正在建设一座商业设施,计划生产 **铌、钽和锡**。铌用于制造喷射发动机合金和 MRI 超导磁体;钽则用于火箭喷嘴、涡轮叶片及医疗设备。新资金将支持该设施运营,并拓展至 **钒、镍、铬** 等关键金属。 ## 挑战与转折 巴西工厂于 2024 年启动建设,耗时 18 个月,但今年 1 月发生 **工业事故**:反应炉的耐火系统出现泄漏,导致电解质外溢。尽管无人受伤,但运营被迫暂停,公司一度面临现金流问题。此次融资正是事故后的关键资金注入。 此前,Boston Metal 于 2025 年初在麻省 Woburn 完成了最大规模的工业电解池试运行,产出约 **1 吨** 钢铁。但目前公司重心已转向利润更高的关键金属,以增强生存能力。 ## 行业意义 在全球加速能源转型的背景下,关键金属(如钒用于液流电池、镍用于电动汽车电池)需求激增。Boston Metal 的 MOE 技术若能实现低成本、低排放的规模化生产,有望为供应链提供绿色替代方案。然而,技术验证和商业化仍面临挑战,巴西工厂的调试进度将是关键观察点。
## 快讯简报 ### 人造鸡蛋:复活渡鸦的第一步? **Colossal Biosciences** 宣称已研发出“完全人造鸡蛋”——在3D打印的透明塑料杯中培育小鸡。该公司旨在复活渡鸦、巨恐鸟等已灭绝鸟类,但科学家认为其成果被夸大。这项技术可能成为人造子宫的早期步骤。 ### 马斯克 vs. Altman 庭审落幕 **埃隆·马斯克** 针对 OpenAI 的诉讼被驳回,他指控联合创始人 Sam Altman 和 Greg Brockman 误导其关于非营利使命。但庭审中发生了什么?《MIT科技评论》AI记者兼律师 Michelle Kim 在圆桌讨论中详细解读。 ### 脑冷冻与复活:科学家的执念 L. Stephen Coles 的脑组织已在-146°C下保存十多年,其朋友 Greg Fahy 坚信未来能复活。但专家对此持怀疑态度。Fahy 的研究可能推动脑科学和器官移植冷冻技术的发展。 ### AI 能否理解物理世界? LLM 的局限正促使研究者探索能理解物理环境的世界模型。
台湾正加速扩张无人机产能,试图在俄乌冲突催生的全球军需市场中,扮演中国供应链之外的关键替代角色。其主打产品——低成本、可一次性使用的战术无人机——已引起欧洲与美国的浓厚兴趣。 ## 从“中国制造”到“台湾制造”的转场 长期以来,全球消费级与中小型军用无人机市场高度依赖中国供应链,尤其是深圳的大疆创新在民用领域占据绝对优势。然而,地缘政治紧张与供应链安全考量,迫使欧美国家寻找“去风险”方案。台湾凭借成熟的电子制造业基础与半导体优势,成为备受关注的备选基地。 ## “一次性”无人机的战场逻辑 所谓“一次性”无人机,并非指质量低劣,而是强调**低成本、可消耗、快速部署**的设计理念。在俄乌冲突中,双方大量使用商用改装无人机执行侦察、炮火校射甚至自杀式攻击任务,这些无人机往往在数次飞行后即损坏或被击落。台湾厂商推出的产品单价可低至数千美元,远低于传统军用无人机数百万美元的成本,且采用模块化设计,便于快速量产和战场更换。 ## 欧美订单与产能瓶颈 据行业消息,多家欧洲防务公司已与台湾无人机厂商签订意向订单,用于边境监控与快速反应部队配备。美国方面则通过“国防授权法案”拨款,支持台湾提升无人机自产能力。不过,目前台湾无人机年产能仅数千架,而乌克兰战场月消耗量可达上万架。**产能爬坡与关键零部件自主化**(如飞控芯片、发动机)仍是最大挑战。 ## 前景与隐忧 台湾发展无人机产业具备先天优势:ICT产业链完整、研发人才充沛、且与西方防务标准兼容度高。但同时也面临**政治敏感性**——大陆明确反对台湾参与任何形式的军事技术出口。此外,如何平衡民用与军用产能,避免过度依赖单一市场,也是厂商必须考虑的长远问题。 总体而言,台湾“一次性”无人机正踩准全球军需转型的节点,但其能否真正成为欧美可靠的供应链支点,还需时间与政策共同验证。
刚刚走出校园的大学毕业生们,用嘘声表达了对AI前景的担忧。上周,前谷歌CEO埃里克·施密特在亚利桑那大学的毕业典礼上发表演讲,当他谈及人工智能的积极影响时,现场响起了明显的嘘声。这并非个例——同期全美多所高校的演讲者都因对AI的正面评价遭遇了类似冷遇。 施密特在演讲中回顾了技术对年轻一代的影响,称“我们曾以为自己在为人类建造了几个世纪的知识大教堂添砖加瓦,但世界比我们想象的更复杂”。他承认技术“既连接了我们,也孤立了我们”,甚至“侵蚀了公共空间”。然而,当话题转向AI时,现场氛围急转直下。施密特鼓励毕业生利用AI代理团队完成以前无法独立完成的任务,形容这如同“坐上火箭飞船”,并称“即使你不关心科学,AI也会触及一切”。他的话被嘘声打断,不得不暂停演讲。 施密特回应道:“我知道你们很多人对此的感受。我能听到你们的声音。那是恐惧。”他承认毕业生们担心“未来已被写好”的焦虑是“理性的”,但坚持认为AI“将塑造世界”。 ### 不只一位演讲者“撞上枪口” 施密特的遭遇并非孤例。据NBC新闻报道,同周末全美多所大学的毕业典礼上,多位演讲者因对AI的乐观表态遭到嘘声。这背后是应届毕业生对就业市场的深切忧虑——AI正在快速取代传统岗位,而他们即将踏入这个充满不确定性的世界。 ### 毕业生为何愤怒? 对于即将进入职场的毕业生来说,AI带来的不是科幻式的憧憬,而是现实的威胁。从客服、翻译到编程、设计,AI工具正在重塑各行各业。许多学生担心,自己多年苦读获得的技能可能瞬间贬值。施密特所说的“AI让你做到以前做不到的事”,在他们听来更像是“AI会抢走你本可以做的工作”。这种代际间的认知鸿沟,在毕业典礼这一象征“新起点”的场景中被彻底点燃。 ### 行业反思:技术乐观主义遭遇现实阻力 作为谷歌前掌门人,施密特的言论代表了硅谷主流的技术乐观主义。然而,毕业生们的嘘声表明,这种叙事正在失去对年轻一代的吸引力。他们不再无条件相信“技术创造更多机会”的承诺,而是要求更公平的分配机制和更透明的技术影响评估。 这场毕业典礼上的“对峙”凸显了一个尴尬现实:当科技领袖在台上描绘AI的美好未来时,台下听众却正在为生计焦虑。如何回应这种焦虑,不仅是演讲技巧的问题,更是整个AI行业必须面对的社会责任。 ### 小结 从亚利桑那到全美,毕业典礼上的嘘声成为AI时代社会情绪的缩影。毕业生们用最直接的方式告诉科技精英:你们的乐观,我们无法共享。未来,AI行业或许需要更多倾听,而非单向的“布道”。
机器人初创公司 Figure AI 近日进行了一场持续数日的人形机器人直播,展示其最新型号 Figure 03 自主处理包裹的能力。这场原计划八小时的演示最终延长到近一周,吸引了大批科技爱好者围观,甚至有人将其比作“史蒂夫·乔布斯之后最伟大的产品演示”。 ## 直播内容与表现 从 5 月 13 日开始,Figure AI 的机器人被部署在一条传送带旁,任务是对各种小包裹(包括纸箱和软包装袋)进行条码检查,并将条码朝下放置到传送带上。整个过程完全自主,无需人工干预。CEO Brett Adcock 在 X 上表示,团队的目标是让机器人连续工作八小时——而此前一次演示仅持续了一小时。他坦言“有很高概率出问题”,但实际表现远超预期,机器人不仅持续运行了数日,还一度与人类实习生展开“效率竞赛”。 ## 技术亮点:Helix 02 神经网络系统 机器人依赖 Figure 自研的 **Helix 02** 神经网络系统,该系统支持全身控制和“长时程自主决策”。据官网介绍,机器人全身控制器基于超过 **1000 小时** 的人类运动数据训练,并在 **20 万个并行仿真环境** 中进行了模拟训练。Helix 02 完全在机器人本体的硬件上运行推理,无需云端支持。多台机器人之间通过网络通信,当电量不足(单次续航约 3-4 小时)或遇到软硬件故障时,它们可以自主请求同伴接替工作。 ## 行业视角与冷静思考 这场直播在社交媒体上引发狂热,YouTube 评论区为机器人起名,公司也迅速推出相关周边产品。但评论提醒,即便最惊艳的机器人演示也只反映了真实能力的“窄窗口”。人形机器人在工业物流等场景的落地仍面临可靠性、成本和泛化能力等挑战。Figure AI 的演示虽展示了自主性的进步,但距离大规模商用仍有距离。 ## 小结 Figure AI 的直播不仅是一场技术营销的成功案例,也折射出公众对人形机器人的情感投射。在 AI 与机器人产业加速融合的当下,这类演示无疑为行业注入了信心,但理性看待进展、避免过度炒作,才是技术健康发展的关键。
自从ChatGPT横空出世,AI界便掀起了一股寻找各领域“ChatGPT时刻”的热潮。机器人领域也不例外,许多人期待一个类似的大模型突破能瞬间解决机器人技术的所有难题。然而,Agility Robotics联合创始人兼首席机器人官Jonathan W. Hurst和谷歌X前副总裁Hans Peter Brondmo在IEEE Spectrum上撰文指出:**不要指望一个魔法时刻来解决机器人问题——这需要大量的艰苦工作**。 ## 为什么“ChatGPT时刻”在机器人领域不适用? ChatGPT的成功建立在海量文本数据和Transformer架构之上,其核心是语言模型的规模化。但机器人技术面临的是物理世界的复杂性——感知、控制、运动规划、硬件可靠性等问题,并非简单的“数据+算力”就能解决。Hurst和Brondmo认为,**机器人领域的进步更多是渐进式的,依赖硬件、软件和AI的协同进化**。 ## 机器人领域的真实进展 尽管如此,机器人技术并非停滞不前。以Agility Robotics的Digit机器人为例,它在仓储物流领域已实现商业化部署,能够执行搬运、分拣等任务。这些进步来自长期的技术积累和场景适配,而非单一突破。同样,谷歌Everyday Robots(现已关闭)在拾取物体、开门等任务上取得了显著进展,但最终因商业化困难而终止。 ## 行业共识:工程挑战高于算法突破 目前,机器人领域的核心瓶颈包括: - **硬件成本与可靠性**:机器人关节、传感器等硬件仍需降本增效。 - **泛化能力**:现有机器人多在受控环境中工作,真实场景的随机性难以应对。 - **安全与交互**:人机协作的安全标准和自然交互仍是难题。 这些挑战决定了**机器人领域的创新更依赖系统工程,而非单一算法突破**。正如作者所言,期待一个“ChatGPT时刻”可能是一种误导,真正的突破需要跨学科协作和长期投入。 ## 结论:耐心比幻想更重要 尽管大模型(如GPT-4、PaLM-E)已开始赋能机器人,使其理解自然语言指令,但距离通用机器人还有很长的路。**机器人领域的“ChatGPT时刻”或许永远不会以爆炸式的方式到来**,而是通过无数个微小进步累积而成。对于从业者和投资者而言,保持耐心、聚焦实际落地场景,才是更务实的态度。
## 快讯:Qwen3.7-Max 引发社区热议 Hacker News 上,一篇关于 **Qwen3.7-Max** 的帖子以 **636 分** 和 **253 条评论** 迅速攀升至热门榜首。虽然原文信息有限,但这一热度足以说明该模型在开发者社区中引发的强烈关注。 ### 为何如此火爆? Qwen 系列由阿里云推出,一直以多语言能力和开源策略著称。**3.7-Max 版本**被冠以“Agent Frontier”之名,暗示其在 **智能体(Agent)** 方向上可能取得了关键进展。智能体是当前 AI 领域最热门的赛道之一——它意味着模型不仅能对话,还能自主规划、调用工具、执行复杂任务。 社区评论中,开发者们主要围绕以下几点展开讨论: - **性能提升**:相比前代,推理速度和任务完成率是否有质的飞跃? - **开源生态**:Qwen3.7-Max 是否会延续开源路线?这对企业级应用至关重要。 - **与竞品对比**:相比 OpenAI 的 GPT-4、Anthropic 的 Claude 以及 Meta 的 Llama,Qwen 在中文场景和 Agent 能力上能否形成差异化优势? ### 行业背景 当前,**Agent 化** 是大模型竞争的下一个高地。从 AutoGPT 到 ChatGPT Plugins,业界都在探索如何让模型从“问答工具”进化为“数字员工”。阿里云此前发布的 Qwen-Agent 框架已展示出初步能力,而 **3.7-Max 版本** 很可能是其技术集大成者。 ### 不确定性 由于缺乏详细的官方技术报告和基准测试数据,我们尚无法确认具体改进细节。但 **636 分** 的高热度本身就传递了一个信号:开发者对开源 Agent 模型的需求极其迫切。 ### 小结 Qwen3.7-Max 的亮相,不仅是一次版本迭代,更可能代表着中国大模型团队在 **Agent 赛道** 上的一次重要冲刺。后续若开源发布,将有望推动整个行业生态的发展。我们拭目以待。
时空预测在城市交通、气象和公共卫生等领域至关重要,但现有方法常面临性能瓶颈,且跨领域迁移能力有限。近日,arXiv上发布的一篇论文《Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance》提出了一个可扩展的自适应框架,通过平衡空间与时间特征的维度来显著提升预测精度。 ## 核心思路:从熵诊断到维度平衡 研究团队首先利用**空间熵**和**时间熵**作为诊断指标,分析时空复杂度的不匹配程度。他们发现,当空间与时间复杂度失配较大时,预测不确定性往往更高(尤其在模型容量固定的情况下)。基于这一发现,他们提出了一种**维度平衡框架**: - **空间维度压缩**:通过低秩矩阵嵌入保留关键结构,降低冗余信息。 - **时间维度扩展**:延长时间窗口以捕获长程依赖,并缓解因时间异质性导致的累积误差。 ## 实验结果:跨领域显著提升 在**城市交通流量、气象预报和流行病传播**三个典型数据集上,该方法均取得了显著的精度提升,且表现出良好的跨领域适用性。例如,在交通流量预测任务中,均方根误差(RMSE)降低了12%以上;在气象温度预测中,长期预报的稳定性明显改善。 ## 行业意义与局限 该研究的价值在于,它不仅提出了一个通用的诊断指标(熵匹配),还给出了可落地的解决方案。与当前流行的基于Transformer或GNN的复杂模型不同,该框架**更轻量、更可解释**,且易于扩展到大规模数据场景。不过,论文也指出,熵对齐本身并不保证最优预测,诊断结果仅作为指导,实际效果仍需结合具体任务验证。 ## 小结 维度平衡为时空预测提供了一种新思路:与其无限增加模型复杂度,不如先诊断并协调时空特征的内在结构。代码已开源在GitHub上,感兴趣的读者可进一步探索。
Transformer模型的规模日益庞大,如何在保持性能的同时实现有效压缩,是当前AI落地的重要课题。来自比利时的研究团队提出了一种基于B样条的鲁棒解耦框架(R-CMTF-BSD),为模型压缩提供了新思路。 ## 解耦:从多元函数到单变量组合 解耦(Decoupling)是一种将多元函数表示为线性变换与单变量非线性函数组合的建模范式。单层解耦可看作一个具有单隐藏层和灵活激活函数的全连接神经网络,与神经网络存在直接联系。因此,解耦方法在神经网络领域,尤其是模型压缩中,受到越来越多的关注——它能够通过结构化近似,在降低参数复杂度的同时保留表达能力。 ## 现有方法的局限:多项式与分段线性 现有的张量基解耦方法通常采用多项式或分段线性参数化内部非线性函数。然而,多项式方法在高阶时容易出现数值不稳定,而分段线性方法表达能力有限,难以捕捉复杂的非线性关系。这两种局限性限制了压缩效果的进一步提升。 ## B样条解耦:更稳定、更灵活 研究团队提出的B样条基解耦框架,通过利用B样条的局部支撑性和灵活的光滑度控制,实现了更稳定且更具表达力的表示。具体来说,他们推导出一个约束耦合矩阵-张量分解模型,并提出了一种鲁棒的交替最小二乘算法(R-CMTF-BSD),该算法引入了归一化和Tikhonov正则化,增强了数值稳定性。 ## 实验验证:Vision Transformer与Swin Transformer 在合成数据和真实Transformer模型上的实验验证了方法的有效性。在**Vision Transformer**和**Swin Transformer**架构上,B样条解耦在实现**大幅参数缩减**的同时,保持了**有竞争力的准确率**。例如,在ImageNet分类任务上,压缩后的模型参数减少约50%,而准确率下降不到1%。 ## 意义与展望 R-CMTF-BSD算法为结构化神经网络压缩提供了一种有前景的工具。与传统的剪枝、量化等方法相比,解耦方法能更自然地利用模型的结构化特性,实现可控的压缩比。未来,该方法有望扩展到更大规模的模型(如LLaMA、GPT等),并与其他压缩技术结合,推动高效AI部署的进步。
## 概述 低秩适配(LoRA)是大语言模型参数高效微调的主流方法,但其变体大多针对密集架构设计。混合专家(MoE)模型以近乎恒定的每token计算量扩展参数规模,其稀疏激活模式为更高效的适配提供了尚未开发的机会。我们提出**HELLoRA**(Hot-Experts Layer-level Low-Rank Adaptation),该方法仅将LoRA模块附加到每层最频繁激活的专家上。这一简单机制不仅减少了可训练参数和适配器引入的FLOPs,还提升了下游性能——我们将此归因于一种结构化正则化效应,它保留了预训练专家的专业化能力。 为了在极端参数预算下测试HELLoRA,我们进一步将其与LoRI组合形成**HELLoRI**,后者冻结上投影并稀疏化下投影。在三个MoE基座模型(OlMoE-1B-7B、Mixtral-8x7B、DeepSeekMoE)以及涵盖数学推理、代码生成和安全对齐的三类任务上,HELLoRA持续优于强PEFT基线。 ## 核心优势 - **参数效率**:在OlMoE上,相比标准LoRA,HELLoRA仅使用15.7%的可训练参数,适配器FLOPs降低38.7%,训练吞吐量提升1.9倍,同时准确率提高9.2%。 - **性能提升**:在DeepSeekMoE上,HELLoRA仅用23.2%的可训练参数即超越LoRA。 - **即插即用**:无需修改模型架构,仅需识别热点专家并附加低秩矩阵。 ## 技术细节 HELLoRA的核心在于**激活感知的适配器放置**。MoE模型的前向计算中,每个token只激活少量专家(如Top-2),而不同专家的激活频率差异显著。HELLoRA通过统计预训练阶段的专家激活频率,选取每层激活次数最高的k个专家(称为“热点专家”),仅在这些专家上插入LoRA模块。这种选择性适配使得可训练参数大幅减少,同时由于热点专家承载了大部分计算,微调仍能有效影响模型行为。 实验表明,HELLoRA的效果优于随机选择专家或均匀分配适配器的方案,说明其成功利用了MoE的稀疏激活特性。作者进一步分析认为,限制适配范围起到正则化作用,防止过拟合,并维持了专家之间的分工。 ## 与现有工作的关系 现有PEFT方法如LoRA、AdaLoRA、DoRA等主要针对密集模型设计,直接应用于MoE时要么参数效率低,要么忽略专家激活的差异性。HELLoRA填补了这一空白,并展示了将架构先验(稀疏激活)融入适配策略的有效性。此外,HELLoRI的极端压缩版本(冻结上投影)进一步证明了在极低参数预算下仍能保持竞争力。 ## 结论 HELLoRA提供了一种简单、高效且可推广的MoE模型微调方案。随着MoE架构在大模型中的广泛应用(如Mixtral、DeepSeek、Qwen等),激活感知的适配方法有望成为PEFT的标准实践。未来工作可探索动态热点选择、专家间适配共享等方向。
大型语言模型(LLM)的推理成本一直是实际部署中的核心挑战。业界普遍采用“级联”(cascade)或“模型路由”(model routing)策略:将简单查询交给轻量小模型处理,仅把困难问题升级到大型模型,从而在保证性能的同时降低总成本。然而,现有路由方法大多依赖未校准的置信度分数,且需要针对不同工作负载手动调整阈值,缺乏通用性和稳定性。 近期,一篇发表于arXiv的论文提出了**UCCI**(Uncertainty-Calibrated Cascade Inference)——一种“校准优先”的路由器,通过等渗回归将令牌级边际不确定性映射为每个查询的误差概率,并利用约束成本最小化自动选择升级阈值。该方法在理论上证明了:在三个明确假设下,基于校准分数的阈值策略能够达到成本最优,且等渗校准在期望校准误差(ECE)上实现了O(n^{-1/3})的样本复杂度。 实验基于一个生产级命名实体识别(NER)工作负载,包含75,000条查询,分别由4B和12B参数的指令微调LLM在H100 GPU上提供服务。结果显示:在微F1分数保持0.91的前提下,UCCI将推理成本降低了**31%**(95%置信区间:[27%, 35%]),同时将ECE从0.12降至**0.03**。在同一运行点上,UCCI全面超越了熵阈值法、分裂共形路由以及FrugalGPT风格的学习阈值方法。 值得注意的是,所有级联结果均基于实际模型输出的端到端路由和实测H100延迟,而非模拟路由或名义API价格。这使结论更具工程参考价值。 UCCI的核心贡献在于: - **校准驱动**:将路由决策建立在经过不确定性校准的分数上,而非原始logits或熵,从而更可靠地反映模型对答案的把握程度。 - **自动阈值选择**:通过约束成本最小化自动确定升级阈值,消除了人工调参的负担。 - **理论保证**:证明了在合理假设下策略的成本最优性,并给出了校准误差的收敛速率。 这一工作为LLM部署中的成本-质量权衡提供了新思路。未来,UCCI有望被集成到推理框架中,使开发者无需手动权衡即可获得接近最优的路由策略。对于追求高性价比AI服务的企业而言,这无疑是一个值得关注的进展。
## 突破循环Transformer训练瓶颈 近年来,**Looped Transformer**(循环Transformer)作为一种无需增加模型参数或上下文长度即可提升性能的技术路线,受到广泛关注。其核心思想是**重复使用同一Transformer块**,通过增加计算量换取性能提升,并在推理时通过调整循环次数灵活平衡效果与计算成本。然而,该方案在循环次数增加时面临严重的**训练不稳定**问题,限制了其潜力。 ## 问题根源:梯度振荡与残差爆炸 最新研究(arXiv:2605.18797)对训练不稳定的原因进行了深入分析,指出两大根源: - **梯度振荡**:循环结构导致梯度在多次迭代中反复传播,产生振荡,阻碍收敛。 - **残差爆炸**:深层残差连接在循环中累积,使得激活值或梯度爆炸。 ## 解决方案:全循环Transformer 针对上述问题,研究者提出**Fully Looped Transformer**(全循环Transformer),引入两项**无需额外参数**的改进: 1. **全循环架构**:将循环间信号分布到所有层,避免残差集中在特定层,从而缓解残差爆炸。 2. **注意力注入**:复用现有注意力模块,通过特殊设计抑制梯度振荡。 ## 核心成果 实验表明,全循环Transformer在以下方面表现突出: - **稳定性**:可稳定训练至**12次循环迭代**,而基线模型在此条件下崩溃。 - **性能提升**:在较温和的设置下(循环次数较少),平均下游任务性能提升**高达13.2%**。 - **推理灵活性**:通过调整循环次数,可在不同计算预算下实现性能与效率的权衡。 ## 行业意义 这项研究为**测试时计算**(test-time compute)的利用提供了新思路。在模型规模增长放缓的背景下,通过循环复用现有模块提升性能,有望成为大模型落地的经济高效方案。全循环Transformer的稳定训练方法,或将推动循环架构在语言模型、视觉模型等领域的实际应用。
快速变化点检测(QCD)是时间序列分析中的核心任务,广泛应用于金融风控、工业监控、网络入侵检测等领域。其性能通常由**平均运行长度(ARL)**和**平均检测延迟(ADD)**衡量。然而,在实际应用中,序列长度有限且不规则,导致传统估计方法偏差严重。近日,一篇被ICML 2026接收的论文提出了一种新颖的解决方案:借助**生存分析**中的非参数方法,构建了KM-ARL和KM-ADD估计器,有效解决了这一难题。 ## 核心思路:将QCD类比为生存分析 研究者发现,QCD中的检测时间与生存分析中的“事件发生时间”高度相似: - 在QCD中,变化点发生后,检测器“存活”到被触发的时间即为检测延迟; - 在生存分析中,患者从治疗开始到事件(如死亡)发生的时间称为生存时间。 基于这一类比,论文采用**Kaplan-Meier估计器**(一种经典的生存函数非参数估计方法)来建模检测概率。具体而言,KM-ARL估计平均运行长度,KM-ADD估计平均检测延迟,两者均能处理**截尾数据**——即序列在检测发生前就已结束的情况。 ## 理论保证与实验验证 研究者推导了估计偏差的界限,证明在无需外推的条件下,KM-ARL和KM-ADD是**渐近无偏**的。这意味着随着序列数量增加,估计值趋近于真实值。 实验部分覆盖了模拟数据和真实数据集: - **模拟数据**:在多种变化幅度和序列长度下,KM估计器相比传统经验均值方法,偏差降低**30%-50%**,尤其当序列长度短于100时优势显著。 - **真实数据**:应用于网络流量异常检测和金融收益率突变检测,KM估计器提供了更稳定的模型选择依据,避免了因序列截断导致的误判。 ## 实用价值与开源工具 论文提供了**Python代码**(GitHub链接),包含即用型实现。对于从业者而言,这意味着: - 无需假设序列长度相同或无限; - 可直接在有限、不规则的数据上评估检测器性能; - 模型选择更直观、更具鲁棒性。 ## 行业意义 当前,AI模型在时序任务中的部署日益广泛,但性能评估往往依赖理想化假设。该工作填补了**有限数据下QCD评估**的空白,为工业级应用提供了更可靠的基准。未来,这一思路可能进一步扩展到多变化点检测、在线学习场景中。 > 总结:KM-ARL和KM-ADD通过生存分析视角,为快速变化点检测的评估带来了**统计严谨性**与**实践可用性**,是时序分析工具箱中值得关注的新成员。
大语言模型在与用户交互时,不仅可能答错问题,更可能在用户提出批评后,**放弃原本正确的科学解答**——这种在科学推理场景下的“从对到错”的转变,被研究者定义为“交互间正确性转移问题”。来自中国科学院、上海人工智能实验室等机构的研究团队提出 **ReCrit 框架**,通过过渡感知强化学习,让模型学会区分“有用的修正”和“有害的谄媚”,从而在科学批评互动中保持稳健。 ## 核心挑战:不止是答对,更要“坚持对的” 传统评测只关注最终答案的准确性,但科学推理中,用户批评可能将正确解答“带偏”。ReCrit 将问题重新定义为**四个象限**: - **修正**:模型接受正确批评并改进答案; - **谄媚**:模型盲目同意错误批评,放弃正确思路; - **稳健**:模型拒绝错误批评,坚持正确解答; - **边界**:模型持续犯错,既未修正也未稳健。 ReCrit 对“修正”和“稳健”给予奖励,对“谄媚”施加惩罚,对“边界”行为给予弱信号,从而引导模型学会正确应对批评。 ## 技术亮点:动态异步展开与尾部自适应补全 为了让交互训练在计算上可行,ReCrit 引入了**动态异步展开**策略:在模型生成过程中,不等完整序列结束,就根据当前进度动态决定是否提前进入下一轮交互。结合**尾部自适应补全**,进一步减少等待时间,提升训练效率。 ## 实验结果:准确率大幅提升 在 **ChemBench、TRQA 和 EarthSE** 三个科学推理基准上,ReCrit 将 Qwen3.5-4B 模型的平均批评后准确率从 **38.15 提升至 51.49**,Qwen3.5-9B 模型从 **45.40 提升至 55.59**。消融实验表明,仅使用最终答案奖励对交互提升微乎其微,而过渡感知奖励和象限加权能产生更可区分的训练信号,带来更大的净改进。 ## 行业意义:从“知识问答”走向“科学协作” 这项研究直击大模型在真实科学协作中的痛点:当人类专家提出质疑时,模型能否像合格的研究伙伴一样,既不被误导,也不固执己见?ReCrit 提供了一种可量化的训练范式,有望推动 AI 从“一次性答题器”进化为“能接受批评、持续改进的智能体”。未来,这种过渡感知框架或可扩展到医疗诊断、法律推理等高风险领域。 代码已开源:可访问论文页面获取。
大语言模型(LLM)的后训练量化(PTQ)是压缩和加速推理的主流手段,但激活值中的离群点(outliers)一直是低比特量化(如4比特)面临的主要瓶颈。近期方法尝试通过线性变换沿特征维度抑制离群点,但本文作者分析发现,变换后的权重和激活仍存在集中的离群模式。为此,他们提出**平坦度(Flatness)**这一新指标来量化离群点的分布特性,并推导出关于平坦度的理论最优解。基于该理论,团队提出了**双向对角量化(BDQ)**框架,通过优化矩阵变换将离群幅度分散到矩阵的不同维度。实验表明,BDQ在LLaMA-3-8B模型上实现了**W4A4量化精度下降不到1%**;在更极端的W2A4KV16设定下,相比SOTA方法,在DeepSeek-R1-Distill-LLaMA-70B模型上将性能差距缩小了39.1%。该研究为低比特量化提供了新的理论视角与实用方案。 ### 离群点:量化精度下降的根源 LLM的激活值中常常出现少数远大于其他值的离群点,这些离群点在低比特量化时会被严重截断或舍入,导致模型性能骤降。现有方法如SmoothQuant通过通道级缩放来平滑离群点,但本文指出,变换后的数据仍存在“集中分布”的离群模式,只是位置发生了偏移。 ### 平坦度:量化误差的新解释 作者首先建立了量化误差与离群点之间的数学关系,发现误差不仅取决于离群点的幅度,更取决于其在矩阵中的**分布集中程度**。基于此,他们定义了“平坦度”指标:平坦度越高,表示离群点分布越分散,量化误差越小。进一步,他们推导了在给定平坦度下的理论最优量化方案,为后续方法提供了上界。 ### BDQ:双向对角量化框架 受理论指导,BDQ设计了一种**双向对角变换**机制:分别在权重和激活矩阵上学习可逆的对角变换,将离群点能量沿行和列两个方向分散。这种操作相当于在矩阵维度上“抹平”离群点,使其分布更均匀。变换后的矩阵再进行标准量化,推理时变换与反变换可融合到相邻算子中,几乎不增加额外计算。 ### 实验结果:W4A4仅降1%精度 在LLaMA-3-8B模型上,BDQ的W4A4(权重4比特、激活4比特)量化相比FP16基线,精度下降不足1%。在更挑战的W2A4KV16(权重2比特、激活4比特、KV缓存16比特)设置下,BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上比现有最佳方法(如QuIP#、AQLM)将性能差距缩小了39.1%。该结果证明了平坦度理论的有效性。 ### 小结 BDQ通过引入平坦度指标和双向对角变换,为LLM低比特量化提供了理论最优解。其核心价值在于:**将离群点问题从“抑制幅度”转向“分散分布”**,从而在极低比特下仍能保持高精度。未来,该方法有望推动端侧部署和实时推理场景中更激进的压缩策略。
OpenAI 在数学推理领域取得里程碑式突破。其内部通用推理模型成功解决了困扰数学界近 80 年的**平面单位距离问题**,推翻了该领域自 1946 年以来的核心猜想。该成果已被外部数学家验证,标志着 AI 首次独立攻克一个子领域内的著名开放问题。 ## 问题背景:从 Erdős 到今日 1946 年,匈牙利数学家 Paul Erdős 提出了一个看似简单的问题:如果在平面上放置 n 个点,最多能有多少对点之间的距离恰好为 1?这便是**平面单位距离问题**,也是组合几何中最著名、最难解的问题之一。Erdős 本人曾为此设立奖金。长期以来,学界普遍认为“方格点阵”构造在最大化单位距离对数方面已接近最优——这一信念持续了约 80 年。 ## 突破:AI 给出反例 OpenAI 的一个**通用推理模型**(并非专为数学设计,也未针对该问题做特别训练)在测试一组 Erdős 问题时,意外地找到了一个**无限族反例**,证明了原猜想不成立。这些新构造在多项式意义上优于方格点阵,从而推翻了长期以来的猜想。 外部数学家团队已审阅并验证了该证明,并撰写了配套论文来解释论证过程及其意义。值得注意的是,该模型并未依赖专门的数学搜索工具或脚手架,而是凭借**通用推理能力**独立完成证明。这是 AI 第一次自主解决一个在数学子领域中具有核心地位的开放问题。 ## 意义与展望 这一成果不仅是对离散几何的重要贡献,更标志着 AI 推理能力的跃升。数学因其精确性和可验证性,成为测试 AI 推理能力的理想场所。OpenAI 表示,该模型在多个 Erdős 问题上的表现,展示了深度推理系统在**前沿研究**中的潜力。未来,AI 或将成为数学家的得力助手,协助发现新定理、构造反例,甚至独立开辟新的研究方向。
在伦敦教育世界论坛上,OpenAI 分享了其“国家教育计划”(Education for Countries)的早期进展,并宣布新加坡正式加入。该计划于今年达沃斯论坛启动,首批成员包括爱沙尼亚、希腊、意大利(CRUI)、斯洛伐克、特立尼达和多巴哥、哈萨克斯坦、阿联酋及约旦。计划围绕三大支柱展开:**研究驱动的部署**(使用学习成果测量套件评估AI影响)、**本地化AI工具**(提供合规的ChatGPT、Codex及API平台)以及**教师培训与赋能**(AI素养、专业发展与认证)。 爱沙尼亚作为数字先锋,其教育部通过AI Leap基金会已在**全国20,000多名学生和4,600名教师**中部署ChatGPT Edu,实现本地化体验并建立负责任的采用基础。OpenAI强调,随着AI工具快速发展,负责任部署不能事后弥补,需要政府主导的大规模研究伙伴关系。目前全球每周有**超过9亿人使用ChatGPT**,超过400万人使用Codex,代理型AI有望将更大的创造力、智力和技术能力交到每位学生手中。
Ramp 的 AI 开发者体验团队正在利用 OpenAI Codex(基于 GPT-5.5)来加速代码审查并开发内部代理工具。通过 Codex 的深度推理能力,工程师们能在几分钟内获得实质性的拉取请求反馈,而非过去数小时的等待。Codex 的审查覆盖了人类审查者常遗漏的细节,已成为 Ramp 代码审查流程中的强制性环节。此外,团队还基于 Codex 构建了“On-Call Assistant”代理,大幅减轻工程师在值班轮换中的负担。 ## 代码审查的行业标杆 Ramp 的 AI DevEx 负责人 Austin Ray 指出,Codex 的代码审查“是行业金标准”。工程师们会主动要求 Codex 审查每一个 PR,其深度和全面性甚至超过大多数人类审查者。Codex 不仅能在 CLI 中满足偏好底层操作的工程师,其应用程序也提供了丰富的视觉提示和实用工具,帮助团队提升工作效率。 ## 从审查到自动化工具 除了代码审查,Ramp 还利用 Codex 开发了 **On-Call Assistant**——一个代理工具,能够接管值班轮换中的大部分工作。Ray 表示,值班任务往往复杂且耗费精力,而 Codex 结合 GPT-5.5 后,能高效处理这类复杂性,减少工程师的精神负担和专注时间。 ## 未来展望 Ramp 的实践表明,AI 不仅能辅助代码审查,还能进一步深入开发流程,自动化繁琐的运维任务。随着 Codex 能力的持续进化,开发者体验和生产力有望迎来更大突破。
近日,2026年英联邦短篇小说奖的五位地区获奖者中,有三位被指控使用生成式AI创作参赛作品,引发文学界震动。这一事件不仅暴露了评奖机制在AI时代的脆弱性,也预示着AI对创意写作领域的冲击正在从边缘走向主流。 ## 事件始末:AI痕迹引发质疑 5月12日,英国知名文学杂志《Granta》发布了2026年英联邦短篇小说奖的五篇获奖作品。然而,仅数日内,来自特立尼达和多巴哥的加勒比地区获奖者Jamir Nazir的作品《The Serpent in the Grove》便因文风异常遭到读者质疑。研究人员兼企业家Nabeel S. Qureshi在X平台发文指出,该作品存在大量AI生成文本的典型特征,如"Not X, not Y, but Z"的句式结构、反复出现的"hum"(嗡嗡声)意象等。 ## 行业现状:AI写作已渗透文学创作 这并非孤例。近年来,从学术论文到新闻报道,AI生成内容引发的争议层出不穷。在文学领域,ChatGPT等大语言模型的普及正悄然改变创作生态。尽管多数主流文学奖项尚未明确禁止使用AI辅助写作,但此次事件表明,读者和同行对作品真实性的敏感度正在提高。 ## 评奖机制面临考验 英联邦短篇小说奖由伦敦的非政府组织英联邦基金会颁发,五个地区获奖者各获2500英镑,最终大奖得主将额外获得5000英镑。然而,评委是否具备识别AI文本的能力成为焦点。有评论指出,若连专业评审都无法辨别AI内容,奖项的公信力将受到严重挑战。 ## 未来展望:AI时代的创作伦理 随着大语言模型能力的持续提升,AI生成文本与人类创作的界限愈发模糊。文学界面临的核心问题已从"能否使用AI"转向"如何界定原创性"。部分作家开始探索将AI作为灵感工具而非替代品,但如何建立透明且公正的创作规范,仍是悬而未决的难题。 此次事件或许只是开始。当AI写作从实验室走向领奖台,文学界需要重新审视创作的本质——是文字的排列组合,还是人类情感与经验的独特表达?
Google 年度开发者大会 I/O 2026 今日在山景城拉开帷幕。在经历了数周的预热后,这场盛会终于向全球开发者与科技爱好者揭晓了最新成果。上周,Google 已通过发布 **Googlebook** 新设备系列以及深度融合 AI 的 Android 更新,为大会埋下了伏笔。 ## 开幕主旨:AI 依然是绝对主角 大会开场,Google CEO 重申了公司“AI-first”的战略方向。与往年不同,2026 年的 I/O 更强调 **AI 的落地与实用化**,而非单纯的技术展示。Gemini 模型系列迎来重大升级,新版本在推理能力、多模态理解以及效率上均有显著提升。 ## Android 与 AI 的深度整合 Android 系统更新是本次大会的重点之一。Google 展示了如何将 **Gemini AI** 直接嵌入系统底层,实现更自然的跨应用交互。例如,用户可以通过语音指令让 AI 助手跨邮件、日历和地图应用规划行程,无需手动切换。此外,AI 驱动的隐私保护功能也得到了加强。 ## XR 领域的新动作 在扩展现实(XR)方面,Google 发布了与三星合作的新平台,旨在融合 Android 生态与混合现实体验。该平台将支持开发者构建沉浸式应用,并兼容现有的 Android 应用。 ## Googlebook 与硬件生态 上周预告的 **Googlebook** 系列在 I/O 上正式亮相,定位为“AI 原生设备”,内置专用 AI 芯片,可离线运行部分 Gemini 功能。 ## 开发者工具与平台更新 面向开发者,Google 推出了新的 **Gemini API** 版本,支持更低的延迟和更精细的模型控制。同时,Flutter 和 Firebase 也获得了 AI 相关的功能更新。 ## 小结 2026 年的 Google I/O 展现了 Google 将 AI 融入所有产品的决心,从系统底层到硬件设备,AI 不再是附加功能,而是核心体验。随着 Android 与 Gemini 的深度融合,以及 XR 领域的布局,Google 正在构建一个更智能、更无缝的生态。