## 研究速览 来自 NICE Actimize 的研究团队提出了一种名为 **Temporal Contrastive Transformer (TCT)** 的表示学习框架,旨在通过自监督对比学习捕获金融交易序列中的时序动态模式,从而为下游欺诈检测任务生成有效的嵌入表示。 ## 核心方法 TCT 的核心设计基于 Transformer 架构,并引入了**预测性对比编码**(Predictive Contrastive Coding)作为训练目标。模型通过自监督方式学习,无需标注数据即可从原始交易序列中提取行为模式。具体来说,TCT 将一段时间窗口内的交易序列编码为嵌入向量,这些嵌入向量能够反映用户行为在时间维度上的变化规律。 ## 关键实验结果 在真实场景下的评估中,研究团队将 TCT 生成的嵌入作为梯度提升分类器的输入特征,并与传统基于领域知识的特征工程基线进行了对比: - **仅使用 TCT 嵌入**:分类器 AUC 达到 **0.8644**,说明模型成功捕获了有意义的时序结构。 - **结合领域工程特征**:AUC 为 **0.9205**,而基线(仅工程特征)为 **0.9245**,二者差异极小,表明 TCT 嵌入与现有抽象特征存在较大重叠,未能带来显著增量收益。 ## 行业启示与挑战 这一结果揭示了当前时序表示学习在金融犯罪检测领域的一个关键矛盾:**自监督嵌入虽然能逼近强特征工程的效果,但尚难实现“叠加式”提升**。对于金融机构而言,这意味着 TCT 有潜力减少对繁重人工特征工程的依赖,但距离直接部署于生产环境仍有距离。 研究团队指出,TCT 目前属于“中间阶段”成果,后续优化方向包括改进模型架构、探索更有效的训练目标以及设计更优的集成策略。值得注意的是,在强基线基础上取得 **AUC 0.9205 与 0.9245 的对等表现**,本身已证明自监督方法能够学习到与专家设计特征同等质量的表示,这为降低特征工程成本提供了可行路径。 ## 小结 Temporal Contrastive Transformer 是自监督学习在金融反欺诈领域的一次有益尝试。它展示了 Transformer + 对比学习在时序建模中的潜力,同时也提醒业界:当已有强大的特征工程时,新方法需要找到独特的“互补价值”而非简单替代。未来,如何让模型捕获工程特征遗漏的异常信号,将是研究突破的关键。
随着语言模型在自动化假设生成和实验实施方面加速科学研究,一个**新的瓶颈**浮出水面:如何在不进行详尽实验的情况下,评估和筛选数百个AI生成的研究想法?来自最新研究(arXiv:2605.21491)的团队提出,能否让语言模型学会**预测研究想法的实证成功**,即在运行任何实验之前判断哪个想法更可能取得更好性能? 该研究聚焦于**比较性实证预测**任务:给定一个基准测试的研究目标和两个候选想法,模型需要预测哪个想法能取得更优的基准性能。为此,研究团队构建了一个包含 **11,488 个想法对** 的数据集,这些想法对的结果基于 PapersWithCode 的客观实证结果。 实验结果令人瞩目:未经微调的 8B 参数模型仅达到 **30% 的准确率**,而通过监督微调(SFT),准确率飙升至 **77.1%**,甚至超越了 GPT-5 的 61.1%。更值得一提的是,研究团队将评估任务建模为推理任务,并采用**带可验证奖励的强化学习(RLVR)**训练模型,使模型学会发现潜在的推理路径,在保持可解释性的同时达到 **71.35% 的准确率**。 通过消融实验和分布外测试,研究证明了模型对表面启发式特征的鲁棒性,并成功迁移到跨领域时间分割测试集和独立构建的测试集上。这些结果表明,**计算高效的小型语言模型**可以作为有效、客观的验证器,为自主科学发现提供可扩展的路径。 该研究已入选 **ACL 2026 Findings**,为AI驱动的科研自动化开辟了新方向——从“生成想法”迈向“智能筛选想法”,有望显著加速科学研究的迭代周期。
## 引言 特征重要性排序是解释机器学习模型的核心手段之一,广泛应用于模型诊断、特征工程乃至公平性审计。然而,一篇来自 arXiv 的新论文《The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity》揭示了在特征存在共线性时,任何单一特征排序都无法同时满足**忠实性(faithful)**、**稳定性(stable)**和**完备性(complete)**三个基本属性。该研究不仅从理论上证明了这一不可能性,还通过形式化验证(Lean 4 定理证明器)提供了机械验证,并对实际影响给出了量化分析。 ## 核心发现:不可能三角 论文指出,当特征存在共线性时,特征排序面临一个根本性的困境: - **忠实性**:排序必须准确反映特征对模型输出的真实贡献。 - **稳定性**:在数据微小扰动下,排序结果不应剧烈变化。 - **完备性**:排序应覆盖所有特征,不遗漏任何信息。 作者证明,这三个属性无法同时满足。具体来说,对于共线性较强的特征对,排序结果近乎随机——就像抛硬币一样不可靠。 ## 设计空间二分法 论文进一步刻画了归因方法的完整设计空间:存在且仅存在两类方法族: 1. **忠实-完备方法**:这类方法(如原始 SHAP)能忠实反映贡献并覆盖所有特征,但**不稳定**——在共线性下,排序结果有高达 50% 的概率发生翻转。 2. **集成方法(如 DASH)**:这类方法通过集成平均实现稳定,但对对称特征会报告“平局”(tie),而非给出确定性排序。 论文提出的 **DASH(Diversified Aggregation of SHAP)** 方法被证明在无偏聚合中达到了帕累托最优,其方差达到了 Cramér-Rao 下界,且集成规模有严格公式。 ## 量化分析与实证证据 不同模型类别的共线性影响程度各异: - **梯度提升模型**:归因比率随 1/(1-ρ²) 发散,ρ 为特征间相关系数。 - **Lasso 回归**:归因比率趋于无穷,即完全不可靠。 - **随机森林**:归因比率收敛,相对稳健。 在 77 个公开数据集的调查中,**68% 的数据集**表现出归因不稳定性。这意味着大多数实际应用场景中,依赖单一特征排序可能产生误导。 ## 对公平性审计的冲击 论文特别指出,基于 SHAP 的代理歧视审计(proxy discrimination audit)在共线性下**不可靠**。当特征存在相关性时,SHAP 值无法区分直接贡献与间接关联,可能导致错误的公平性结论。作者建议审计实践应转向更稳健的方法,或采用 DASH 等集成方案。 ## 形式化验证与实用工具 该研究的一大亮点是使用了 **Lean 4 定理证明器**对核心定理进行了机械验证——共 305 个定理,从 16 条公理推导,无任何未完成证明(0 sorry)。据作者称,这是可解释 AI 领域首个经过形式化验证的不可能定理。 此外,论文还提供了实用诊断工具:一套 Z 检验工作流和单模型筛查工具,帮助从业者快速检测数据中是否存在严重的归因不稳定问题。 ## 结论与启示 这项研究为可解释 AI 领域敲响了警钟:特征排序并非万能,尤其在特征高度相关的场景中。模型解释需要超越“单一排名”思维,转向更丰富的归因表示(如置信区间、平局报告或集成方案)。对于高 stakes 应用(如医疗、金融、司法),忽视这一不可能性可能导致严重的决策失误。 DASH 方法提供了一条务实路径:通过集成平均换取稳定性,同时用平局处理避免虚假的确定性。未来,或许我们需要重新定义“解释”的目标——不是给出一个绝对排名,而是提供关于贡献的分布信息。
## 背景:静态测试无法捕捉急诊关键失败模式 前沿语言模型正以前所未有的速度被部署到临床工作流中,但安全评估基础设施严重滞后。传统的医学问答基准(如MedQA)仅评估单轮回答正确率,完全无法捕捉急诊医学中的关键失败模式——**轨迹级安全崩溃**、**工具滥用**以及**在持续临床压力下的妥协行为**。 ## HealthCraft:首个面向急诊医学的RL安全环境 **HealthCraft** 是首个公开的、专为急诊医学设计的强化学习安全环境,基于 Corecraft 框架改造。它构建在 **FHIR R4 世界状态**之上,包含 **14 种实体类型**和 **3,987 个种子实体**,并公开 **24 个 MCP 工具**。环境采用**双层奖励机制**:一旦任何安全关键标准被违反,立即将奖励归零,从而强制模型学习轨迹级安全行为。 HealthCraft 发布了 **195 个任务**(横跨六大类别),针对 **2,255 个二元评价标准**(其中 515 个为安全关键标准)进行评分。后续补充的 10 个负类任务将总任务数扩展至 **205 个**,评价标准增加至 **2,337 个**。 ## 前沿模型表现:多步流程接近零分 研究团队在两个前沿模型上进行了测试,结果令人震惊: - **Claude Opus 4.6**:Pass@1 为 **24.8%** [21.5-28.4],安全失败率 **27.5%** - **GPT-5.4**:Pass@1 仅为 **12.6%** [10.2-15.6],安全失败率高达 **34.0%** 更值得警惕的是,在**多步工作流**(最接近真实急诊护理的代理)中,两个模型的表现均**接近零**——Claude 为 1.0%,GPT-5.4 为 0.0%,尽管它们在单个步骤上表现出部分能力。这说明模型缺乏连贯的轨迹级安全推理能力。 ## 基础设施保真度:影响评估结果 研究还发现,基础设施的 bug 修复会显著改变模型排名。从 v2 到 v8 版本之间共修复了 **6 个基础设施 bug**,这些修复甚至**重新排序了哪个模型更强**——这表明**基础设施保真度本身就是测量的一部分**。 ## 评估与训练:奖励信号的陷阱 HealthCraft 使用**确定性 LLM 评委**覆盖层来降低评估噪声,并进行了 60 次负类烟雾测试。结果显示,奖励信号并非“拿来就能训练安全”——例如,约束标准通过率高达 0.929,这种可被评估框架容忍的“可游戏性”,在训练奖励中却完全不可接受。 ## 未来与开源 研究团队已搭建了与 **Megatron + SGLang + GRPO** 训练循环的耦合接口(详见 Corecraft 第 5.2 节),但将训练奖励消融实验留作未来工作。HealthCraft 的环境、任务、评价标准和评估框架已在 **Apache 2.0 协议**下开源。 > **小结**:HealthCraft 揭示了当前前沿语言模型在急诊医学场景中的严重安全缺陷。它不仅是评估工具,更是一个警示:在安全基础设施跟上之前,盲目部署可能带来灾难性后果。
随着大语言模型(LLM)向智能体(Agent)方向发展,如何让模型在长时间执行任务时保持稳定高效,成为业界关注的核心问题。一篇来自 arXiv 的新论文提出了一个有趣的观点:用于引导 Agent 执行的“缰绳”(Harness)并非越精细越好,过度分解或过度引导反而可能降低任务成功率。 ## 什么是“缰绳”设计? 论文将“缰绳”定义为一种推理时(inference-time)的对齐技术,它通过**任务分解**和**引导执行**两个核心机制来提升 LLM Agent 的长期表现。任务分解将复杂目标拆解为若干子目标,引导执行则是在每一步调整模型的行动分布,使其更倾向于正确的方向。 ## 关键发现:更精细≠更有效 研究团队通过理论分析和实验验证,揭示了“缰绳”设计中的几个关键失败模式: - **过度分解(over-decomposition)**:将任务拆解得过细,反而增加了执行路径的复杂度,让 Agent 在细枝末节上迷失方向。 - **过度修剪(over-pruning)**:过于严格的引导可能会提前剪掉一些虽然看似偏离、但实际有效的探索路径。 - **幻觉执行(hallucinated execution)**:Agent 在引导下“假装”执行了某个子任务,但实际上并未完成,导致后续步骤建立在虚假前提上。 ## 部分引导反而更优 更令人意外的是,论文指出**有效的“缰绳”可以是部分的**:只需指定初始的几步执行计划,后续让 Agent 自由发挥,反而比完整、结构化的工作流获得更高的通过率。这提示我们,在 Agent 设计中需要权衡控制与自主,给予模型适当的自由空间。 ## 行业启示 这一研究对于当前 LLM Agent 的工程实践具有重要意义。许多团队在构建 Agent 系统时,倾向于设计详尽的工作流和严格的步骤约束,但本研究表明,过度设计可能适得其反。未来的 Agent 系统或许应当采用**自适应缰绳**策略:根据任务复杂度和 Agent 的实时表现,动态调整引导的粒度。 论文通过合成实验和真实的终端 Agent 基准测试验证了上述理论预测,为推理时对齐提供了新的理论框架和实践指导。对于开发者而言,这无疑是一个值得关注的信号:在 Agent 设计中,少即是多。
## 研究背景 过参数化模型近年来在机器学习领域表现抢眼,它们尽管参数数量远超样本数,却依然能实现出色的泛化性能。这一现象与经典统计理论中过拟合的预期相悖,促使研究者提出了“**双下降**”理论:随着模型复杂度增加,测试误差先下降后上升,随后在过参数化区域再次下降。然而,现有双下降研究大多假设数据干净,真实场景中的数据常存在异常值或污染。 ## 研究内容 Tino Werner 在 arXiv 预印本《Double descent for least-squares interpolation on contaminated data: A simulation study》中,通过模拟实验探索了线性回归中最小二乘插值在污染训练数据上的双下降现象。研究将高度非鲁棒的最小二乘插值估计器与多种稳健估计器进行对比,考察过参数化是否能缓解污染带来的影响。 ## 核心发现 实验结果表明:**在污染数据上,最小二乘插值同样表现出双下降行为**。当模型极度过参数化时,其泛化误差显著降低,甚至超越稳健估计器的表现。这意味着,尽管最小二乘对异常值极为敏感,但在过参数化区域,模型对污染的“记忆”反而转化为优势,插值逼近的灵活性使得模型能够忽略异常值的影响。 ## 理论意义 该研究将双下降现象从干净数据扩展至污染数据场景,为理解过参数化模型的鲁棒性提供了新视角。传统稳健统计强调通过设计估计器来抵抗异常值,而本工作表明,**过参数化本身可能就是一种隐式的鲁棒机制**。这一发现对实际应用具有指导意义:当数据质量难以保证时,使用大模型或许比精心设计鲁棒算法更有效。 ## 局限与展望 目前研究仅基于线性回归和模拟数据,真实场景的复杂非线性模型、不同污染类型(如标签噪声、特征噪声)仍需进一步验证。此外,双下降的临界点如何受污染程度影响,以及理论上的条件边界,都有待深入探索。
## 研究背景 大语言模型(LLM)提示在自然语言任务中广泛应用,但其可靠性存疑:一个程序可能在少量测试用例上表现良好,部署时却频频失败。如何提前预测程序在未见任务上的真实性能?近日,arXiv上的一篇论文(arXiv:2605.21515)提出了一种基于贝叶斯推断的解决方案,并揭示了符号程序(如Python)与提示程序在性能分布上的根本差异。 ## 核心方法:硬币翻转模型 研究团队采用了一个简单的**硬币翻转模型**:将每次程序执行(通过或失败)视为一个伯努利随机变量,其成功概率即为程序的未知性能。预测性能的关键在于两点: 1. 在给定测试用例上的观察结果; 2. 性能的先验分布。 通过从大量程序和任务中编译经验性性能先验,他们发现了一个惊人的差异: - **符号程序(如Python)** 的性能呈现“全有或全无”的分布——要么完全正确,要么完全错误。 - **提示程序** 则具有弥散的先验分布,存在大量“几乎正确”的程序。 这一差异直接解释了为何少数几个通过测试用例就能**认证符号程序的可靠性**,但对提示程序却几乎无效。 ## 创新点:RAP框架 基于上述洞察,作者提出了 **RAP(Retrieved Approximate Prior)** 方法。其核心思想是:当面对一个新程序时,从已有语料库中检索相似任务和提示程序,构建一个近似先验,然后用这个先验来预测性能。实验表明,RAP取得了稳健的预测效果。 ## 意义与展望 该研究为LLM应用的可靠性评估提供了理论工具。对于开发者而言,这意味着: - 在部署符号程序时,少量测试即可建立较高置信度; - 对于提示程序,则需要更全面的测试策略,因为“几乎正确”的程序往往隐藏着失败风险。 未来,RAP框架有望被集成到开发流程中,帮助工程师在发布前更准确地预估程序在实际场景中的表现。
## 核心发现:特征紧凑不等于不确定性感知好 近日,一篇题为《Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins》的论文引发关注。该研究揭示了一个反直觉的现象:**CenterLoss**——一种常用于提升分类准确率的特征紧凑正则化方法——**会显著损害模型对分布外(OOD)输入的检测能力**。 ## GOEN 方法:几何优化的不确定性网络 研究者提出了 **GOEN(Geometry-Optimised Epistemic Network)**,一个简洁的流水线,融合了多尺度特征提取、L2 归一化、马氏距离(Mahalanobis distance)以及一个用真实困难 OOD 样本训练的校准头。该方法旨在直接优化特征几何结构,使其更适合不确定性估计。 ## 关键实验与对比 在 CIFAR-10 基准测试上,GOEN 的最佳变体 **GOEN-NoCenterLoss** 取得了 **平均 OOD AUROC 0.9483**,全面超越了深度集成(0.8827)、KNN(0.8967)和 ODIN(0.8870)等基线方法,同时保持了有竞争力的分布内(ID)准确率。 而引入 CenterLoss 后,尽管分类准确率略有提升,但 OOD AUROC 从 0.9483 下降至 0.9366,验证了其负面作用。 ## 为何 CenterLoss 有害? 论文指出,CenterLoss 强制拉近同类特征,导致特征簇过度紧凑。这种坍缩会压缩类别间的边际,并扭曲协方差结构——而协方差矩阵正是马氏距离计算中衡量特征相关性的关键。过度紧凑的特征空间使得 OOD 样本与 ID 样本难以区分,因为所有特征都挤在了一起。 ## 行业启示与效率优势 这一发现挑战了“更好的分类几何必然带来更好的认知不确定性”的普遍假设。对于 AI 安全部署而言,OOD 检测能力与分类准确率之间存在根本性的权衡。GOEN 的训练十分高效,**单 GPU 上不到 20 分钟**即可完成,为构建能可靠识别自身局限的 AI 系统提供了实用蓝图。 ## 小结 GOEN 通过放弃 CenterLoss 并采用多尺度马氏距离,实现了当前最优的 OOD 检测性能。这项研究提醒我们:在追求分类精度的同时,不应忽视特征空间的全局几何,否则可能“赢了分类,输了安全”。
## 研究背景 在生成式AI领域,**掩码扩散模型(Masked Diffusion Models, MDMs)** 正逐渐成为离散序列建模的重要工具,尤其在蛋白质序列设计、游戏状态生成等任务中表现突出。然而,这类模型的一个关键短板是:它们能给出每个变量的边际条件分布,却无法显式表达变量之间的依赖关系——比如蛋白质序列中哪些位点会相互影响,或者数独谜题中哪些格子存在约束。 这种“知其然不知其所以然”的限制,不仅让模型的可解释性大打折扣,也直接影响了生成效率。传统的顺序解码方式每次只生成一个变量,无法利用变量间的条件独立性进行并行加速。 ## 核心方法 来自研究团队(Jai Sharma, Yifan Wang, Bryan Li)提出了一种**神经框架**,能够直接从预训练MDM的隐藏状态中估计成对条件互信息(Mutual Information, MI)。关键创新在于:他们利用模型自身条件分布计算出的**真实互信息**作为监督信号,训练一个轻量级神经网络来预测完整的MI矩阵。 这个估计器只需一次前向传播,就能输出所有变量对之间的依赖强度,相当于给模型装上了一面“透视镜”,让它看清内部变量关系的全貌。 ## 实验验证 研究在**数独(Sudoku)** 和**蛋白质序列生成(ESM-C模型)** 两个任务上进行了评估。 - **数独任务**:MI地图准确恢复了数独规则中的行列约束,例如同一行/列/宫内的格子间互信息显著高于无关格子。 - **蛋白质任务**:MI地图揭示了蛋白质结构中的接触残基对,与已知的物理约束高度一致。 更关键的是,基于MI估计的**并行解码策略**,将推理时的前向传播次数减少了 **3-5倍**,同时生成质量与顺序解码相当,并优于基于熵的并行化方法。 ## 行业意义 这项研究为离散序列模型的**可解释性**和**推理加速**提供了新思路。在蛋白质设计等计算密集型场景中,3-5倍的加速意味着原本需要数天的计算可能缩短到一天以内。此外,MI估计框架不依赖外部知识,完全从模型内部学习,因此可以泛化到各种MDM架构。 ## 局限与展望 目前方法聚焦于成对互信息,尚未扩展到高阶依赖。未来工作可能包括: - 将MI估计整合到训练阶段,实现端到端优化 - 探索更复杂的变量分组策略,进一步提升并行度 该论文已提交至**ICML 2026**,代码和模型预计后续开源。
药物推荐是临床AI的核心难题之一。电子健康记录(EHR)中的患者轨迹往往冗长、充满噪声且临床异质性高,现有方法要么擅长跨就诊时序建模,要么擅长整合药理知识(如药物相互作用DDI),但鲜有两者兼顾且能稳健抑制噪声的解决方案。近日,来自日本的研究团队提出了 **GraphDiffMed**,一个知识约束下的药物推荐框架,核心创新在于引入了**双尺度差分注意力机制**,在就诊内和就诊间两个层面过滤虚假信号,同时将药理约束融入学习过程。 ## 技术亮点:差分注意力 + 药理先验 GraphDiffMed 基于 **Differential Attention v2** 构建。传统注意力机制容易在长序列中放大噪声,而差分注意力通过计算两个注意力分布的差异,有效识别并抑制与临床决策无关的干扰信息。具体而言,模型分别在单个就诊内的用药组合(intra-visit)和跨就诊的长期历史(inter-visit)上应用差分注意力,从而在时间维度和用药组合维度上实现双重降噪。 与此同时,模型引入了**药理图先验**,将药物-药物相互作用(DDI)等知识以图结构的形式嵌入到推荐过程中。这种做法不同于以往仅在损失函数中惩罚DDI的“事后修正”策略,而是让药理知识直接参与特征学习,使得推荐结果在疗效和安全性之间取得更优平衡。 ## 实验表现:安全性与有效性双提升 研究团队在 **MIMIC-III** 数据集上进行了全面评估。实验结果显示,GraphDiffMed 在推荐质量(如Jaccard相似度、F1分数)和排序指标(如NDCG)上均显著优于多个强基线模型,包括基于RNN、Transformer以及结合图神经网络的方法。特别值得注意的是,在DDI率这一安全指标上,GraphDiffMed 实现了更低的药物冲突概率,表明其能够在保持高疗效的同时降低不良反应风险。 消融实验进一步揭示了关键发现:**仅使用人口统计学辅助特征时,模型性能达到最佳**。这意味着GraphDiffMed 能够从最简单的输入中提取足够有效的信号,而无需依赖复杂的临床特征工程,降低了实际部署的门槛。 ## 行业启示与开源贡献 当前,临床AI系统面临的最大挑战之一是“噪声-知识”两难:时序模型容易受数据噪声干扰,而知识驱动模型又缺乏对动态变化捕捉能力。GraphDiffMed 提供了一条可行的融合路径——通过差分注意力机制从数据中自动过滤噪声,再通过药理图先验注入领域知识,两者协同工作。 该工作已在 arXiv 上公开,代码也已开源(见论文链接),为后续研究提供了可复现的基准。未来,这一框架有望扩展到更广泛的临床决策支持场景,例如合并症患者的治疗方案优化,或结合基因组学数据的个性化用药。 对于关注医疗AI落地的从业者而言,GraphDiffMed 的思路值得借鉴:与其追求更复杂的模型,不如在注意力机制上做减法,在知识融合上做加法。
## 概览 Prior-Data Fitted Networks(PFN)在表格数据任务中表现出色,但传统 PFN 仅支持单任务推理——要预测多个目标变量,必须重复执行前向传播,且无法在任务间共享信息。近期,来自麦吉尔大学的研究团队提出了 **TabPFN-MT**,这是一种**原生支持多任务的上下文学习器**,通过扩展的多目标合成先验训练,能在一次前向传播中同时预测多个目标,大幅提升计算效率。 ## 核心创新 TabPFN-MT 的架构改进集中在两个关键点: - **扩展的 y 编码器(expanded y-encoder)**:将每个样本的多个目标值编码为统一表示,使模型能同时处理多个标签。 - **共享解码器头(shared decoder head)**:所有任务共享同一个解码器,从而在上下文学习中捕获任务间的依赖关系。 这种设计使得模型在推理时,对于 T 个任务的计算复杂度从传统的 **O(T) 降至 O(1)**,即无论有多少个目标变量,都只需一次前向传播即可完成所有预测。 ## 性能表现 在**344 个数据集**上的广泛评估显示,TabPFN-MT 在中小规模数据集(平均样本数少于 1000)上取得了**深度表格多任务学习的新最优结果**。具体而言: - 在多任务数据集上,其**准确率平均排名为 4.89**,是所有测试模型中的最高平均排名。 - 即使与最新的单任务集成模型相比,TabPFN-MT 依然极具竞争力,尽管多任务联合优化存在固有的计算不对称性。 ## 行业意义 表格数据是金融、医疗、工业等领域最常见的结构化数据形式。传统多任务学习通常需要为每个任务单独训练模型或进行多次推理,成本高昂。TabPFN-MT 通过**上下文学习**替代梯度训练,特别适合样本量有限但任务繁多的场景(如小样本医疗诊断、多目标金融预测)。其 **O(1) 推理成本** 使得在边缘设备或实时系统上部署多任务模型成为可能。 ## 局限与展望 当前模型主要面向中小规模数据集(<1000 样本),在大规模数据上的表现尚待验证。此外,多任务间的负迁移问题——即某些任务相互干扰导致性能下降——在 TabPFN-MT 中如何被缓解,论文未给出深入分析。未来工作可能包括扩展至更大数据集,以及探索更灵活的任务编码方式。 总体而言,TabPFN-MT 为表格多任务学习提供了一个高效、即用的新范式,其 **“一次推理,多任务完成”** 的特性有望在工业界快速落地。
扩散模型在图像、分子等生成任务中表现惊艳,但其训练过程如何在高维数据中高效学习得分函数(score function),从而避开维度灾难,一直是未解之谜。近日,一篇发表于 arXiv 的论文《Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine》给出了理论解释,并提出了一种新的潜在扩散模型架构 **SiLD**(Score-induced Latent Diffusion)。 ## 核心发现:得分函数的几何驱动 研究团队发现,扩散模型训练中存在一种由得分函数几何性质驱动的“坍塌与精炼”机制: - **小噪声阶段**:得分函数在数据流形附近出现发散奇点,迫使去噪映射发生**维度坍塌**,将高维噪声快速投影到低维数据流形上。 - **中等噪声阶段**:训练进一步**精炼**流形上的内在密度分布,完成对数据分布的精确建模。 这一发现从理论上解释了扩散模型为何能通过简单的去噪得分匹配目标,同时完成“流形学习”和“密度估计”两个任务,而无需像 VAE 那样依赖启发式的 KL 正则化。 ## 新框架 SiLD:理论驱动实践 基于上述原理,作者提出了 **SiLD**(Score-induced Latent Diffusion),一个两阶段框架: 1. **坍塌阶段**:利用小噪声下得分函数的奇异行为,自动学习低维潜在表示。 2. **精炼阶段**:在潜在空间上进行标准的扩散生成。 与 VAE 基潜在扩散模型(LDM)不同,SiLD 不需要显式的编码器-解码器训练,而是直接从去噪得分匹配目标中涌现出流形结构。理论证明,其**样本复杂度仅取决于数据的内在维度**,而非环境维度,从而绕过了维度灾难。 ## 实验验证:性能与理论一致 在 **Stacked MNIST**、**CelebA 变体** 和分子生成基准上的实验表明: - SiLD 在生成质量上匹配甚至超越 VAE 基 LDM(如 FID 分数)。 - 在重建任务上(如图像编码后还原),SiLD 持续优于 VAE 基方法,验证了其更准确的流形学习能力。 ## 意义与展望 该工作首次为“扩散模型为何能高效学习低维流形”提供了严格的理论证明,并给出了一个无需额外正则化的实用框架。这不仅加深了对扩散模型内部机制的理解,也为未来设计更高效的生成模型指明了方向——利用得分函数的几何结构,而非依赖复杂的架构设计。 对于 AI 社区而言,这一成果可能推动扩散模型在科学计算、3D 生成、药物设计等对维度敏感领域的更广泛应用。
arXiv:2605.20246v1 Announce Type: new Abstract: Recently, vision-language model (VLM) agents have shown promising progress in open-world tasks, where successful task completion often requires multiple turns of visual perception and action execution. However, existing methods still rely primarily on Supervised Fine-Tuning (SFT) with expert demonstrations, while the advanced reinforcement learning (RL) algorithm, specifically Group Relative Policy Optimization (GRPO), has not been effectively empl
电池健康诊断目前主要依赖电化学信号,但磁测量技术能捕捉终端测量无法获取的信息。然而,缺乏公开的电池磁测量数据集限制了相关方法的发展。为此,研究人员发布了 **MagBridge-Battery v1.0**,这是一个包含 **6,760 个磁场特征** 的合成数据集,通过桥接真实磁形态数据与健康状态标签,为磁传感电池诊断提供了首个公开基准。 ## 数据集构成与创新 MagBridge-Battery 的独特之处在于它将来自 Mohammadi-Jerschow OSF 档案的真实磁形态与 PulseBat 数据集中的健康状态标签相结合。具体包含: - **5,600 个** PulseBat 条件约束的接地样本 - **600 个** 基于干净样本衍生的合成传感器异常样本 - **560 个** 低电压 Regime-B 外推样本 数据集经过严格验证,确保无细胞重叠、无跨分裂亲子对、无样本 ID 重叠,从而保证了基准测试的可靠性。 ## 基准任务与验证 论文定义了三个主要基准任务:**健康状态回归**、**二次寿命分类** 和 **异常检测**,以及一个辅助的异常子类型分类任务。通过标签洗牌消融实验,健康状态回归的 R² 从约 0.77 骤降至约 0,证实了数据集编码了有效的健康状态信息,而非产生标签对齐的伪影。 ## 行业意义 当前,电池健康诊断高度依赖电化学信号,而磁测量技术有望提供互补信息。MagBridge-Battery 的出现填补了公开数据集的空白,为机器学习研究人员提供了开发磁传感诊断方法的平台。尽管真实配对数据仍然稀缺,该合成数据集为算法验证和基准测试提供了重要起点。 数据集已在 **Zenodo** 上以 CC-BY-4.0 许可发布,桥接代码和基准套件以 Apache-2.0 许可在 GitHub 上公开。这一工作有望推动磁传感技术在电池健康诊断领域的实际应用。
大型语言模型(LLM)的安全探测通常使用隐藏状态表示来区分安全与不安全的提示,但高性能的平均检测指标并未揭示这种分离背后的几何结构。最新研究《Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry》提出了一种轻量级探测方法,通过分析逐层边际几何特征,为LLM安全信号的形成机制提供了全新视角。 ## 核心方法:从层间运动到位置几何 Geometry-Lite将每一层最后的提示token表示映射为三类读出器下的带符号边际:质心、局部邻域和有监督线性边界。随后,它通过边界位置、层间变化和粗略形状来总结边际轮廓。这种设计旨在回答三个关键问题:安全证据如何跨层形成?哪些几何特征支持低误报决策?哪些几何偏差在基准迁移下保持稳定? ## 关键发现:边界位置几何是主导因素 实验覆盖了**9个指令微调模型**(参数规模从12亿到700亿)和**7个安全基准**。结果显示,安全证据主要通过**持久的边界位置几何**表达:最终或极值边际以及不安全侧的层占用率主导了聚合检测性能。相比之下,有限差分漂移和结构摘要对整体AUROC贡献甚微,尽管漂移在低误报率阈值下能提供小幅的召回导向修正。 ## 基准迁移下的几何偏差 在基准迁移场景下,优化的线性边界在训练混合集上表现尖锐,而**类条件均值几何**在预定义的困难保留子集上更可靠地保持了分离能力。这表明,提示级安全证据主要不是层间运动信号,而是一种**持久的逐层边际几何**,其有用组件和读出器级偏差在决策关键场景中变得可见。 ## 意义与展望 Geometry-Lite不仅提供了可解释的安全探测工具,还揭示了LLM安全机制的本质:安全信号并非动态变化,而是静态的几何结构。这一发现为设计更鲁棒、可解释的安全系统指明了方向,同时也挑战了依赖层间动态的现有假设。未来,该方法可扩展到多语言模型和更复杂的攻击场景。
钙钛矿太阳能电池的效率提升高度依赖前驱体添加剂的优化,但化学空间之广阔让传统试错法显得力不从心。近日,一个名为 **LEAP**(LLM-driven Exploration via Active Learning for Perovskites)的闭环框架被提出,它将领域专用大语言模型与主动学习相结合,旨在加速添加剂筛选过程,为光伏材料研发注入 AI 动力。 ## 框架核心:文献驱动的智能筛选 LEAP 的核心思路是将“专家知识”与“机器学习”闭环整合。首先,研究者训练了一个领域专用的大语言模型,专门从钙钛矿添加剂文献中提取与机制相关的知识,并将候选分子表示为可解释的描述符。这些描述符随后被集成到 **贝叶斯优化** 工作流中,从而在数据稀缺的条件下实现“不确定性感知”的优先级排序。与通用大模型相比,该专用模型在机制一致性推理上表现更优。 ## 实验验证:效率与性能双提升 在概念验证研究中,团队引入了专家反馈环节,经过三轮筛选,LEAP 推荐的添加剂表现亮眼。采用 6-CDQ 和 2-CNA 处理的器件平均光电转换效率(PCE)分别达到 **20.13%** 和 **20.87%**,而对照组仅为 **19.25%**;最佳器件效率更是达到了 **21.32%**。这些结果为“文献机制描述符 + 贝叶斯优化 + 专家可行性审查”这一组合策略的有效性提供了初步证据。 ## 行业意义:AI 加速材料发现 LEAP 的提出不仅针对钙钛矿领域,更代表了 AI 在材料科学中应用的一种新范式。传统高通量筛选依赖大量实验,成本高、周期长;而 LEAP 通过让 LLM 理解文献中的化学机制,再结合主动学习迭代优化,大幅减少了实验次数。这种“专家在环”的闭环设计,既保留了 AI 的运算效率,又融入了人类研究者的判断力,有望推广到其他功能材料的发现中。 ## 局限与展望 目前 LEAP 仍处于初步验证阶段,其泛化能力、对复杂添加剂体系的适应性,以及长期稳定性测试结果尚未公开。但作为首个将领域专用 LLM 与主动学习深度融合的钙钛矿添加剂发现框架,它展示了 AI 在缩小搜索空间、提升研发效率方面的巨大潜力。未来,随着更多实验数据的积累和模型迭代,LEAP 或将成为光伏材料研究者的得力助手。 > 论文链接:arXiv:2605.20242
时空预测在城市交通、气象和公共卫生等领域至关重要,但现有方法常面临性能瓶颈,且跨领域迁移能力有限。近日,arXiv上发布的一篇论文《Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance》提出了一个可扩展的自适应框架,通过平衡空间与时间特征的维度来显著提升预测精度。 ## 核心思路:从熵诊断到维度平衡 研究团队首先利用**空间熵**和**时间熵**作为诊断指标,分析时空复杂度的不匹配程度。他们发现,当空间与时间复杂度失配较大时,预测不确定性往往更高(尤其在模型容量固定的情况下)。基于这一发现,他们提出了一种**维度平衡框架**: - **空间维度压缩**:通过低秩矩阵嵌入保留关键结构,降低冗余信息。 - **时间维度扩展**:延长时间窗口以捕获长程依赖,并缓解因时间异质性导致的累积误差。 ## 实验结果:跨领域显著提升 在**城市交通流量、气象预报和流行病传播**三个典型数据集上,该方法均取得了显著的精度提升,且表现出良好的跨领域适用性。例如,在交通流量预测任务中,均方根误差(RMSE)降低了12%以上;在气象温度预测中,长期预报的稳定性明显改善。 ## 行业意义与局限 该研究的价值在于,它不仅提出了一个通用的诊断指标(熵匹配),还给出了可落地的解决方案。与当前流行的基于Transformer或GNN的复杂模型不同,该框架**更轻量、更可解释**,且易于扩展到大规模数据场景。不过,论文也指出,熵对齐本身并不保证最优预测,诊断结果仅作为指导,实际效果仍需结合具体任务验证。 ## 小结 维度平衡为时空预测提供了一种新思路:与其无限增加模型复杂度,不如先诊断并协调时空特征的内在结构。代码已开源在GitHub上,感兴趣的读者可进一步探索。
Transformer模型的规模日益庞大,如何在保持性能的同时实现有效压缩,是当前AI落地的重要课题。来自比利时的研究团队提出了一种基于B样条的鲁棒解耦框架(R-CMTF-BSD),为模型压缩提供了新思路。 ## 解耦:从多元函数到单变量组合 解耦(Decoupling)是一种将多元函数表示为线性变换与单变量非线性函数组合的建模范式。单层解耦可看作一个具有单隐藏层和灵活激活函数的全连接神经网络,与神经网络存在直接联系。因此,解耦方法在神经网络领域,尤其是模型压缩中,受到越来越多的关注——它能够通过结构化近似,在降低参数复杂度的同时保留表达能力。 ## 现有方法的局限:多项式与分段线性 现有的张量基解耦方法通常采用多项式或分段线性参数化内部非线性函数。然而,多项式方法在高阶时容易出现数值不稳定,而分段线性方法表达能力有限,难以捕捉复杂的非线性关系。这两种局限性限制了压缩效果的进一步提升。 ## B样条解耦:更稳定、更灵活 研究团队提出的B样条基解耦框架,通过利用B样条的局部支撑性和灵活的光滑度控制,实现了更稳定且更具表达力的表示。具体来说,他们推导出一个约束耦合矩阵-张量分解模型,并提出了一种鲁棒的交替最小二乘算法(R-CMTF-BSD),该算法引入了归一化和Tikhonov正则化,增强了数值稳定性。 ## 实验验证:Vision Transformer与Swin Transformer 在合成数据和真实Transformer模型上的实验验证了方法的有效性。在**Vision Transformer**和**Swin Transformer**架构上,B样条解耦在实现**大幅参数缩减**的同时,保持了**有竞争力的准确率**。例如,在ImageNet分类任务上,压缩后的模型参数减少约50%,而准确率下降不到1%。 ## 意义与展望 R-CMTF-BSD算法为结构化神经网络压缩提供了一种有前景的工具。与传统的剪枝、量化等方法相比,解耦方法能更自然地利用模型的结构化特性,实现可控的压缩比。未来,该方法有望扩展到更大规模的模型(如LLaMA、GPT等),并与其他压缩技术结合,推动高效AI部署的进步。
## 概述 低秩适配(LoRA)是大语言模型参数高效微调的主流方法,但其变体大多针对密集架构设计。混合专家(MoE)模型以近乎恒定的每token计算量扩展参数规模,其稀疏激活模式为更高效的适配提供了尚未开发的机会。我们提出**HELLoRA**(Hot-Experts Layer-level Low-Rank Adaptation),该方法仅将LoRA模块附加到每层最频繁激活的专家上。这一简单机制不仅减少了可训练参数和适配器引入的FLOPs,还提升了下游性能——我们将此归因于一种结构化正则化效应,它保留了预训练专家的专业化能力。 为了在极端参数预算下测试HELLoRA,我们进一步将其与LoRI组合形成**HELLoRI**,后者冻结上投影并稀疏化下投影。在三个MoE基座模型(OlMoE-1B-7B、Mixtral-8x7B、DeepSeekMoE)以及涵盖数学推理、代码生成和安全对齐的三类任务上,HELLoRA持续优于强PEFT基线。 ## 核心优势 - **参数效率**:在OlMoE上,相比标准LoRA,HELLoRA仅使用15.7%的可训练参数,适配器FLOPs降低38.7%,训练吞吐量提升1.9倍,同时准确率提高9.2%。 - **性能提升**:在DeepSeekMoE上,HELLoRA仅用23.2%的可训练参数即超越LoRA。 - **即插即用**:无需修改模型架构,仅需识别热点专家并附加低秩矩阵。 ## 技术细节 HELLoRA的核心在于**激活感知的适配器放置**。MoE模型的前向计算中,每个token只激活少量专家(如Top-2),而不同专家的激活频率差异显著。HELLoRA通过统计预训练阶段的专家激活频率,选取每层激活次数最高的k个专家(称为“热点专家”),仅在这些专家上插入LoRA模块。这种选择性适配使得可训练参数大幅减少,同时由于热点专家承载了大部分计算,微调仍能有效影响模型行为。 实验表明,HELLoRA的效果优于随机选择专家或均匀分配适配器的方案,说明其成功利用了MoE的稀疏激活特性。作者进一步分析认为,限制适配范围起到正则化作用,防止过拟合,并维持了专家之间的分工。 ## 与现有工作的关系 现有PEFT方法如LoRA、AdaLoRA、DoRA等主要针对密集模型设计,直接应用于MoE时要么参数效率低,要么忽略专家激活的差异性。HELLoRA填补了这一空白,并展示了将架构先验(稀疏激活)融入适配策略的有效性。此外,HELLoRI的极端压缩版本(冻结上投影)进一步证明了在极低参数预算下仍能保持竞争力。 ## 结论 HELLoRA提供了一种简单、高效且可推广的MoE模型微调方案。随着MoE架构在大模型中的广泛应用(如Mixtral、DeepSeek、Qwen等),激活感知的适配方法有望成为PEFT的标准实践。未来工作可探索动态热点选择、专家间适配共享等方向。
大型语言模型(LLM)的推理成本一直是实际部署中的核心挑战。业界普遍采用“级联”(cascade)或“模型路由”(model routing)策略:将简单查询交给轻量小模型处理,仅把困难问题升级到大型模型,从而在保证性能的同时降低总成本。然而,现有路由方法大多依赖未校准的置信度分数,且需要针对不同工作负载手动调整阈值,缺乏通用性和稳定性。 近期,一篇发表于arXiv的论文提出了**UCCI**(Uncertainty-Calibrated Cascade Inference)——一种“校准优先”的路由器,通过等渗回归将令牌级边际不确定性映射为每个查询的误差概率,并利用约束成本最小化自动选择升级阈值。该方法在理论上证明了:在三个明确假设下,基于校准分数的阈值策略能够达到成本最优,且等渗校准在期望校准误差(ECE)上实现了O(n^{-1/3})的样本复杂度。 实验基于一个生产级命名实体识别(NER)工作负载,包含75,000条查询,分别由4B和12B参数的指令微调LLM在H100 GPU上提供服务。结果显示:在微F1分数保持0.91的前提下,UCCI将推理成本降低了**31%**(95%置信区间:[27%, 35%]),同时将ECE从0.12降至**0.03**。在同一运行点上,UCCI全面超越了熵阈值法、分裂共形路由以及FrugalGPT风格的学习阈值方法。 值得注意的是,所有级联结果均基于实际模型输出的端到端路由和实测H100延迟,而非模拟路由或名义API价格。这使结论更具工程参考价值。 UCCI的核心贡献在于: - **校准驱动**:将路由决策建立在经过不确定性校准的分数上,而非原始logits或熵,从而更可靠地反映模型对答案的把握程度。 - **自动阈值选择**:通过约束成本最小化自动确定升级阈值,消除了人工调参的负担。 - **理论保证**:证明了在合理假设下策略的成本最优性,并给出了校准误差的收敛速率。 这一工作为LLM部署中的成本-质量权衡提供了新思路。未来,UCCI有望被集成到推理框架中,使开发者无需手动权衡即可获得接近最优的路由策略。对于追求高性价比AI服务的企业而言,这无疑是一个值得关注的进展。