AI 资讯

每日聚合最新人工智能动态

HERO：面向联邦持续学习的异构感知基准库

新上线

联邦持续学习（FCL）旨在评估分布式客户端如何从不断变化的数据流中学习，同时保留已学知识。然而，现有评估因数据集、任务划分、客户端数据分配、任务顺序、骨干网络、内存假设和报告规则等频繁同时变动而难以比较。为此，研究人员提出了 **HERO**（Heterogeneity-Aware Benchmark Library），一个面向FCL的异构感知基准库。 ## 解耦关键因素，构建可比基准 HERO的核心创新在于将通常耦合的三个选择分离：**任务划分**、**客户端数据划分**和**客户端任务序列**。在主要可比基准 **HERO-Core** 中，参数 α 控制客户端数据偏斜，ρ 控制任务顺序不匹配。这种设计使得研究者能够独立控制异构性来源，从而进行更公平的方法比较。 ## 实验设置与关键发现研究团队在 **CIFAR-100** 和 **TinyImageNet** 上评估了代表性FCL方法，采用**最终平均准确率**、**平均遗忘率**和**底部10%客户端准确率**作为指标。此外，还包含了基于图的 **Domain-IL** 可移植性案例研究（使用 **OGB-MolPCBA** 数据集），其中支架域粒度改变输入分布，但预测任务保持不变。实验结果揭示了几个重要现象： - 方法行为在简单和异构设置之间存在显著差异； - 平均准确率可能掩盖底层客户端的弱性能； - 任务顺序不匹配时，不同策略的表现与同步评估时截然不同； - HERO的统一接口能够暴露图像分类之外的域偏移难度。 ## 开放与可复现 HERO 提供了完整的基准流、配置、方法实现和报告脚本，以支持可重复且感知设置的FCL评估。该库通过分离异构性维度，为社区提供了更精细的评估工具，有助于推动联邦持续学习领域的标准化比较。 ## 总结 HERO 通过解耦关键变量，解决了FCL评估中缺乏可比性的核心问题。其模块化设计和丰富的实验结果不仅验证了现有方法的局限性，也为未来研究提供了清晰的方向。随着联邦学习在现实场景中的广泛应用，HERO 有望成为该领域基准测试的重要参考。

HuggingFace2天前原文

StickyMoE：训练时让专家“粘”在一起，实现MoE模型内存高效推理

新上线

## 背景：MoE模型在边缘设备上的内存瓶颈混合专家（Mixture-of-Experts, MoE）模型通过稀疏激活机制，每个token只调用少数专家，从而在保持模型容量的同时降低计算成本。然而，在边缘设备（如手机、IoT设备）上部署MoE模型时，一个隐藏的性能杀手逐渐浮出水面：**相邻token频繁激活不同的专家**，导致模型需要不断从慢速存储（如闪存）中加载专家权重到快速内存（如DRAM）中。这种“权重交换”操作严重拖慢推理速度，并增加功耗。现有解决方案主要分为两类：系统层面的缓存启发式策略，以及训练后的路由器微调。但这些方法都只是“治标”——它们没有从根源上改变模型在预训练阶段形成的路由行为。 ## 核心创新：StickyMoE 损失函数来自研究者 Ali Kayyam 的最新论文提出了一种名为 **StickyMoE** 的方法，通过一个可微的路由一致性损失函数，在**训练阶段**直接干预路由器的决策行为。该损失函数对相邻token之间的专家切换进行惩罚，鼓励路由器在语义连贯的文本段内保持相同的专家分配。 StickyMoE 的关键优势在于： - **无需修改模型架构**，仅在损失函数中添加一项，超参数仅为一个 λ（控制惩罚强度）。 - **与训练过程协同适应**：专家表示和路由决策从第一步训练开始就共同优化，而非事后修补。 - **实验效果显著**：在小规模MoE语言模型上的实验表明，StickyMoE能将专家切换率降低高达 **60%**，而困惑度（perplexity）仅退化不到 **4%**，在“质量-局部性”前沿上全面优于后微调方法。 ## 为什么训练阶段干预更有效？论文的核心洞察是：**路由的时间局部性最好在训练时灌输**。后处理方法（如微调路由器）虽然也能减少切换，但专家表示已经固化，路由器只能在有限空间内调整，容易导致性能下降。而StickyMoE让路由器和专家共同适应，使得专家能够学习到更适合“粘性”路由的表示，从而实现更优的权衡。 ## 行业意义与展望随着AI模型向边缘设备迁移，内存带宽和存储速度成为关键瓶颈。StickyMoE提供了一种轻量级、高效的训练策略，有望推动MoE模型在资源受限设备上的实用化部署。未来，该方法可能进一步扩展到更大规模的模型，并与其他稀疏激活技术（如动态专家分配）结合。论文以预印本形式发布于 arXiv，代码尚未开源，但方法本身简洁高效，预计将引起学术界和工业界的广泛关注。

HuggingFace2天前原文

Signed Symmetric Quantization for Few-Bit Integers

新上线

arXiv:2607.08779v1 Announce Type: new Abstract: The signed integer alphabet contains one more negative representable value than positive. Yet, by convention, the standard symmetric integer quantizer fixes its scale to be strictly positive, which assigns this extra representable value to the negative tail and can force clipping of positive outliers. In this work, we show that, at few-bit precision, such clipping is a non-trivial source of quantization error. Asymmetric quantization addresses this

HuggingFace2天前原文

统一框架解读大模型知识蒸馏：交互稀疏化是核心机制

新上线

知识蒸馏（Knowledge Distillation, KD）是压缩大型语言模型（LLM）的主流技术，但其成功背后的统一原理一直缺乏清晰解释。近日，来自同济大学的研究团队在 arXiv 上提交了一篇论文，提出了一种基于“交互”（interaction）的统一分析框架，揭示了不同 KD 方法共有的底层机制——**交互稀疏化**，并据此设计出一款即插即用的损失函数 CIP，可显著提升蒸馏效果。 ## 从交互视角理解蒸馏论文的核心思路是将 LLM 的输出分数分解为大量“交互”的线性加和。每个交互代表一组输入变量（如单词）之间的非线性关系，其强度衡量了模型对该组合的依赖程度。例如，某些交互可能捕捉到“not”与“good”之间的转折语义，而更复杂的交互则可能涉及多个词的高阶协同。通过对比教师模型与学生模型的交互模式，研究者发现：**所有成功的 KD 方法都促使学生模型保留少数关键交互，而将其他交互的效应压制为零**。这一过程被称为“交互稀疏化”。换句话说，蒸馏的本质是让学生学会“抓重点”——只依赖最核心的变量组合进行推理。 ## 复杂交互的稀疏度决定性能差异进一步分析表明，不同 KD 方法的性能差异主要源于它们对**复杂交互**（涉及更多变量的高阶交互）的处理能力。复杂交互通常蕴含更深层的语义关系，但也更容易引入噪声。研究发现：**如果一种 KD 方法能让学生模型对复杂交互实现更高程度的稀疏化（即更精准地保留有效交互、剔除无效交互），则其下游性能往往更优**。这一发现解释了为何某些蒸馏策略（如基于 logit 的软标签蒸馏）在特定任务上优于其他方法——它们更擅长引导学生关注高价值的复杂交互。 ## CIP：专治复杂交互的“稀疏化神器” 基于上述洞察，团队提出了一个即插即用的损失项——**复杂交互惩罚（Complex Interaction Penalty, CIP）**。CIP 在标准蒸馏损失的基础上，显式地惩罚学生模型中复杂交互的“非零效应”，迫使模型在训练过程中自动抑制冗余的高阶关系。实验在多个基准（包括领域内和分布外场景）上验证了 CIP 的有效性：无论搭配哪种基础 KD 方法（如 KD、DistilBERT 式蒸馏等），加入 CIP 后都能带来一致且显著的性能提升。这表明，直接调控交互稀疏度是一种比单纯拟合输出更通用的优化方向。 ## 意义与展望该工作为 LLM 知识蒸馏提供了一面“理论透镜”，将以往经验性的蒸馏技巧统一到交互稀疏化的框架下。未来，研究者可以借助交互分析来诊断蒸馏失败的原因，或者设计更高效的蒸馏策略——例如，通过主动识别并保留教师模型中的关键复杂交互，而非简单模仿全部输出。对于 AI 工程实践而言，CIP 的低成本集成特性意味着它有望成为蒸馏流程的标准组件。随着 LLM 部署对效率要求的不断提高，这种“知其然更知其所以然”的优化方法，或将成为模型压缩领域的新范式。

HuggingFace2天前原文

长尾胸部X光分类中，阈值下的亚组漏诊：谁被遗漏了？

新上线

在胸部X光（CXR）分类任务中，即使模型在排序指标上表现良好，仍可能将罕见阳性患者置于阈值之下，尤其是在特定亚组中。一篇发表于arXiv的新研究将这一部署前的公平性问题作为审计问题来探讨：当长尾多标签CXR模型从分数转换为决策时，谁被遗漏了？研究团队在**VinDr-CXR**和**MIMIC-CXR/CXR-LT**两个数据集上，使用一种“诊断阶梯”方法，分别考察了类别级长尾损失、亚组感知加权、群体鲁棒性和阈值选择的影响。在VinDr-CXR上，采用**组尾加权**结合**尾感知阈值**，将尾部假阴性率（FNR）从0.665降至0.269，性别最差组FNR从0.705降至0.157，年龄最差组FNR从0.822降至0.133，同时宏观平均精度（macro-mAP）从0.611提升至0.635。在MIMIC-CXR/CXR-LT上，相同的分数到阈值比较将尾部FNR从0.866降至0.741，并降低了性别、年龄、种族和保险类型的最差组FNR；然而，残余的漏诊率仍然较高。通过配对Bootstrap对比验证了VinDr上阈值化FNR的降低效果，而GroupDRO参考运行表明，仅靠聚合群体鲁棒性并不能消除该场景下的罕见亚组漏诊。研究支持一个狭窄的审计主张：CXR中的罕见标签公平性**共同取决于发现类别、亚组和操作阈值**，而非仅依赖于标签频率或排序指标。 ### 关键发现 - **问题本质**：长尾分布下，模型对罕见阳性患者的漏诊存在亚组偏差，传统排序指标无法反映阈值后的公平性问题。 - **解决方案**：通过组尾加权和尾感知阈值调整，可显著降低最差亚组的假阴性率，但无法完全消除漏诊。 - **剩余挑战**：即使使用GroupDRO等鲁棒性方法，罕见亚组的漏诊仍难以根除，表明阈值选择和亚组特异性处理至关重要。 ### 行业意义该研究为医疗AI部署前的公平性审计提供了方法论框架，强调了从“分数排序”到“实际决策”的转换过程中，必须考虑亚组差异和阈值效应。对于CXR分类系统，仅追求整体性能提升可能掩盖对特定人群（如老年、女性或少数种族）的诊断不足，需引入细粒度的公平性评估。

HuggingFace5天前原文

时间图网络可解释性新突破：记忆回溯与拓扑归因方法登顶ICML 2026

新上线

时间图网络在社交网络、金融交易、生物信息等动态场景中广泛应用，但其内部记忆模块——负责记录和更新节点历史状态的核心组件——长期处于“黑箱”状态。现有解释方法多聚焦于拓扑结构，却忽略了记忆模块如何整合历史事件来驱动预测。来自北京邮电大学、里海大学和香港科技大学的研究团队提出了一种名为**记忆回溯与拓扑归因（Memory Backtracking and Topological Attribution）** 的方法，首次系统地将TGN的记忆机制纳入可解释性框架，相关工作已被ICML 2026接收为Spotlight论文。 ## 两大回溯树：从拓扑到记忆的完整归因该方法的核心在于构建两棵互补的归因树： - **拓扑归因树**：捕捉邻居节点及其记忆向量对当前预测的贡献。通过层级分解，模型能够定位哪些相邻节点在特定时间步产生了关键影响。 - **记忆回溯树**：进一步量化历史事件如何塑造节点记忆向量本身。这意味着，即使一个事件发生在较远的时间点，只要它对记忆向量产生持续影响，也能被准确追溯。这种“从拓扑到记忆”的双树结构，使得归因链条能够完整覆盖事件→记忆→预测的全路径。 ## LRP适配与优化目标：解决概率映射失真研究团队将**分层相关性传播（LRP）** 适配到TGN中，确保所有历史事件的总贡献等于模型输出的logits值，从而在数学上保证了归因的忠实性。此外，针对传统top-k选择方法因logits到概率的非线性映射而可能失真的问题，他们设计了专门的优化目标来筛选真正重要的事件，而非简单依赖阈值截断。 ## 九大数据集验证：全面超越现有基线实验覆盖了节点属性预测、链接预测和图分类三类任务，涉及九个公开时间图数据集。结果表明，该方法不仅在忠实度指标上显著优于现有最先进基线，还能提供更符合直觉的解释。例如，在社交网络动态链接预测中，模型能够正确识别出导致好友关系建立的关键早期互动，而非仅仅关注近期事件。 ## 行业意义：从“能用”到“可信”的关键一步时间图网络在金融反欺诈、交通流量预测、推荐系统等领域具有巨大潜力。然而，缺乏可解释性一直制约其在合规要求严格的行业落地。记忆回溯与拓扑归因方法首次揭示了记忆模块中的“因果链”，使开发者能够验证模型是否依赖了合理的业务逻辑，而非偶然的统计关联。随着ICML 2026的认可，这一思路有望成为TGN可解释性的标准范式。

HuggingFace5天前原文

LLT：面向偏微分方程算子学习的局部线性Transformer

新上线

近年来，神经算子（Neural Operator）已成为学习偏微分方程（PDE）解映射并加速数值模拟的主流方法之一。其中，基于Transformer的神经算子尤为引人关注，因为注意力机制能够捕捉计算域中的长程依赖关系。然而，标准注意力机制在应用于PDE时存在两大缺陷：**计算复杂度随节点数呈二次增长**，且**缺乏对局部交互的显式偏置**。为克服这些局限，来自特拉维夫大学的研究者Oded Ovadia和Eli Turkel提出了**局部线性Transformer（Local Linear Transformer, LLT）**。该架构创新性地将**线性全局注意力**与**局部空间混合**相结合，并融入了坐标与几何信息，从而在保持全局感知能力的同时，显著提升计算效率和对局部特征的捕捉能力。 ### 性能表现：精度与效率的双重提升 LLT在多个经典PDE问题上进行了评估，涵盖**弹性力学、塑性力学、翼型绕流、管道流以及达西流**等。参考数据来自**有限元、有限体积和有限差分**等不同离散化方法，且同时适用于结构化与非结构化网格。与先前研究中的多种神经算子和Transformer基线相比，LLT在这些问题上取得了**具有竞争力或更低的相对L₂误差**。更值得一提的是其计算效率：在匹配的结构化离散化设置下，LLT每个训练迭代的**墙钟时间相比Transolver降低了1.8至2.5倍**。 ### 大规模应用验证研究团队还将LLT扩展至一个**三维汽车空气动力学数据集**，每个样本包含多达**32,186个非结构化网格点**。实验结果表明，LLT在该大规模复杂问题上依然保持高精度和高效性，证明了其处理实际工程问题的潜力。 ### 行业意义与未来方向 LLT的提出为PDE求解领域提供了一种**准确且计算高效的算子学习方案**，尤其适用于跨离散化类型、网格类型和问题设置的场景。相比传统Transformer，LLT通过局部线性化设计有效缓解了二次复杂度瓶颈，同时保留了全局注意力对长程依赖的建模能力。这一工作也反映出AI for Science领域的一个趋势：**在通用架构基础上，融入领域先验知识（如局部性、几何结构）来提升模型在科学计算中的适用性**。未来，类似LLT的混合架构有望在流体力学、固体力学、气候模拟等更广泛的实际应用中发挥关键作用。

HuggingFace5天前原文

ReCoLoRA：频谱感知递归整合，破解大模型持续微调中的灾难性遗忘

新上线

大语言模型在连续多任务微调时，常因新任务覆盖旧知识而出现灾难性遗忘。最新研究 ReCoLoRA 提出一种频谱感知的递归整合框架，通过动态重分解权重空间，在不增加参数量的前提下有效保留历史任务能力，在四个 7-8B 级模型上取得了领先的持续学习效果。 ## 问题背景：LoRA 在持续学习中的困境参数高效微调方法（如 LoRA）虽然能低成本适配单一任务，但在面对任务序列时，新任务的低秩更新会不断叠加在相同的冻结权重上，导致旧任务特征被覆盖。这种“遗忘”问题限制了 LLM 在多轮微调场景中的实用价值，例如对话系统的持续人格更新或企业级模型的分阶段领域适配。 ## ReCoLoRA 的核心创新：递归整合与频谱感知 ReCoLoRA（Recursive Consolidation of Low-Rank Adapters）从两个维度解决上述问题： 1. **频谱感知初始化**：对预训练权重进行随机 SVD 分解，利用肘部准则（elbow criterion）自动选择每层有效秩，优先适配主成分子空间，再开放残差容量。 2. **递归整合机制**：在每个新任务开始前，ReCoLoRA 重新分解当前的“有效权重”（而非原始权重），将其拆分为三个部分：冻结残差、缓慢更新的主成分、以及全新的适配器。这样，新任务从已经吸收了前序知识的模型状态出发，实现渐进式整合。该方法的优势在于：无需记忆旧任务数据，也不增加推理时的参数量，仅通过改变权重分解方式实现知识保留。 ## 实验结果：全面超越基线团队在六个连续 GLUE 任务序列上测试了四个 7-8B 级模型（如 LLaMA-2、Mistral 等），与 LoRA、PiSSA、AdaLoRA、DoRA 等方法进行对比。结果显示： - ReCoLoRA 在 **4 个主干模型中的 3 个上取得了最佳最终平均分**； - 训练参数更少，效率更高； - 作为上限的 oracle-routed 任务银行变体，在完全任务隔离条件下展现了理论最优性能。此外，频谱感知的秩选择机制使模型能够自适应不同层的容量需求，避免了人工调参。 ## 行业价值与未来方向持续微调是 LLM 落地的关键瓶颈之一。ReCoLoRA 提供了一种轻量级、无需数据回放的解决方案，尤其适合隐私敏感或数据存储受限的场景。未来工作可探索将该框架扩展到跨模态模型（如视觉-语言模型），或与动态架构结合实现更灵活的容量分配。论文代码已开源（链接见原文），为社区提供了可直接复现的基线。

HuggingFace5天前原文

Omni-Sleep：基于中枢与自主神经层级对比学习的睡眠基础模型

新上线

## 从生理学出发，重新定义睡眠基础模型现有睡眠基础模型在处理多模态生理信号（如脑电图、心电图、呼吸等）时，往往采用拓扑无关的融合方式，忽视了中枢神经系统（CNS）与自主神经系统（ANS）之间固有的生理层级结构。近日，一项发表于 arXiv 的研究提出了 **Omni-Sleep**——一个利用 CNS/ANS 分区作为生理先验的睡眠基础模型，在表征学习中引入拓扑约束，从而更准确地捕捉睡眠过程中的脑-体动态。 ## 三大学习目标：层级对比与时间建模 Omni-Sleep 的核心在于三个精心设计的训练目标： - **系统内一致性**：在神经信号（如 EEG、EOG、EMG）和心肺信号（如 ECG、呼吸）内部，分别学习共享的子系统级表征，捕捉同一系统内不同通道的共性因素。 - **系统间同步性**：对齐 CNS 与 ANS 的表征轨迹，建模脑与身体之间的动态耦合关系。 - **潜空间掩码时间建模**：通过掩码预测任务，学习长时程的睡眠动态，提升对时间依赖关系的建模能力。这种设计使得模型能够从超过 **10 万小时** 的多中心多模态多导睡眠图（PSG）数据中，学习到具有生理意义的结构化表征。 ## 性能全面超越现有基线在睡眠分期和多疾病分类任务上，Omni-Sleep 均表现出色。与当前最强的基础模型基线相比，它在标签效率、跨数据集泛化能力以及对缺失模态的鲁棒性方面实现了显著提升。即使在某些模态缺失的情况下，Omni-Sleep 依然能保持较高的分类精度，这在实际临床场景中尤为重要——因为患者数据常因设备或记录条件限制而不完整。 ## 生理层级先验的价值 Omni-Sleep 的成功证明了将生理学知识融入模型设计的巨大潜力。传统方法将不同信号一视同仁，而 Omni-Sleep 通过显式利用 CNS/ANS 分区，让模型学会区分“大脑的内部状态”与“身体的自主调节”，从而更准确地表征睡眠的不同阶段和病理特征。研究者已在 GitHub 上开源代码（论文中提供的链接），这将推动睡眠医学领域的基础模型研究，并为其他生物医学信号处理任务提供新思路。 ## 小结 Omni-Sleep 并非简单的“更大数据+更大模型”，而是从睡眠生理学本质出发，设计了匹配生物系统的表征学习框架。对于睡眠研究者而言，它可能意味着更精准的自动分期工具；对于 AI 从业者，则是一次将领域知识与自监督学习巧妙结合的示范。未来，这一思路有望扩展到其他依赖多模态生理信号的领域，如癫痫监测、重症监护等。

HuggingFace5天前原文

不确定性门控选择：让块稀疏注意力不再“短视”

新上线

## 一句话总结 **块稀疏注意力**通过为每个查询选择 top-k 键块来降低长上下文语言模型的计算复杂度，但传统 top-k 截断在分数接近时可能遗漏关键信息。新提出的**不确定性门控路由器**能在这种“犹豫”时刻自动增加保留块数，在多个模型上显著提升召回率，且几乎不增加额外延迟。 ## 背景：长上下文的效率与精度之困处理超长文本（如 128K token）时，标准 Transformer 的 O(N²) 注意力计算成本过高。块稀疏注意力（Block-sparse Attention）是一种主流加速方案：它将键划分为块，对每个查询只保留得分最高的 k 个块，从而将复杂度降至 O(Nk)。然而，这种“一刀切”的 top-k 选择存在固有缺陷——当第 k 块与第 k+1 块得分非常接近时，选择器仍会硬性截断，而那个被丢弃的块可能恰好包含关键证据，且后续层无法恢复。 ## 方法：给注意力加上“犹豫”机制 Thomas Rossi 提出的 **Uncertainty-gated selection**（不确定性门控选择）核心是一个 **价值信息路由器**，它衡量每个查询在 top-k 截断时的决策置信度。具体而言，计算第 k 块与第 k+1 块得分之差，差值越小说明决策越“犹豫”。对于这些低置信度查询，路由器将保留的块数加倍（即 2k），从而在不全局增加预算的前提下，为关键查询提供更多上下文。该路由器与现有块评分方法（如 Quest）正交，可直接叠加使用。 ## 实验结果：显著提升召回，逼近全注意力在 **LongBench-v2 medium**（n=215 全子集）上，路由器加持的 Quest 达到 **配对召回率 0.75**，而传统 top-k 仅为 0.47，提升 28 个百分点（McNemar 检验 p<0.01）。在 **RULER NIAH multikey** 任务中，相同上下文长度下，路由器结果与全注意力（dense）仅差 2 个百分点。该提升在 **Qwen2.5、Mistral-Nemo、Qwen3.6** 四种模型、三种架构上均得到复现。在 128K 上下文下，路由器使 Qwen2.5-7B-1M 和 Qwen3.6 分别保持全注意力精度的 **0.81 和 0.89**，而传统 top-k 在 Qwen2.5-7B-1M 上仅剩 0.09。 ## 效率：几乎无额外开销融合选择与核的流水线在保持高精度的同时，运行时间为全注意力的 **0.62 倍（Qwen2.5）和 0.80 倍（Qwen3.6）**，证明了该方法的实用价值。 ## 总结这项研究直击块稀疏注意力的“短视”痛点，通过轻量级的不确定性门控动态调整保留块数，在长上下文场景下实现了精度与效率的更好平衡。对于需要处理超长文档、代码库或多轮对话的 LLM 应用，该技术有望成为标准组件。

HuggingFace5天前原文

SHIFT：面向不完整与异构基因组数据的生存预测新方法

新上线

在精准肿瘤学中，跨机构部署基因组预测模型常因测序面板差异导致特征结构性缺失，现有方法或限制分析共有基因、或剔除不完整病例、或依赖测试时插补，均影响鲁棒性与多中心数据利用。近日，研究团队提出 **SHIFT（Survival prediction Handling Incomplete Features using Transformer）**，一种无需测试时插补即可直接从缺失基因组输入预测的生存模型。 ## 核心思路：缺失感知的Transformer架构 SHIFT 将每个基因组特征独立表示，通过**掩码自注意力机制**与**特征可用性掩码**，使模型仅基于观测到的输入进行预测。训练时引入**可变比率特征掩码**，模拟不同缺失模式，增强对异构缺失的鲁棒性。该方法无需像传统方案那样限制分析范围或丢弃数据，而是将缺失本身作为模型输入的一部分。 ## 实验验证：跨队列泛化能力突出研究团队在**胶质母细胞瘤**与**肺鳞状细胞癌**数据集上评估 SHIFT，并进行跨多个队列的外部验证，包括极具挑战的**严重跨队列面板不匹配**场景。结果显示，SHIFT 在泛化性能上显著优于标准生存基线模型与基于插补的方法，且**单一模型即可适配不同特征集**。此外，在模型开发阶段纳入不完整队列的病例数据，能进一步提升外部数据上的表现，表明部分观测队列无需被排除在模型构建之外。 ## 行业意义：推动多中心精准医疗落地当前多中心基因组数据整合面临两大障碍：**测序技术差异**导致的特征缺失，以及**数据隐私**限制下的模型迁移。SHIFT 提供了一种实用策略——通过缺失感知建模，在不依赖插补或数据对齐的情况下实现稳健预测。这为真实世界中医疗记录不完整、测序方案各异的场景提供了可行的技术路径，有望加速精准肿瘤学从单中心研究向多中心大规模应用的转化。 ## 小结 SHIFT 以 Transformer 架构为核心，巧妙地将特征缺失转化为可学习的信号，在保持预测性能的同时大幅提升了模型的适用性。未来，该方法可进一步扩展至其他组学数据（如转录组、蛋白质组），并与其他缺失处理机制（如生成式插补）结合，构建更通用的临床决策支持框架。

HuggingFace5天前原文

Jet-Long：动态双焦RoPE实现高效长上下文扩展

新上线

大语言模型正被广泛部署于检索增强生成、仓库级代码编写和智能体工作流等长上下文场景。在这些应用中，累积的推理与工具调用痕迹常常将输入长度推至预训练窗口的十倍以上，使得零样本上下文扩展成为开源权重模型的主要部署路径。然而，现有零样本方法大多预先固定单一重缩放因子——激进的因子会牺牲短上下文保真度，保守的因子则在长上下文处失效。针对这一困境，来自MIT的研究团队提出了 **Jet-Long**，一种无需微调的零样本方法。其核心思想是**双焦位置编码**：将注意力计算拆分为一个局部RoPE忠实窗口和一个远程窗口。局部窗口严格保留原始旋转位置编码，确保短输入时模型行为与基座完全一致；远程窗口的重缩放因子则根据当前序列长度动态调整，在长输入时实现平滑外推。通过**容斥注意力合并**与**即时RoPE校正旋转**，双焦结构在推理时几乎不引入额外开销。研究团队将其融合为单个CuTe内核，在H100 GPU上，长上下文预填充吞吐量达到FlashAttention 2的1.39倍，接近Hopper专属的FlashAttention 4；单批生成时，各长度下的开销均不超过4%。实验在**Qwen3-1.7B/4B/8B**模型上展开，上下文长度达128K。在RULER评测中，Jet-Long在1.7B/4B/8B规模上分别领先最强基线**+4.79、+2.18、+2.03个百分点**；在HELMET-RAG基准上取得最佳总体准确率（该基准被HELMET识别为下游长上下文性能最有效的预测指标）；并在PG-19困惑度指标上达到最低值。此外，Jet-Long可泛化至**混合注意力架构**（如Jet-Nemotron），无需重新训练即可进一步改善长上下文效果。其超参数鲁棒性强，易于部署，为长上下文LLM的实际应用提供了高效、可靠的解决方案。

HuggingFace5天前原文

TriRoute：统一学习路由，联合自适应分配注意力、专家和KV缓存

新上线

大型语言模型（LLM）的推理成本一直是部署中的核心挑战。业界已探索多种条件计算技术来解耦模型质量与每token推理成本，但现有方法大多各自为政：混合专家（MoE）稀疏化前馈网络，混合深度（MoD）跳过整个Transformer块，KV缓存量化压缩注意力内存。然而，这些决策实际上高度耦合——一个需要全注意力的罕见token，很可能也需要高精度缓存，无论由哪个专家处理。近期一篇论文提出 **TriRoute**，一个轻量级统一控制器，为每个token的每一层联合输出三项决策：注意力模式（跳过/局部/全局）、稀疏专家集合（含空专家以恢复MoD功能）以及KV缓存位宽。该控制器通过异构松弛技术（Gumbel-Softmax结合直通估计处理分类决策，负载均衡top-k门控处理专家选择）进行端到端训练，并引入拉格朗日预算约束，将平均计算和内存成本转化为可控旋钮。研究团队发现，朴素联合训练会导致跨轴路由崩溃级联——某一轴的崩塌会传播至其他轴。为此，他们提出 **每轴归一化** 和 **耦合感知平衡损失** 加以解决。在160M至1.3B参数的解码器模型上，TriRoute在匹配推理FLOPs和内存的条件下，**帕累托优于** 独立MoD+MoE+KV量化组合的最佳效果，同时在罕见实体、代码和算术等尾部案例上展现出更强的鲁棒性。后验分析揭示了可解释的结构：控制器倾向于为句子起始位置、罕见子词和命名实体分配全注意力与高精度缓存，而对功能词则采用廉价路由。这一工作为LLM推理优化提供了新视角：**联合决策比孤立优化更有效**，有望推动更高效、更智能的模型部署方案。

HuggingFace6天前原文

校准虚拟筛选中的无声失败：边际共形预测对少数类覆盖不足，条件共形修复方案

新上线

共形预测（Conformal Prediction）正被引入药物发现领域，以提供模型可靠性的量化保证：设定错误率α，该方法返回的预测集以至少1-α的概率包含真实标签。然而，一项新研究揭示了这一保证在不平衡数据集上的潜在危险。来自Champions College Prep的研究团队在arXiv预印本（2607.06605）中指出，标准（边际）共形预测在四个真实药物发现数据集上实现了全局90%的覆盖率目标，但对少数类的覆盖严重不足。例如，在血脑屏障穿透数据集中，少数类覆盖率仅64.8%；而在临床试验毒性数据集中，这一数字骤降至4.2%，几乎完全忽略了罕见类别。这种失败并非特定模型所致：随机森林、图神经网络和冻结化学语言模型均复现了该现象（p<0.001），且严重程度与模型在罕见标签上的基线校准相关，而非架构差异。研究团队通过守恒恒等式解释了这一效应：少数类的覆盖缺口等于多数类的覆盖盈余乘以不平衡比率，该公式预测的差距与实际测量值误差在1个百分点以内，并能跨数据集排序严重程度。值得注意的是，这种失败在现实场景中极易被忽视：聚合准确率和总体覆盖率保持高位，但少数类却被系统性地遗漏。即便采用真实的骨架划分和第二种共形评分，问题依然存在。作为解决方案，研究团队提出采用类别条件（Mondrian）共形预测，该方法在每个数据集上均恢复了目标覆盖率，仅以预测集大小适度增加为代价。进一步分析将失败定位到通用分子骨架（如苯和吡啶核心），并提出了单数值诊断指标。通过成本模型模拟，研究者表明，对受影响化合物进行弃权（abstention）可将筛选活动从净负效用转为净正效用。该研究的核心贡献在于：用真实化学数据证明了已知的共形理论缺口在不平衡数据下变得多么严重且隐蔽，并为药物发现中的可靠虚拟筛选提供了实用修复方案。对于AI驱动的药物研发而言，这项工作敲响了警钟：仅仅追求全局指标可能会掩盖关键少数类别的性能崩溃，而类别条件共形预测或将成为标准实践的必要补充。

HuggingFace6天前原文

NEST：用“体制感知”混合专家模型攻克数据集级分布漂移

新上线

## 当时间序列预测遭遇“体制切换”：NEST 的解题思路在金融、气象、网络运维等复杂系统中，长期预测的准确性经常被**数据集级别的分布漂移**（dataset-level distribution shift）所困扰。这种漂移并非简单的局部时序变化，而是源于系统内部多种潜在行为模式（即“体制”）的切换与组合。例如，网络流量可能在工作日、节假日、攻击事件下呈现截然不同的特征；物理系统的动力学状态也会随外部条件发生结构性改变。现有方法大多聚焦于局部的时序偏移，例如通过自适应归一化或在线学习应对短期波动，却忽视了更根本的挑战：一个数据集本身可能就是多个不同“体制”的复合体。正因如此，当模型面对未曾见过的体制组合时，泛化能力急剧下降。针对这一痛点，来自北航等机构的团队在最新论文中提出了 **NEST（Regime-Oriented Mixture-of-Experts）** 框架。其核心思想是：**先识别出数据中的不同“体制”，再让专门的专家模块学习每个体制的独特动态，最后通过路由机制将专家输出重组为全局预测。** ### 两阶段 MoE 架构：先分后合 NEST 采用了一种**两阶段密集混合专家（dense MoE）** 架构。第一阶段是**结构专业化**：通过无监督聚类，在精心设计的**矩-熵空间**（moment-entropy space）中将数据集划分为若干不同的运行体制。这个空间能够捕捉时间序列的高阶统计特征与信息复杂度，比直接在原始时序上聚类更具区分力。第二阶段是**专家路由与调制**。NEST 引入了一个**体制导向路由器**：它首先根据输入序列的时序内容生成初始专家权重，再通过**几何调制**（geometric modulation）将这些权重向体制质心（regime centroids）靠拢。这样一来，路由器不仅能感知当前输入属于哪个体制，还能利用体制质心作为先验知识，增强路由的鲁棒性。值得注意的是，NEST 中的每个专家并非一个黑盒预测器，而是充当**专用核函数**：它们通过演化出独特的变量注意力模式（variate-attention patterns），来捕捉对应体制下的变量间依赖关系。例如，在网络流量中，一个专家可能专门学习“突发流量”下的端口关联，而另一个专家则学习“平稳期”的周期性模式。 ### 实验表现与行业意义论文在异构网络流量、物理现象等多个基准上进行了评估，结果显示 NEST 持续取得**最先进（SOTA）** 的性能。特别是在长期预测任务中，其对体制切换的显式建模带来了显著的提升。这项工作的意义不仅在于一个更优的预测模型，更在于它为处理“数据集级分布漂移”提供了一种全新的视角。在 AI 落地过程中，真实世界的数据往往由多个隐含状态混合而成——比如自动驾驶中的不同路况、工业传感器中的不同工况。NEST 的“先识别体制、再分而治之”的思路，有望成为这类问题的一个通用范式。目前，NEST 的代码和数据集已开源，感兴趣的读者可以前往 arXiv 获取更多细节。

HuggingFace6天前原文

D2PO：用动态偏好优化扩散采样器，让低步数生成也能保留高清细节

新上线

扩散模型在图像生成领域已大放异彩，但一个长期存在的痛点始终困扰着研究者与实践者：**如何在减少采样步数（low-NFE）的同时，保留高频纹理细节？** 传统的“学生-教师”回归框架试图让低步数学生采样器模仿高步数教师，结果往往是保留了全局结构，却丢失了细腻纹理，生成结果“看起来像，但经不起细看”。来自韩国首尔大学的研究团队在 ECCV 2026 论文中提出了 **D2PO（Dynamic Direct Preference Optimization）**，将采样器优化问题重新定义为偏好对齐问题，而非简单的模仿学习。核心思路是：**与其让学生“复制”教师，不如让学生学会判断“哪种采样结果更好”。** ### 从模仿到偏好：D2PO 的三大创新 1. **能量基模型（EBM）视角**：D2PO 将扩散采样策略建模为一种能量基模型，使得偏好比较可以转化为可计算的能量差异。这意味着模型不再需要显式的“正确答案”，而是通过对比不同采样结果的能量高低来学习。 2. **源自预训练分数网络的能量函数**：研究团队从预训练扩散模型的分数网络中直接推导出新的能量公式，从而在扰动空间中同时评估结构一致性与细粒度细节。这使得偏好评估更贴近人类感知。 3. **动态偏好机制**：这是 D2PO 的精髓所在。传统方法依赖固定的教师模型，而 D2PO 中的“偏好样本”会随着采样策略的改进而动态更新。这种自我改进机制让模型在迭代中不断获得更强的对齐信号，而非被静态教师限制上限。 ### 实验验证：低步数下全面超越论文在多个数据集和采样器配置下进行了实验，结果显示： - 在 **NFE=4** 等极低步数设定下，D2PO 生成的图像在感知质量指标（如 FID、CLIP score）上显著优于传统回归方法。 - 尤其在高频纹理保留方面，D2PO 能够恢复出更锐利的边缘和更自然的细节，而传统方法则容易产生模糊或伪影。 - 动态偏好机制带来的增益是持续的——随着训练进行，偏好样本质量提升，模型性能也同步增长，没有出现饱和或退化。 ### 行业意义：让扩散模型更“实用” 对于 AI 生成内容（AIGC）的落地应用而言，低步数采样意味着更快的推理速度和更低的计算成本。D2PO 提出的偏好对齐思路，打破了“低步数 = 低质量”的固有印象。未来，动态偏好机制或许还能推广到其他生成模型的蒸馏与优化中，成为提升效率与质量平衡的通用范式。当然，D2PO 目前仍依赖于预训练分数网络，且动态偏好的稳定性需要更多理论分析。但无论如何，这项研究为扩散模型采样器的优化开辟了一条新路：**与其模仿，不如学会偏好。**

HuggingFace6天前原文

深度强化学习破解投资组合优化难题：多目标可靠性框架MORP-DRL

新上线

金融投资组合优化本质上是一个多目标决策问题，需要在收益、风险、市场动态和实际约束之间寻求平衡。传统基于可靠性的方法多依赖静态优化框架，难以捕捉序列决策、尾部风险以及交易成本等市场摩擦。针对这一局限，一篇发表于arXiv的最新论文提出了**MORP-DRL**——一种基于深度强化学习的多目标可靠性投资组合优化框架。 ## 核心创新：三管齐下的风险度量 MORP-DRL同时优化期望收益和下行风险，并引入三种互补的风险指标： - **方差**：度量整体波动性 - **条件风险价值（CVaR）**：关注极端损失的平均水平 - **熵风险价值（EVaR）**：基于尾部概率的熵度量，对厚尾分布更敏感这种设计使模型能够更全面地评估风险，尤其是在市场剧烈波动时。 ## 建模与算法：应对市场复杂性为了刻画市场的不确定性和厚尾行为，资产收益采用**GARCH(1,1)**、**极值理论**以及**t-copula**依赖结构进行建模，并通过拟蒙特卡洛模拟生成逼真的市场情景。算法层面，研究团队选用**近端策略优化（PPO）**作为强化学习基础，同时纳入了交易成本和投资组合权重上下限等实际约束，并与经典多目标进化算法**NSGA-II**进行对比。 ## 实验验证：穿越市场周期实验覆盖了全球十个股票指数，时间跨度包含**疫情前、疫情期间和疫情后**三种市场状态。结果显示，MORP-DRL在风险-收益表现上具有竞争力，在市场压力时期能有效降低下行风险，并且具备扩展到高维投资组合的能力。 ## 行业视角：强化学习赋能量化投资这项研究代表了AI在金融领域的一个前沿方向。相比传统静态优化，深度强化学习天然适合处理序列决策问题——投资组合再平衡本质上就是一个持续决策过程。结合可靠性理论（如CVaR和EVaR），模型能够更稳健地应对极端事件。尽管目前仍处于学术探索阶段，但MORP-DRL为量化投资提供了一条兼顾收益、风险与交易成本的新路径。未来，随着计算效率提升和更丰富的市场数据接入，此类方法有望在实盘交易中发挥更大价值。

HuggingFace6天前原文

Inertia-1：可穿戴运动基础模型的开源探索

新上线

## 当运动数据遇上大模型：Inertia-1 开启可穿戴AI新篇章可穿戴设备（如智能手表、健身手环）每天都在产生海量的运动数据，这些数据能否像文本、图像一样，训练出通用的“基础模型”？来自加州大学洛杉矶分校等机构的研究团队近期发布了 **Inertia-1**，一项针对可穿戴运动传感数据基础模型的系统性开源探索。 ### 数据规模：1800万小时的加速度计数据研究团队构建了包含 **超过1820万小时** 的全球来源加速度计数据语料库。这相当于一个人连续佩戴设备超过2000年才能产生的数据量。如此庞大的规模，为研究预训练和缩放规律提供了坚实基础。 ### 系统化研究框架不同于以往仅聚焦单一设计选择（如传感器位置或采样频率）的工作，Inertia-1 构建了一个 **全生命周期控制框架**，涵盖三大维度： - **数据选择**：传感器模态、设备佩戴位置、采样率、窗口长度等。 - **模型选择**：不同架构（如Transformer、CNN）和模型尺寸。 - **训练选择**：预训练目标、数据规模等。 ### 跨任务评估：从活动识别到疾病预测研究在 **15个数据集** 上进行了广泛评估，覆盖三类典型下游任务： - **人体活动识别**：如走路、跑步、上下楼等。 - **步态冻结检测**：用于帕金森病患者的运动障碍监测。 - **疾病预测**：通过运动模式推断健康状况。结果揭示了构建泛化性运动基础模型的关键因素，例如： > 使用多位置数据预训练能显著提升模型在不同佩戴场景下的表现； > 更大模型尺寸在足够数据支持下持续带来收益，但存在边际递减。 ### 开源“菜谱”：加速可穿戴AI落地 Inertia-1 不仅提供了 **当前最优的配方**（state-of-the-art recipes），更被设计为一本 **实用、开放的可穿戴运动表征学习指南**（cookbook）。所有代码、模型和实验配置均开源，旨在降低该领域的研究门槛。 ### 意义与展望可穿戴运动传感数据具有连续、低成本、高生态效度等优势，非常适合作为基础模型的训练原料。Inertia-1 的工作填补了该领域系统性研究的空白，为后续研究提供了： - 可复现的基线 - 数据与模型缩放的经验规律 - 跨任务迁移的可行路径未来，随着更多传感器（如心率、皮肤电活动）的融合，可穿戴基础模型有望在 **个性化健康管理、老年照护、运动科学** 等领域发挥更大作用。 --- > 论文链接：arXiv:2607.06617

HuggingFace6天前原文

STAGformer：面向微出行需求预测的时空智能体图Transformer

新上线

## 高效建模新突破：STAGformer 如何用线性复杂度解决共享单车需求预测难题？共享单车系统的运营效率高度依赖于精准的站点级需求预测。然而，城市网络规模庞大，时空依赖关系复杂，传统模型往往难以兼顾精度与计算效率。近日，一篇发表于 arXiv 的论文提出了 **STAGformer（Spatio-Temporal Agent Graph Transformer）**，通过创新的**智能体注意力机制**，将标准自注意力的二次复杂度降至 **O(NT)** 线性级别，为大规模时空预测开辟了新路径。 ### 核心创新：两步式智能体注意力 STAGformer 的核心在于其**两步式智能体注意力机制**。模型引入少量可学习的**空间智能体令牌**和**时间智能体令牌**，首先由这些智能体从所有站点和时间步中聚合全局信息，再将其广播回各个站点和时间步。这一设计有效捕捉了长距离交互，同时避免了标准 Transformer 中随节点数平方增长的计算开销。 ### 四大模块协同工作 STAGformer 由四个核心模块构成： - **时空编码器**：融合动态节点特征与外部上下文因素（如天气、时间、兴趣点）； - **图传播模块**：用于空间邻居聚合，捕捉局部空间相关性； - **时间卷积模块**：提取局部时间模式； - **智能体注意力模块**：负责全局依赖建模，是模型性能的关键。 ### 实验表现：全面超越基线研究团队在 **纽约 Citi-Bike** 和 **芝加哥 Divvy-Bike** 两个真实数据集上进行了广泛实验。结果显示，STAGformer 在多个预测时长（如 15 分钟、30 分钟、1 小时等）上，均以显著优势超越了当前最先进的基线模型，在 **RMSE** 和 **MAE** 两项指标上均取得最优。消融研究进一步验证了每个组件的贡献，其中智能体注意力机制被证实是捕捉全局时空依赖的关键。 ### 行业意义与展望随着城市微出行（如共享单车、电动滑板车）的普及，精准的需求预测对车辆调度、站点管理及用户体验优化至关重要。STAGformer 提供了一种**兼顾效率与精度**的解决方案，其线性复杂度使其具备部署于大规模城市网络的潜力。未来，该框架有望推广至其他时空预测任务，如交通流量预测、人群密度估计等，推动智能交通系统向更高效、更智能的方向发展。

HuggingFace6天前原文

生成位置决定成败：FedEAS 提出预算感知合成增强，高效解决联邦学习标签倾斜

新上线

联邦学习（FL）中，标签分布倾斜（label skew）是导致客户端漂移（client drift）和全局模型准确率下降的顽疾。合成数据增强是一种有效的缓解手段，但若追求完全的类平衡，其计算成本往往高得难以承受。来自韩国研究团队的最新论文提出 **FedEAS**（Federated Entropy-Adaptive Synthesis），巧用“预算”思维，在近乎不增加额外开销的前提下，显著提升了模型性能。 ## 核心问题：合成数据该“给谁用”和“用多少”？传统方法要么对所有客户端一视同仁地分配生成预算（Uniform allocation），要么不顾成本地追求全局类平衡。前者无视了不同客户端本地分布差异，后者则因高昂的计算代价而不具备实际部署可行性。FedEAS 的切入点非常直接：**预算必须根据每个客户端的本地标签分布动态调整**，并且要同时回答两个问题——生成多少（how much）以及生成的样本送往哪里（where）。 ## FedEAS 机制：熵自适应预算与生成位置决策 FedEAS 的核心是一个 **熵自适应（entropy-adaptive）的每类生成预算** 计算策略。具体来说，系统根据每个客户端本地标签分布的熵值，为每个类别分配一个生成预算。分布越不平衡（熵越低），该客户端获得的生成预算就越高，从而有针对性地补足稀缺类别。同时，生成的合成样本并非“自产自销”，而是根据全局需求被分配到最需要它们的客户端（或保留在本地）。这种“生成+分发”的双重决策机制，使得总生成预算不再是一个预先设定的固定值，而是由所有客户端的预算之和自然确定。 ## 实验结果：94.1% 的预算削减与 18.82% 的性能提升在 CIFAR-10 和 CIFAR-100 数据集上的实验表明，FedEAS 能够恢复完全类平衡带来的绝大部分准确率增益，同时将生成预算削减了 **94.1%**。换言之，它用不到 6% 的计算成本，就实现了接近最优的效果。与统一预算分配相比，在相同总预算下，FedEAS 的性能提升最高达 **18.82%**。这一结果充分说明了“把钱花在刀刃上”的重要性——不是生成更多的数据，而是生成对的地方、对的数量。 ## 行业启示：效率优先的联邦增强新范式 FedEAS 的提出，为联邦学习中数据增强的实用化提供了新思路。在现实场景中，客户端（如手机、医院）的计算和存储资源往往有限，不可能承担大规模合成数据生成。FedEAS 的预算感知机制，使得资源可以精准投放到最需要的数据类别上，尤其适用于医疗影像、金融风控等标签分布天然倾斜的领域。未来，结合更先进的生成模型（如扩散模型），这一框架有望进一步降低合成成本，推动联邦学习走向更广泛的落地应用。

HuggingFace6天前原文