AI 资讯

每日聚合最新人工智能动态

121

大模型演进成工业级生态：持续学习的生命周期视角

新上线

近日，一篇发表在 arXiv 上的综述论文《LLM Evolution as an Industry-Scale Ecosystem: A Lifecycle Perspective on Continual Learning》提出了一个全新的视角：将工业级大语言模型（LLM）的持续学习视为一个**闭环的更新与发布问题**，而非传统研究中关注的静态基准改进。 ## 从静态基准到工业生态当前大多数持续学习研究聚焦于在固定数据集上提升模型性能，但这与工业部署的实际情况严重脱节。在真实场景中，LLM 需要不断更新以适应变化的需求和环境，而不是每次从头重新训练。论文作者将工业持续学习（ICL）重新定义为版本化生态系统中的闭环问题——更新会分层传播到工业模型、特定应用模型以及基于 LLM 的应用中，能力在不同版本和模型家族间继承与迁移。 ## 三大核心挑战从生态视角出发，论文识别出三个关键挑战： - **重复适应导致可塑性下降**：模型在多次更新后可能丧失学习新能力的能力； - **基础模型升级破坏能力继承**：当底层基座模型更新时，上层应用模型的能力可能无法平滑迁移； - **长期可持续性受部署约束**：算力、延迟、合规等实际限制使得持续迭代难以持续。 ## 五大生命周期设计原则为应对这些挑战，论文围绕五个设计原则组织技术图谱： 1. **保留可塑性余量**：在训练中为未来学习预留空间； 2. **将升级视为能力迁移**：而非简单替换； 3. **实现可信的持续强化学习**：确保更新过程安全可控； 4. **让训练策略自我优化**：自动调整超参数与数据配比； 5. **将问责制作为迭代基座**：建立可追溯的版本管理与审计机制。 ## 现状与未来路径论文通过证据驱动的方式评估了每个原则的技术成熟度，指出当前研究在**可塑性保持**和**能力迁移**方面已有一定进展，但在**可信强化学习**和**自我优化训练策略**上仍存在明显缺口。作者还提出了一份实用的 ICL 部署蓝图，并呼吁学术界更多关注工业实际反馈，形成双向驱动的良性循环。这项研究为 LLM 的持续演进提供了系统化的理论框架，对希望在生产环境中长期维护和迭代大模型的企业具有重要参考价值。

HuggingFace22天前原文

122

受大语言模型启发：监督式强化学习框架赋能分布式能源协调

新上线

随着分布式能源（DER）在电力系统脱碳中扮演越来越重要的角色，如何有效协调这些资源成为关键挑战。DER 固有的不确定性和建模复杂性，使得传统优化方法力不从心。强化学习（RL）虽被视为有前景的替代方案，但标准 RL 方法存在样本效率低、从零训练效果欠佳等痛点。受大语言模型训练范式的启发，研究人员提出了一种**监督式强化学习（SRL）框架**，用于学习 DER 协调策略。该框架首先在演示数据上以监督学习方式预训练策略，然后使用 RL 进行微调。具体而言，微调分为两步：**离线微调**以提升策略性能，**在线微调**以使其适应真实世界动态。实验表明，基于该框架的 RL 实现显著优于所有基线，即使在低质量演示数据下也能实现高成本效益。该研究为 DER 管理提供了全新思路，有望推动可再生能源的高效整合。

HuggingFace22天前原文

123

二元小样本分类的谱相图：内在维度、几何饱和与表征诊断

新上线

机器学习中一个基本但缺乏理论指导的问题是：何时停止收集标注样本？一篇来自 arXiv 的新论文提出了 **饱和指数 $S(K)$**，用于衡量小样本分类中模型性能是否已趋于稳定，为标注决策提供了理论依据。 ### 核心概念：饱和指数饱和指数定义为 $S(K) = \operatorname{erank}(\widehat{\Sigma}_W^{(K)}) / K$，其中 $\operatorname{erank}$ 表示有效秩，$\widehat{\Sigma}_W^{(K)}$ 是 $K$ 个样本的池化类内协方差矩阵。论文证明，当 $S(K)$ 低于某个阈值时，协方差估计量已很好地逼近总体协方差，线性判别函数趋于稳定。该指数仅需支持特征即可在 $O(d^3)$ 时间内计算，无需测试标签或训练好的分类器。 ### 实验验证研究者在 **17 个二元任务、6 个数据集** 上进行了评估，共 246 次加倍对观测。结果显示： - **16/17 个任务** 中，$S(K)$ 与边际准确率增益呈正 Spearman 相关（中位数 $\rho = 0.811$）。 - 总体 Spearman 相关系数为 $\rho = 0.548$（$p = 1.1 \times 10^{-20}$）。基于 $S(K)$ 值，论文定义了 **三阶段相图**： - **探索阶段**：边际增益平均 $3.48\%$ - **过渡阶段**：边际增益平均 $2.40\%$ - **饱和阶段**：边际增益平均 $0.82\%$ 所有两两显著性检验均支持该划分（$p \leq 0.008$）。 ### 应用价值作为二元停止规则，饱和指数的 AUC 达到 **0.752**，可为标注决策提供有意义的概率指导。此外，论文发现任务间渐近有效秩与峰值准确率无显著单调关系（Spearman $r_s = 0.380$, $p = 0.133$），而 **低饱和指数搭配低准确率** 可诊断表征能力不足。 ### 局限与展望当前结果仅适用于固定线性分类器的二元分类。作者讨论了向 **N 路分类** 和 **预训练骨干表征** 的扩展作为未来工作。这项工作为小样本学习中的样本效率问题提供了理论工具，有望降低标注成本。

HuggingFace22天前原文

124

守恒定律能否在表征学习中幸存？潜在世界模型的可信视界

新上线

物理世界模型中的守恒定律，在神经网络学会潜表征之后还能被信任吗？一篇来自 arXiv 的新论文（arXiv:2606.24945）给出了一个量化的回答：**可信视界**——即在可测量的模型缺陷下，模型 rollout 仍能保证停留在物理不变量水平集上的步数上限。 ### 核心创新：解码物理不变量论文的关键设计在于，作者不直接认证一个“潜哈密顿量”或“潜标量见证者”，而是认证**解码后的物理不变量**：将潜状态解码回物理空间，再评估已知的守恒量。这一选择避免了“潜空间自己守恒但真实能量漂移”的陷阱。围绕这个对象，作者推导出**壳层-视界证书**，其预算分解为三部分缺陷： - 表征缺陷（representation defect） - 读出缺陷（readout defect） - 潜动力学缺陷（latent-dynamics defect）通过一个**单调对齐桥**，软的已学习见证者可以为解码不变量提供可信视界。 ### 实验发现：几何先验并非都有效论文在保守系统中测试了三种观测类型：状态观测、学习提升观测和像素观测。实验结果揭示了几个关键结论： - **硬规范辛结构**在已知相坐标下提供最长的视界，但无法跨越已学习图表； - **受控 Lipschitz 对齐的软不变量**则在已学习表征设置中幸存； - 像素级认证仅在读出稳定的子管道上恢复； - **开普勒问题**暴露了几何边界。 ### 行业启示这项工作为 AI 物理建模提供了重要视角：**中心对象不是潜哈密顿量，而是解码物理不变量**。在机器人、自动驾驶等依赖世界模型 rollouts 的领域，该框架允许从业者在部署前测量模型对物理定律的保真度，并提前知道模型在多少步内是“物理可信”的。论文还指出，不同几何先验的鲁棒性差异显著，这为未来设计更可靠的表征学习算法指明了方向：与其追求完美的潜守恒，不如直接认证解码后的物理量，并量化其不确定性。

HuggingFace22天前原文

125

等变世界模型中的共形轨道有效信任视界

新上线

## 研究背景与核心问题学习型世界模型在机器人、自动驾驶等领域的规划与控制中扮演着越来越重要的角色。然而，这类模型的有效性高度依赖于其**展开误差**（rollout error）在时间视界内是否可控。一旦模型预测偏离真实状态，后续决策就可能失效。因此，如何为世界模型划定一个可靠的“信任视界”（trust horizon），即模型预测误差保持在可接受范围内的最长步数，成为一个关键问题。 ## 方法：共形校准与等变性结合这篇论文提出了一种基于**共形预测**（conformal prediction）的信任视界认证方法，特别针对具有已知群对称性的**潜在世界模型**（latent world models）。作者首先利用单步潜在残差和有限时间展开估计构建原始视界曲线，然后通过**分割共形乘法因子**（split-conformal multiplicative factor）进行校准。在可复现的审计集上，共形因子 γα=1.0，表明原始认证在审计协议下已经足够保守。在50次稳定审计中，未观察到任何反保守违规（anti-conservative violation），对应的精确二项式95%上限违规率为5.8%。 ## 核心理论贡献：轨道不变性论文的主要结构成果是：**精确等变性**（exact equivariance）可以将校准后的信任视界曲线沿群轨道进行迁移。当环境动力学、编码器、预测器、动作变换和潜在度量满足指定的等变/不变条件时，展开误差和信任视界在整个轨道上是常数。这意味着，只需在一个场景（如一个特定朝向）下进行校准，模型在该对称群作用下的所有其他场景（如旋转后的视角）都能自动获得有效的信任视界。实验表明，实现的模型具有较小的轨道迁移残差，在14次轨道审计中中位数为1.1%，最大值为4.1%。认证也非空（中位认证-测量视界比为0.67）。 ## 实验验证与两种模式论文通过两个实验展示了不同场景下的行为： 1. **对称2D基底**：等变模型、普通模型和增强模型都能从单个校准扇区获得轨道有效认证——没有分离，因为基底本身使非等变基线也近似具有轨道鲁棒性。 2. **3D偏航审计**：出现了另一种模式。等变模型通过一个扇区即可获得安全且非空的轨道有效认证，而健康的非等变基线则需要付出违规、松弛、尖锐化或额外扇区成本。 ## 局限与未来方向作者指出，该认证是**保守的分布审计**（distributional audit），而非全局可达性保证。此外，在当前3D CEM-MPC行为层中，认证引导的子目标间距尚未得到确认，这为后续工作留下了空间。 ## 总结与启示这项研究为世界模型的可信部署提供了理论支撑和实用工具。通过将共形预测与等变性结合，不仅提升了认证效率（只需一个扇区校准即可覆盖整个轨道），还显著降低了计算成本。对于那些依赖对称性（如旋转、平移）的机器人任务，该方法有望成为模型验证的标准组件。

HuggingFace22天前原文

126

密集监督不够：循环语言模型中的读出盲点

新上线

## 研究背景：循环语言模型的监督困境循环语言模型（Looped Language Models）通过将隐藏状态解码为预测并反馈到后续计算中，实现了运行时状态管理。然而，这种设计引发了一个基础问题：交叉熵损失究竟控制了哪些状态变量？近期一篇来自 arXiv 的论文（编号 2606.24898）揭示了**密集监督的局限性**——逐循环的交叉熵损失只能控制读出层暴露的变量，而非循环转换中活跃的所有变量。 ## 核心发现：隐藏状态规模的失控研究团队在 44M 和 129M 参数的循环 Transformer 模型中发现，当使用 RMSNorm 或 LayerNorm 等**尺度不变读出机制**时，隐藏状态的范数会急剧膨胀至数千甚至数万。这是因为这些归一化操作隐藏了径向尺度信息，使得交叉熵损失无法直接感知和控制状态规模。而预归一化残差循环却持续携带并更新这一尺度，导致模型在训练过程中逐渐失控。 ## 解决方案：让尺度可见或消除循环论文提出了两种互补的修复策略： 1. **尺度可见的读出**：使用不隐藏尺度的读出机制，让损失函数直接作用于状态范数。 2. **显式范数惩罚**：在损失中添加对隐藏状态范数的约束项。实验表明，这些方法能将状态范数稳定在十位数级别。此外，**尺度消除的循环**（如采用归一化后的残差连接）也是一种有效的架构修复。 ## 设计规则与性能提升研究总结出一条简洁的设计规则：**密集监督训练出口，循环尺度控制需要让尺度对损失可见或从循环中移除**。遵循这一规则的尺度控制变体，在可变深度基准测试中，于匹配推理深度的工作点上取得了更低的困惑度（perplexity）。 ## 行业意义这项工作对当前流行的**早期退出**（early exit）和**循环计算**（recurrent computation）范式具有重要指导意义。它提醒研究者：简单的逐层交叉熵监督可能隐藏着状态失控的风险，而尺度控制是确保模型稳定性和性能的关键。未来，在设计和优化循环语言模型时，需要同时关注输出质量和内部状态的健康度。

HuggingFace22天前原文

127

设备端神经架构搜索：让AI芯片学会“自我设计”

新上线

## 核心突破：在传感器旁完成模型定制近日，一篇发表于arXiv的论文提出了一种全新的**设备端神经架构搜索（On-Device NAS）**方法，将模型设计过程从云端下沉到部署设备本身。这项技术允许轻量级NAS算法直接在传感器所在的嵌入式系统上运行，根据实时采集的数据自动寻找最优的小型神经网络结构。 ## 为什么需要“自己设计”的模型？传统做法中，神经网络架构通常由开发者在服务器上预先设计并训练，再部署到边缘设备。但这种方式在面对**个体差异显著**的应用场景（如生物信号分析）时存在短板——不同用户的手势肌电信号、心率特征往往大相径庭，预训练模型难以泛化。论文提出的方法允许设备在用户更换后，通过一次引导式数据采集，**重新搜索并定制**最适合当前用户的网络结构，从而在边缘端实现真正的个性化适应。 ## 性能验证：更小、更准、更省内存团队以**意大利手语（ISL）数据集**（包含意大利字母手势的表面肌电信号）和**凯斯西储大学（CWRU）轴承故障诊断数据集**作为验证基准，在Raspberry Pi 4等嵌入式平台上测试。结果显示： - **ISL任务**：设备端NAS搜索出的网络相比现有最优方案，**RAM占用减少37%**，同时**准确率提升5.96个百分点**。 - **CWRU任务**：RAM占用降低56%，准确率仍高出0.2个百分点。这种“又小又准”的特性，对于资源受限的可穿戴设备、工业传感器节点等场景意义重大。 ## 技术实现：轻量级NAS如何“上机”？论文设计了一套专为设备端优化的NAS流程，核心思路是简化搜索空间并采用**权重共享**等高效策略，使得搜索过程在计算能力有限的MCU或Linux单板计算机上可完成。搜索结束后，设备直接部署找到的架构，无需与云端交互。 ## 应用前景与行业意义这项研究将**个性化边缘AI**推进一步。在**人机交互**领域，智能假肢、手势控制设备可根据用户生理信号实时调整模型；在**工业预测性维护**中，不同工况下的振动信号也能驱动设备自优化。不过，论文未讨论搜索过程的能耗和延迟对实时性的影响，实际落地还需进一步验证。总体而言，On-Device NAS为边缘AI的“自适应”能力提供了新范式，未来或将成为智能传感器的一项标配功能。

HuggingFace22天前原文

128

从模糊直觉到严谨定理：人类与AI如何共同发现量子算法新框架

新上线

在AI辅助数学研究的讨论中，人们往往关注AI如何快速求解已知问题。但一项最新研究指出，AI在更早期的“问题形成阶段”可能发挥更关键的作用——当一个模糊的研究直觉被转化为具体问题、可行路径和值得证明的定理族时，AI的探索能力能显著加速这一过程。这项发表于 arXiv 的研究以 **符号嵌入量子算法（sign-embedding quantum algorithms）** 的发现为案例，详细展示了人类与AI“共同发现”的工作流程。该算法针对矩阵方程和矩阵函数，是量子线性代数与算子输出量子算法的基础原语。项目的起点是人类研究者提出的一个直觉：**有理逼近对符号函数这类跳跃型函数特别有效**，因此可能成为设计量子算法的通用原则。然而，从这一直觉到最终成型的算法框架并非一蹴而就。研究团队借助AI辅助探索工具（包括后来集成到 **AIM** 智能数学系统中的工作流），将初始直觉逐步扩展为一张完整的路线图。AI帮助比较了多种候选方案，最终引导团队聚焦于“符号嵌入”这一核心框架。随后，AIM系统进一步协助将已知的矩阵符号恒等式推广到更广泛的矩阵方程和矩阵函数类别，并草拟了证明与复杂度计算。但研究强调，**决定性的科学判断始终由人类掌握**。例如，团队曾在探索中遇到一种“Cayley-梯形逼近”方案，AI给出了看似合理的推导，但人类研究者发现其有效性依赖于一个隐藏条件，最终将其否决。在实现Sylvester方程求解时，人类研究者将AI最初给出的粗略“二次间隙查询”路径，逐步优化为最终的分解与缩放分析。这项研究的意义在于重新定义了AI在数学发现中的角色。**AI不是独立的问题解决者，而是研究伙伴**——它擅长问题形成、连接发现、推导草拟和怀疑性审查，但最终决策仍需嵌入人类的判断回路。这种“人类把关的协作循环”可能成为未来AI辅助科研的主流范式。对于AI行业而言，这一案例也提供了重要启示：当前大模型在数学推理上的评测多聚焦于标准题库的准确率，但真正推动前沿进展的能力可能体现在更开放的探索场景中。如何设计能够参与“问题形成”阶段的AI系统，将是下一阶段的重要课题。

HuggingFace22天前原文

129

A Survey on Federated Causal Discovery and Inference

新上线

arXiv:2606.23741v1 Announce Type: new Abstract: Causal reasoning, which encompasses the discovery of causal structures and the inference of causal effects, is fundamental to data-driven decision making. In practice, data for reliable causal analysis are often distributed across institutions and cannot be centralized due to privacy regulations or communication constraints. Federated learning (FL) addresses this by enabling collaborative analysis without raw data sharing, giving rise to the rapidl

HuggingFace23天前原文

130

Deciphering Fingerprints of 3D Molecular Surfaces for Accurate Epitope Prediction

新上线

arXiv:2606.23830v1 Announce Type: new Abstract: Molecular surfaces encode the geometric and physicochemical patterns that determine antibody-antigen recognition, central to epitope prediction. However, existing methods rely on sequences or backbone structures and struggle to capture discontinuous, surface-driven epitopes. This study presents SurfBind, a surface-centric learning framework for epitope prediction that operates directly on molecular surface representations. SurfBind integrates geome

HuggingFace23天前原文

131

One Ruler: A Same-Hands Re-Evaluation of Bivariate Causal Direction on Tuebingen, with a Parameter-Free Compression Baseline

新上线

arXiv:2606.23767v1 Announce Type: new Abstract: Headline accuracies on the Tuebingen cause-effect pairs are routinely compared across papers even though each is measured under its authors' own protocol -- different pair subsets, weightings, model-selection, and decision rates. We argue this is the wrong comparison and run the right one: a same-hands re-evaluation in which every method is run by us on the identical 102 pairs, with one strict rule -- no tuning and a decision forced on every pair.

HuggingFace23天前原文

132

Exploring Dualistic Meta-Learning to Enhance Domain Generalization in Open Set Scenarios

新上线

arXiv:2606.23758v1 Announce Type: new Abstract: Domain generalization learns from multiple source domains to generalize to unseen target domains. However, it often neglects the realistic case of label mismatch between source and target. Open set domain generalization is then proposed to recognize unseen classes in unseen domains. A simple approach trains one-vs-all classifiers to separate each class and detect outliers as unknown. Yet, the imbalance between few positive samples and many negative

HuggingFace23天前原文

133

Systematic Exploration of 4-Expert Heterogeneous Mixture-of-Experts via Automated Pipeline Search

新上线

arXiv:2606.23739v1 Announce Type: new Abstract: We present an automated large-scale search pipeline for heterogeneous 4-Expert Mixture-of-Experts (MoE4) architectures within the LEMUR neural network dataset ecosystem. Building on a hand-crafted heterogeneous MoE reference model, we replace manual design with a deterministic code-assembly generator that systematically combines base architecture families drawn from the LEMUR database into MoE4 ensembles, each governed by a convolutional gating net

HuggingFace23天前原文

134

Weight-Space Geometry of Offline Reasoning Training

新上线

arXiv:2606.23740v1 Announce Type: new Abstract: Offline reinforcement-learning losses (RFT, RIFT, DFT, Offline GRPO, DPO) are widely used to distill reasoning from large teachers into smaller students, and are typically compared on downstream accuracy alone. We ask whether they are mechanistically distinct or converge to a similar weight update. Training six methods (SFT, RFT, DFT, RIFT, Offline GRPO, DPO) on identical math rollouts from a single base model (Qwen3-4B) with attention-only LoRA, w

HuggingFace23天前原文

135

Low-power analogue neural networks with trainable nonlinear connections for continuous control

新上线

arXiv:2606.23742v1 Announce Type: new Abstract: Physical neural networks promise low-power machine learning by computing directly with analogue device physics, but most architectures force nonlinear device responses to act as scalar weights. Inspired by Kolmogorov-Arnold networks, we place trainable nonlinear functions on the connections, making each physical connection a learnable computational element. Realising these functions as analogue band-pass filters on field-programmable analogue array

HuggingFace23天前原文

136

Synergizing Physically Constrained MCMC and Chemical-Informed Gaussian Processes for Reaction Network Discovery

新上线

arXiv:2606.23757v1 Announce Type: new Abstract: Extracting interpretable governing equations from sparse, noisy chemical time-series data remains difficult because discrete reaction topology and continuous kinetic parameters are tightly coupled. We present PC-MCMC-CIGP, a reproducible gray-box workflow that combines spike-and-slab topology sampling, hard conservation and thermodynamic screening, and a Chemical-Informed Gaussian Process (CIGP) residual model for parameter calibration and experime

HuggingFace23天前原文

137

计算可识别性：突破因果推断中的理论与现实鸿沟

新上线

在因果推断领域，**可识别性**（identifiability）是核心概念——它回答一个关键问题：给定数据和因果图，我们能否唯一确定某个因果效应？传统理论通常假设无限样本、渐近性质等理想条件，但现实世界的数据往往有限、图结构不完整，甚至混杂着干预与观测数据。近日，来自纽约大学的 Lucius E.J. Bynum、Rajesh Ranganath 和 Kyunghyun Cho 在 arXiv 上发表了一篇题为《Computational Identifiability》的论文，提出了一种全新的框架——**计算可识别性**（computational identifiability），试图弥合理论与实际应用之间的鸿沟。 ### 从理论到计算：重新定义可识别性传统可识别性（或称“理论可识别性”）依赖于数学证明，在渐近条件下推导出目标效应的唯一表达式。但这一过程往往忽略了计算约束：有限样本、近似误差、算法选择等。论文作者指出，这种理想化条件在实际场景中难以满足，导致许多理论上可识别的模型在实证中却无法得到可靠估计。为此，他们提出了**计算可识别性**的新定义：给定一个有限计算搜索过程，如果该过程能够在期望误差容限内找到经验估计量，则认为该目标查询是可识别的。这一框架将可识别性从“理论存在性”问题转化为“计算可行性”问题，并明确依赖于搜索过程的假设（如参数先验分布）和算法本身。 ### 实验验证：细粒度识别问题的解答研究团队通过多项实验展示了计算可识别性的应用价值： - **小样本识别**：在仅有数十个样本的情况下，传统理论可识别性无法保证，但计算可识别性通过贝叶斯搜索仍能给出可靠估计。 - **模糊图标准则**：当因果图中存在未观测混淆变量或结构不确定性时，计算可识别性可基于数据驱动的方法评估识别可行性。 - **混合数据场景**：同时包含观测数据和干预数据时，理论识别条件可能复杂难解，而计算框架能自动适应数据组合。 - **反事实数据与估计量**：对于反事实推理这类更具挑战性的任务，计算可识别性提供了实用的验证手段。 ### 行业意义与未来方向这项工作的意义不仅在于理论创新，更在于为实践者提供了可操作的工具。在机器学习、流行病学、社会科学等领域，因果推断的应用常受限于数据质量和模型复杂性。**计算可识别性**框架允许研究者根据实际计算资源（如时间、精度要求）来判断识别是否可行，从而更灵活地设计实验和分析流程。作者还开源了相关代码（见论文链接），方便社区复现和扩展。未来，这一框架有望与自动因果发现、贝叶斯优化等技术结合，推动因果推断从理论证明走向大规模实证应用。 --- **一句话总结**：当理论可识别性遇上现实数据，计算可识别性提供了新的判断标准——不再依赖无限样本，而是通过有限搜索验证估计可行性。

HuggingFace28天前原文

138

何时信任，如何蒸馏：多基础模型指导下的轻量级鲁棒科学时间序列预测

新上线

**快讯：KDD 2026 接收论文提出 Guard 框架，解决科学时间序列预测中基础模型分布偏移与计算成本矛盾。** 时间序列基础模型在物理科学领域面临两难：它们虽编码了丰富的通用时间动态，但在零样本应用于特定科学领域时存在严重分布偏移，且计算成本过高，无法部署于边缘计算传感器网络。最新研究提出 **Guard**（门控不确定性感知路由蒸馏框架），将多教师蒸馏重塑为实例级决策过程，通过两大自适应机制提取知识： - **上下文路由器**：基于局部输入统计动态选择最相关的教师模型，利用不同基础模型的互补性。 - **不确定性门控温度**：充当断路器，当教师置信度与领域现实偏离时自动削弱蒸馏强度。该轻量级框架在气象学、生态系统碳通量、土壤湿度和能源网格四个气候关键领域进行了评估。相比固定权重的多教师蒸馏基线，Guard 显著降低了 **RMSE**。即使预训练基础模型因分布偏移在目标域上零样本精度不佳，Guard 仍能成功蒸馏知识，甚至在某些最困难实例（占 28.5%）上超越全局最优的基础模型。这为资源受限的边缘部署场景提供了高精度科学预测方案。代码已开源。

HuggingFace28天前原文

139

GPU架构下3D生成扩散模型的性能分析与优化

新上线

扩散模型已成为高保真3D MRI合成的重要工具，但其部署受限于巨大的GPU资源需求——每个样本需执行数百次U-Net评估，且内核行为高度异构。一篇最新arXiv论文对先进医学扩散模型Med-DDPM在三代NVIDIA架构上进行了全面性能分析，从内核级运行时分解、指令混合特征、内存系统利用率、线程束级活动及分析器优先级评分等维度展开研究。 ### 核心发现研究表明，训练过程主要由cuDNN卷积和隐式GEMM内核主导，效率低下源于内存访问模式、张量布局转换及Tensor Core利用率不足。基于此，作者评估了两种架构感知优化：**TF32 Tensor Core激活**和**3D channels-last布局**。实验结果显示，优化后SM周期减少高达100倍，动态指令削减100倍，Tensor Core利用率从1.45倍提升至9.98倍，A100上IPC提升7%，且合成质量无损。 ### 背景与挑战 3D MRI合成在医学影像领域价值巨大，但扩散模型的高计算成本限制了实际应用。Med-DDPM作为代表性模型，其U-Net架构在推理和训练时均需大量显存与算力。论文指出，不同GPU架构（如Volta、Ampere、Hopper）对模型性能影响显著，而现有优化多聚焦算法层面，缺乏系统性的硬件适配研究。 ### 优化策略详解 1. **TF32 Tensor Core**：利用Ampere及后续架构的TF32精度模式，在保持模型精度的同时加速矩阵运算，尤其适用于卷积和GEMM内核。 2. **3D channels-last布局**：将张量从默认的channels-first转换为channels-last，改善内存访问局部性，减少布局转换开销，从而提升缓存命中率和带宽利用率。 ### 实验结果在A100 GPU上，优化后的Med-DDPM训练速度提升显著：SM周期从基线值降至1%以下，动态指令数从数亿级降至百万级。Tensor Core利用率从1.45倍跃升至9.98倍，意味着硬件加速能力得到更充分释放。IPC（每周期指令数）提升7%，表明处理器流水线效率改善。所有优化均未影响生成MRI图像的质量，PSNR和SSIM指标保持稳定。 ### 行业意义这项工作为**医学影像生成模型的硬件适配**提供了系统方法论。随着3D扩散模型在临床诊断、手术规划等场景的渗透，其计算效率直接关系到落地可行性。论文揭示的优化方向——如张量布局调整和精度模式选择——不仅适用于Med-DDPM，也可推广至其他3D生成任务，如CT合成、多模态配准等。未来，随着GPU架构持续演进（如Blackwell的FP8/FP4支持），类似研究将帮助开发者提前适配硬件特性，实现“算法-硬件”协同设计。对于AI制药、数字病理等数据密集型领域，这类优化有望将训练时间从数周缩短至数天，加速科研转化。

HuggingFace28天前原文

140

信息格学习：概率图模型结构学习的新视角

新上线

近日，一篇来自 arXiv 的论文（编号 2606.19366）提出了一个有趣的理论框架：将**信息格学习（Information Lattice Learning, ILL）**重新诠释为概率图模型的结构学习过程。该研究由 Haizi Yu 和 Lav R. Varshney 共同完成，为理解 ILL 与经典概率模型之间的关系提供了新思路。 ## 核心思想 ILL 原本是一种通过学习可解释规则来理解信号的方法。它通过交替进行两个步骤：将信号投影到一个**分区格（partition lattice）**上（该格编码了抽象层次的层级结构），再将选中的规则提升回信号域。当信号为概率质量函数时，作者发现 ILL 学到的概率规则天然具有概率图模型解释。具体而言，ILL 中的一个分区会诱导出一个确定性的商变量，而一条规则就是该商变量的边际分布。一组规则因此构成了对可解释抽象的边际约束集合。**一般提升**是指满足这些约束的所有联合分布的可行族，而**特殊提升**则选择一个最大无知重建，在 ILL 中通过 L2 均匀性原理（与最大熵密切相关）实现。 ## 关键发现论文指出，若采用香农熵提升，相同的约束会生成一个**对数线性因子图**，其因子由学到的抽象索引。然而，信息格本身并非贝叶斯网络：它的边编码的是抽象的细化与粗化关系，而非条件依赖。因此，ILL 应被理解为针对商变量上的可解释约束因子图的结构学习。这一观点清晰地揭示了 ILL 与图模型和最大熵模型的关联，同时为推理、可识别性以及混合符号-概率学习指明了新方向。 ## 行业意义在 AI 领域，可解释性一直是个难题。ILL 通过将抽象层次与概率约束结合，提供了一种**结构化的可解释学习方法**。与传统的黑箱模型不同，ILL 学到的规则具有明确的语义，且与概率图模型的理论工具兼容。这意味着未来可能将 ILL 用于构建更透明、更可信的 AI 系统，尤其是在需要严格推理和不确定性量化的场景中。论文还暗示了 ILL 在信号处理、机器学习和人工智能中的潜在应用。由于因子图结构可以高效进行推理，ILL 或许能成为连接符号推理与概率学习的桥梁。

HuggingFace28天前原文