SheepNav

AI 资讯

每日聚合最新人工智能动态

来源:HuggingFace清除筛选 ×

在医疗数据分析领域,表格数据预测一直是临床决策支持的关键环节。传统机器学习模型通过特征工程往往能超越复杂的神经网络方法,但特征工程本身高度依赖领域专家知识,过程耗时且难以规模化。随着大语言模型(LLMs)的兴起,将医学知识融入特征工程成为可能,但现有方法大多停留在对预定义变换的广泛搜索上,忽略了**下游模型特性**和**特征重要性信号**的指导作用。 ## MedFeat:模型感知与可解释性驱动的特征工程框架 近日,一篇题为《MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction》的论文在arXiv上发布,提出了一个名为**MedFeat**的创新框架。该框架的核心在于**反馈驱动**和**模型感知**:它不仅利用LLMs结合领域知识进行推理,生成候选特征,还通过**SHAP值**提供特征解释,并追踪成功与失败的建议,以引导特征发现过程。 ### 为何需要模型感知? 传统的特征工程方法往往独立于最终使用的预测模型,导致生成的特征可能并非模型最需要或最能有效学习的信号。MedFeat通过**模型感知**机制,优先考虑那些因下游模型特性(如线性模型的线性假设、树模型的分裂偏好等)而难以直接学习的信息性信号。这意味着,MedFeat能够“理解”模型的学习瓶颈,并针对性地生成补充特征,从而提升整体预测性能。 ### 可解释性如何驱动特征发现? MedFeat利用SHAP(SHapley Additive exPlanations)值来评估特征的重要性,这不仅为生成的每个特征提供了解释,还形成了一个反馈循环:LLMs根据SHAP分析结果调整后续的特征生成策略,避免重复无效尝试,聚焦于高价值方向。这种**可解释性驱动的迭代**过程,使得特征工程更加高效和透明。 ## 实际应用与验证 研究团队在广泛的临床预测任务上测试了MedFeat,包括疾病诊断、住院时长预测、ICU患者风险分层等。结果显示,MedFeat在多个基线模型(如逻辑回归、随机森林、梯度提升机)上实现了**稳定的性能提升**。更重要的是,它发现的特征具有临床意义,例如从电子健康记录中衍生出新的生物标志物组合或时序模式。 ### 泛化能力与鲁棒性 MedFeat生成的临床特征在**分布偏移**下表现出良好的泛化能力:跨年份数据(如2019年与2020年患者队列)以及从ICU患者到普通住院患者的迁移中,性能保持稳健。这为真实世界部署提供了信心,因为医疗数据常面临人群异质性和时间演变挑战。 ## 对AI医疗领域的启示 MedFeat的出现标志着特征工程正从手工艺术向自动化、智能化演进。它巧妙地将LLMs的知识推理能力与机器学习模型的特性相结合,解决了传统方法的两大痛点:**知识整合不足**和**与模型脱节**。在医疗这类高风险的领域,可解释性不仅是监管要求,也是建立临床信任的关键。MedFeat通过SHAP驱动的透明化流程,为“黑箱”AI提供了可审计的路径。 未来,随着更多医疗数据集的开放和LLMs在专业领域的精调,类似MedFeat的框架有望加速临床预测模型的开发,降低对专家经验的依赖,同时提升模型的准确性和可靠性。研究团队表示,实验代码将在遵守数据集协议和机构政策后公开,促进社区验证与扩展。 **小结**:MedFeat通过模型感知和可解释性驱动,为大语言模型在医疗表格预测中的特征工程应用提供了新范式,兼顾了性能提升与临床可信度,是AI与医疗交叉领域的一次有意义的探索。

HuggingFace3个月前原文

**MedCalc-Bench** 作为评估大语言模型在临床计算任务上性能的常用基准,其有效性正受到挑战。一篇新论文通过系统审计发现,该基准存在超过20处从关键公式错误到运行时缺陷的问题,并指出其当前评估框架可能未能准确衡量模型的临床推理能力。 ## 基准审计:揭示隐藏的缺陷 论文作者对 MedCalc-Bench 的计算器实现进行了系统性审计,结果令人惊讶:在 NeurIPS 发表的该数据集中,发现了超过 **20 处错误**。这些错误范围广泛,包括: - **关键公式不准确**:直接影响计算结果的正确性。 - **运行时缺陷**:在代码执行过程中可能引发问题。 这些发现意味着,此前基于该基准的模型性能分数(例如,在 HELM MedHELM 排行榜上,最先进的直接提示方法在 Verified 分割上的准确率徘徊在 **35%** 左右)可能建立在有缺陷的基础之上。 ## 开放式提示:简单干预,效果显著 研究提出了一个简单的干预措施:在推理时为模型提供计算器规范,即采用 **“开放式提示”** 方法。实验结果显示,这一方法无需任何微调,就能大幅提升模型性能: - 在 **GLM-4.6V** 和 **GLM-4.7** 模型上,准确率从约 **52%** 跃升至 **81-85%**。 - 这一成绩甚至超过了所有已发表的结果,包括那些使用 **强化学习与可验证奖励** 训练的系统(此前最佳公开方法准确率为 **74%**)。 ## 性能上限与核心问题 研究还利用 **GPT-5.2-Thinking** 模型探索了该任务的理论性能上限,达到了 **95-97%**。剩余的误差主要归因于: 1. **基准真值问题**:数据集中标注的“标准答案”本身可能存在错误或不一致。 2. **数据集模糊性**:部分任务描述或数据可能存在歧义,影响模型判断。 ## 重新审视基准的价值 综合这些发现,论文的核心论点在于:**MedCalc-Bench 目前主要衡量的是模型对特定公式的记忆能力和算术精度,而非真正的临床推理能力**。 ### 这意味着什么? - **评估偏差**:如果一个模型仅仅因为记住了更多公式或算得更准而获得高分,这并不能证明它在复杂的、需要综合判断的真实临床场景中表现更好。 - **方向误导**:专注于在此类基准上刷分,可能让研究偏离提升模型实际临床理解与应用能力的目标。 ## 未来方向:从“闭卷考试”到“工具使用评估” 论文主张,应将 MedCalc-Bench 更好地定位为 **“工具使用评估”** 的基准。在现实世界中,医生也会查阅手册、使用计算器或咨询专业数据库。因此,评估模型能否**正确、有效地利用给定的工具规范(如计算器公式)来解决问题**,比评估它能否凭记忆复现这些计算更为关键,也更具实际意义。 **开放式评估**(允许模型在推理时访问必要知识)或许更能反映模型在辅助诊断、治疗方案计算等实际医疗场景中的潜在效用。 ## 小结 这项研究不仅暴露了一个广泛使用基准的技术缺陷,更引发了关于如何更有效地评估AI医疗能力的深层思考。它提醒业界: - **基准审计至关重要**:依赖的评测数据集需要持续验证与维护。 - **评估框架需与时俱进**:随着模型能力演进,评估方式也应从单纯的知识记忆测试,转向更贴近实际应用场景的能力考察。 - **“开卷”可能比“闭卷”更有意义**:在专业领域,获取并利用外部知识的能力,往往是智能的核心体现之一。 未来,如何设计能更好衡量临床推理、决策过程而不仅仅是计算结果的基准,将是AI医疗评估领域的一个重要课题。

HuggingFace3个月前原文

时间序列预测一直是机器学习领域的核心挑战之一,尤其是在处理复杂的周期性波动与长期趋势交织的数据时。传统方法往往将一维序列重塑为二维周期-相位表示,但这种方法存在两个根本性缺陷:一是将重塑后的张量视为静态图像会导致拓扑不匹配,标准空间算子会切断网格边界的时间连续性;二是依赖统一的固定大小表示会低效分配建模能力,无法为可压缩、非平稳的时间模式提供自适应分辨率。 ## 从回归到渲染的范式转变 为了突破这些限制,研究人员提出了 **TimeGS** 框架,这是一个将预测范式从回归转向2D生成渲染的创新方法。TimeGS的核心思想是将未来序列重新概念化为一个连续的潜在表面,利用高斯核的固有各向异性,通过灵活的几何对齐自适应地建模复杂变化。 这种“预测即渲染”的理念借鉴了计算机视觉中的高斯泼溅技术,将其应用于时间序列领域,实现了对时间连续性的严格保持和对非平稳模式的自适应捕捉。 ## TimeGS的核心技术组件 TimeGS框架包含两个关键模块: 1. **多基高斯核生成(MB-GKG)块**:该模块从固定字典中合成高斯核,以稳定优化过程。通过这种方式,模型能够更有效地学习时间序列中的复杂模式,避免过拟合和不稳定训练。 2. **多周期时间连续光栅化(MP-CCR)块**:这一模块强制实施跨周期边界的严格时间连续性,解决了传统方法中网格边界时间断裂的问题。这对于保持预测序列的连贯性和准确性至关重要。 ## 实际应用与性能表现 在标准基准数据集上的综合实验表明,TimeGS达到了最先进的性能水平。这一成果不仅为时间序列预测提供了新的技术路径,也为AI在金融、气象、能源等领域的实际应用带来了更强大的工具。 ## 行业意义与未来展望 TimeGS的出现标志着时间序列预测领域的一次重要创新。它将计算机视觉的先进技术引入时间序列分析,打破了传统方法的局限性,为处理复杂、非平稳的时间数据提供了更灵活、更高效的解决方案。 随着AI技术在各个行业的深入应用,对时间序列预测精度的要求越来越高。TimeGS这类创新框架的出现,有望推动预测模型在准确性、稳定性和适应性方面的全面提升,为智能决策提供更可靠的支持。 未来,研究人员可能会进一步探索TimeGS在不同类型时间序列数据上的表现,以及如何将其与其他先进技术结合,以应对更复杂的预测挑战。

HuggingFace3个月前原文

随着大型语言模型(LLM)在实时对话、流式生成等场景中的广泛应用,传统的事后安全防护机制已显露出明显短板——它们无法在内容生成过程中实时拦截有害信息。虽然基于词级监督训练的流式安全方案能够解决这一问题,但它们需要昂贵的标注成本,且容易产生严重的过拟合问题。 **NExT-Guard** 的提出,正是为了挑战“流式安全必须依赖词级监督训练”这一固有范式。研究团队发现,一个训练良好的事后安全防护模型,其隐藏表征中已经编码了词级别的风险信号。这意味着,流式安全能力实际上是这类模型的一种内在属性,无需额外进行复杂的词级标注和训练。 ### 核心原理:从稀疏自编码器中提取可解释特征 NExT-Guard 的核心创新在于,它利用从公开基础大模型中预训练好的**稀疏自编码器(Sparse Autoencoders, SAEs)**,来监控其潜在特征。SAEs 能够学习到数据中稀疏、可解释的表示。NExT-Guard 通过实时分析这些从SAEs中提取的、可解释的潜在特征,来判断正在生成的文本是否存在风险,从而实现无需额外训练的流式安全防护。 这种方法的关键优势在于: * **无需训练**:直接利用预训练的SAEs,省去了针对安全任务进行模型微调或从头训练的巨大开销。 * **无需词级标注**:摆脱了对精细到每个token(词元)的安全标签的依赖,极大地降低了数据准备的成本和复杂性。 * **灵活部署**:由于框架是训练无关的,它可以灵活地适配不同的基础LLM和不同的SAE变体,具备良好的通用性。 ### 性能表现与意义 实验结果表明,NExT-Guard 在流式安全防护任务上的表现,不仅超越了传统的事后防护方法,也优于那些基于监督训练的流式安全方案。更重要的是,它在不同模型、不同SAE变体以及多种风险场景下都展现出了**卓越的鲁棒性**。 这标志着 NExT-Guard 有望成为一种**通用且可扩展的实时安全防护范式**。它通过巧妙地“借用”现有模型的内在能力,以极低的成本和部署门槛,为LLM的流式应用场景提供了高效的安全保障,有望加速流式安全防护技术在产业界的实际落地。 **小结**:NExT-Guard 的创新之处在于,它跳出了为安全而额外训练的思维定式,转而挖掘和利用大模型自身已具备的“安全感知”潜力。这种训练免费、标注免费的方法,为构建轻量化、可扩展的AI安全基础设施提供了新的思路,是AI安全领域一项颇具实用价值的研究进展。

HuggingFace3个月前原文

随着大型语言模型(LLM)能力的提升,构建能够通过自我循环不断进化的系统成为可能。然而,许多现有方案本质上更接近于**自对弈**(self-play),往往在短期内就陷入性能瓶颈。一项最新研究指出,问题的核心在于:这些循环虽然生成了更多数据,却未能为下一次迭代提供**可学习的信息增益**。 ## 自对弈的瓶颈:数据量≠信息量 在传统的自对弈框架中,模型通过生成任务、尝试解决、评估反馈的循环来训练自身。但研究者发现,如果循环仅仅是重复相似的任务或解决方案,新生成的数据在信息熵上并无实质增加,导致模型很快进入**平台期**。这好比一个学生反复刷同一套题——题量增加了,但知识水平并未提升。 论文通过一个**自对弈编程任务**的实验验证了这一现象:当系统仅依赖内部循环生成数据时,性能提升在几轮迭代后便趋于停滞。 ## 可持续自我进化的三大设计原则 研究团队提出了一个基于**三元角色**的框架,将自我进化的LLM分解为: - **提议者**:负责生成新任务 - **求解者**:尝试解决任务 - **验证者**:提供训练信号(如评估解决方案的质量) 从这一视角出发,他们提出了三种系统设计,共同确保可学习信息的持续增长: ### 1. 非对称协同进化 打破角色间的对称性,形成**“弱-强-弱”的循环**。例如,让一个较弱的提议者生成任务,由较强的求解者解决,再由另一个较弱的验证者提供反馈。这种不对称性迫使系统在不同角色间传递和转化知识,避免陷入自我重复的僵局。 ### 2. 能力增长 随着可学习信息的增加,系统需要相应的**参数规模**和**推理时间预算**来消化这些信息。这意味着模型容量或计算资源应随迭代逐步扩展,以匹配信息复杂度的提升。 ### 3. 主动信息寻求 引入**外部上下文**和**新任务源**,防止系统饱和。例如,从真实世界数据、用户交互或其他知识库中汲取新信息,为提议者提供更丰富的任务灵感,从而打破内部循环的封闭性。 ## 从脆弱自对弈到持续自我进化 这三种模块共同作用,为系统提供了一条**可衡量的、系统级的进化路径**。研究团队强调,可持续的自我进化不是简单地“生成更多数据”,而是确保每一轮迭代都能带来**信息增益**——即数据中包含新的、可被模型学习的模式或知识。 这项研究对AI社区具有重要启示:在追求模型自主进化的道路上,我们需超越单纯的数据合成,转向**信息驱动的系统设计**。未来,结合外部知识注入、动态资源分配和非对称学习机制,或许能真正实现LLM的长期、稳定自我提升。 *论文信息:arXiv:2603.02218,作者:Wei Liu, Siya Qi, Yali Du, Yulan He,发表于2026年2月。*

HuggingFace3个月前原文

## 免重训练压缩的局限:被忽视的路由-专家失配问题 混合专家(Mixture-of-Experts,MoE)模型通过稀疏激活机制,在保持计算效率的同时大幅扩展模型容量,已成为大语言模型(LLM)规模化的关键技术路径。然而,MoE模型的庞大参数量(动辄数百亿甚至数千亿)带来了严峻的部署时内存瓶颈。为了缓解这一问题,业界提出了多种**免重训练(Retraining-Free)的压缩方法**,旨在不进行昂贵的全模型微调的情况下,减少模型体积。 一篇最新的研究论文《Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression》系统性地审视了这些方法,并揭示了一个普遍被忽视的核心问题:**路由-专家失配(Router-Expert Mismatch)**。 ### 三种主流压缩范式及其共同痛点 该研究将现有的免重训练MoE压缩技术归纳为三大范式: 1. **专家剪枝(Expert Pruning)**:直接移除部分专家。 2. **专家编辑(Expert Editing)**:修改现有专家的内部参数。 3. **专家合并(Expert Merging)**:将多个专家融合为一个。 这些方法的共同点是,它们都改变了“专家”部分(即模型的知识载体),但通常**保持“路由”部分(即决定输入应由哪个专家处理的组件)完全不变**。这导致了根本性的不匹配:路由器的决策逻辑是基于原始专家配置学习的,当专家被移除、修改或合并后,路由器依然会按照旧有的“地图”来分配任务,结果自然是性能的显著下降。这种性能损失在压缩后持续存在,成为阻碍高效部署的“顽固”障碍。 ### 核心论点:轻量级路由校准是关键 论文的核心论点是,有效的免重训练压缩策略应遵循一个原则:**避免更新专家参数,但允许对路由器进行轻量级的校准(Calibration)**。换言之,在改变专家结构后,必须同步调整路由器的“认知”,使其适应新的专家格局。 ### 解决方案:路由器知识蒸馏(Router KD) 为此,研究者提出了 **“路由器知识蒸馏”(Router Knowledge Distillation, Router KD)** 方法。该方法的精妙之处在于其极致的轻量性: * **仅更新路由器参数**:整个压缩-校准过程中,专家部分的参数被冻结,仅更新路由器这一小部分参数(通常只占模型总参数的极小比例)。 * **利用未标注校准数据**:校准过程不需要任何标注数据,仅需少量未标注的文本作为校准集。 * **蒸馏原始模型的预测分布**:校准的目标是让压缩后模型(仅路由器可调)的下一词元(next-token)预测概率分布,尽可能接近原始未压缩模型的预测分布。这相当于让新路由器“学习”原始模型在面临输入时,应如何更合理地利用现有的(已被压缩的)专家们。 ### 实验验证与重要发现 研究在涵盖上述三种范式的多种代表性压缩方法上进行了广泛实验,验证了Router KD的有效性。结果显示: * **一致的性能恢复**:在应用Router KD进行轻量级路由校准后,所有压缩方法的性能都得到了显著且一致的恢复,有效弥补了因路由-专家失配带来的精度损失。 * **细粒度MoE受益更大**:一个有趣的发现是,Router KD带来的性能提升在**细粒度MoE**(包含大量小型专家)模型中远大于在**粗粒度MoE**(包含少量大型专家)模型中。研究者分析认为,这是因为细粒度MoE具有更复杂、更精细的路由决策边界,对专家变化的敏感度更高,因此路由校准带来的调整效益也更为明显。 ### 对AI行业的意义与启示 这项研究为MoE模型的高效实用化部署提供了关键的技术洞察: 1. **纠正认知偏差**:它明确指出,单纯对MoE模型进行“外科手术式”的专家压缩而不调整路由器,是效果不完整的。未来的压缩方案设计必须将“路由校准”视为一个不可或缺的环节。 2. **提供高效路径**:Router KD方法本身极具实用价值,其免重训练、仅微调极小参数、无需标注数据的特点,使得它成为一种部署友好、成本低廉的后处理校准工具,易于集成到现有的MoE压缩流水线中。 3. **推动模型轻量化**:随着AI模型向更大规模发展,如何让大模型“瘦身”并跑在更广泛的硬件上是一个核心挑战。这项工作为MoE这一重要架构的轻量化提供了更优解,有助于降低大模型的部署门槛和推理成本。 总之,这项研究提醒我们,在追求模型压缩效率的同时,必须尊重模型内部组件(如路由与专家)之间的协同关系。**免重训练是手段,而非目的;高效压缩的关键,在于精准而轻量的协同调整。**

HuggingFace3个月前原文

## 医疗AI新突破:ATPO算法让大模型诊断更精准 在医疗对话场景中,有效的信息获取对准确诊断至关重要,尤其是在信息不完整的情况下。然而,将大语言模型(LLMs)应用于这种多轮交互场景面临巨大挑战——用户与智能体之间的不确定性难以把握。传统强化学习方法如**GRPO**(组相对策略优化)在长时程信用分配上表现不佳,而**PPO**(近端策略优化)则存在价值估计不稳定的问题。 ### ATPO:一种不确定性感知的优化算法 针对上述难题,研究人员提出了一种名为**自适应树策略优化(ATPO)**的新算法。该算法将多轮医疗对话建模为**分层马尔可夫决策过程(H-MDP)**,核心创新在于能够自适应地将计算资源(即“rollout预算”)分配到不确定性高的状态。 **不确定性如何量化?** ATPO使用贝尔曼误差和动作值方差的复合指标来精确衡量每个状态的不确定性。这种策略不仅实现了更准确的价值估计,还促进了更高效、更多样化的探索。 ### 两大优化技术解决计算瓶颈 基于树的强化学习方法通常计算成本高昂,ATPO通过两项关键技术解决了这个问题: 1. **不确定性引导的剪枝机制**:通过智能剪枝减少不必要的rollout数量,显著降低计算开销。 2. **异步搜索架构**:利用KV缓存重用技术,最大化推理吞吐量,提升整体效率。 ### 实验表现:小模型超越大模型 在三个公开医疗对话基准测试上的广泛实验表明,ATPO算法显著优于多个强基线模型。最引人注目的结果是:**使用ATPO优化的Qwen3-8B模型在准确率上超越了规模大得多的GPT-4o,提升幅度达0.92%**。 这一突破性进展意味着,通过更高效的算法优化,相对较小的模型也能在特定专业领域(如医疗诊断)达到甚至超越超大模型的性能水平。 ### 对AI医疗行业的启示 ATPO算法的成功不仅为医疗对话系统提供了新的技术路径,也为大语言模型在专业垂直领域的应用带来了重要启示: - **算法优化比单纯扩大模型规模可能更有效**:在资源受限的场景下,智能的算法设计能够释放模型的潜在能力。 - **不确定性处理是关键**:在医疗等高风险领域,准确量化和管理不确定性比追求绝对确定性更为实际和重要。 - **计算效率是落地瓶颈**:ATPO的优化技术展示了如何通过算法创新解决实际部署中的计算挑战。 该研究已被**ICLR 2026**接收,标志着强化学习与医疗AI交叉领域的重要进展。随着算法不断成熟,我们有望看到更智能、更可靠的AI医疗助手进入实际应用,辅助医生进行更精准的诊断决策。

HuggingFace3个月前原文

在药物发现和合成规划领域,化学反应预测一直是一个核心挑战。传统的数据驱动模型往往过度依赖参数规模和数据集大小,却忽视了化学反应的本质理解——如反应常识和拓扑原子映射逻辑。这些模型在评估时可能绕过反应表示的根本难题,导致其化学直觉薄弱,难以在实际应用中提供可靠指导。 **RxnNano** 的提出,正是为了扭转这一局面。它不再追求“更大即更好”,而是通过一套统一的框架,将化学理解置于规模之上。该框架包含三大关键创新: 1. **潜在化学一致性目标**:将化学反应建模为连续化学流形上的运动,确保可逆且物理上合理的转化。 2. **分层认知课程**:通过从语法掌握到语义推理的渐进阶段训练模型,构建稳健的化学直觉。 3. **原子映射置换不变性**:迫使模型学习不变的关系拓扑,并平衡多任务学习。 此外,该框架还引入了结构化计划推理,以进一步提升大语言模型的性能。 **性能表现** 最引人注目的是,**RxnNano** 仅是一个 **0.5B 参数** 的紧凑模型,却在严格的基准测试中,显著超越了微调后参数规模大十倍(>7B)的大语言模型以及所有领域基线模型。在不使用测试时增强的情况下,其 **Top-1 准确率提升了 23.5%**。这一成果有力地证明了,在特定科学领域,通过精心设计的训练策略和知识注入,小模型完全可以超越盲目追求规模的大模型。 **行业意义与展望** RxnNano 的成功为 AI 在科学计算领域的发展提供了新思路。它表明,在专业垂直领域,模型的“智能”并非单纯来自参数数量,而是源于对领域知识的深刻编码和高效学习机制。这种“小而精”的路径,不仅能降低计算成本和部署门槛,加速 AI 在药物研发、材料设计等领域的实际应用,也可能启发其他科学领域开发更高效、更可解释的专用模型。未来,如何将这种分层课程学习和知识注入策略推广到更多科学和工程问题,将是值得关注的方向。

HuggingFace3个月前原文

在大语言模型(LLM)评估领域,**LLM-as-a-judge(LLM作为评判者)** 已成为规模化评估的标准范式。然而,其核心的聚合机制——如多数投票或平均法——存在一个根本性缺陷:它们默认各个LLM评判者提供的质量估计是相互独立的。 **问题根源:被忽视的“混淆因子”** 现实情况远非如此。多个LLM评判者会表现出**相关的错误**,其根源在于它们共享着一些潜在的**混淆因子**。这些混淆因子并非模型要评估的“真实质量”,却会系统性影响评分。常见的混淆因子包括: * **冗长偏好**:模型可能倾向于给更长的回复打高分。 * **风格偏好**:模型可能对特定写作风格(如正式、幽默)有系统性偏好。 * **训练痕迹**:来自相似数据或架构的模型可能共享某些偏见或“幻觉”模式。 当这些混淆因子存在时,传统的聚合方法不仅无法有效提升评估的可靠性,甚至可能**放大系统性错误**,导致评估结果失真。 **解决方案:CARE框架的核心思想** 为了应对这一挑战,研究人员提出了 **CARE(Confounder-Aware Aggregation for Reliable Evaluation)** 框架。CARE的核心创新在于,它**显式地**将LLM评判者的评分建模为两个部分的组合: 1. 潜在的**真实质量信号**(即我们希望评估的目标)。 2. 共享的**混淆因子**(即导致相关错误的系统性偏差)。 与那些依赖启发式规则对评判者进行重新加权的方法不同,CARE的目标是在**无需真实标签(ground-truth)** 的情况下,从观测到的评分中分离出“质量”与“混淆因子”。这使其更具普适性和理论保障。 **技术优势与验证结果** 研究团队为CARE提供了理论保证,证明了在共享混淆因子存在的情况下,模型参数的可识别性以及在有限样本下的可恢复性。更重要的是,他们量化了当聚合模型忽略这些潜在混淆因子时会产生的**系统性偏差**。 在实证验证方面,CARE在**12个公开基准测试**上进行了广泛评估,涵盖了连续评分、二元分类和成对偏好三种典型的评估场景。结果显示: * CARE显著提升了聚合的准确性。 * 与传统聚合方法相比,CARE将评估误差降低了**最高达26.8%**。 这一改进意味着,使用CARE框架能让我们对大语言模型能力的评估更接近其“真实”表现,减少因评估方法本身的缺陷而带来的误判。 **对AI行业的意义与影响** CARE框架的提出,触及了当前大模型评估生态中的一个关键痛点。随着模型能力的快速迭代,客观、可靠、可扩展的评估变得比以往任何时候都更重要。然而,如果评估工具本身存在系统性偏差,那么所有的比较和进步声明都可能建立在沙土之上。 * **对研究社区**:CARE为设计更鲁棒的评估协议提供了新的理论工具和实践框架。它促使我们重新审视“多数即正确”的简单假设,推动评估方法论向更精细化的方向发展。 * **对产业实践**:在模型选型、效果监控和持续改进中,采用像CARE这样能校正系统性偏差的评估方法,有助于做出更可靠的技术决策,避免被模型的“表面风格”而非“实质能力”所误导。 **小结** CARE框架的诞生,标志着大语言模型评估从“数量聚合”向“质量解耦”迈出了重要一步。它不再将多个LLM评判者视为独立的投票机,而是将其视为受共同因素影响的观测系统,并通过建模来剥离噪音、提取信号。随着代码的公开,这一方法有望被更广泛地应用于学术研究和工业界评估中,为构建更可信的AI能力标尺贡献力量。 > 论文及代码链接已随论文公开。

HuggingFace3个月前原文

## 图神经网络表达能力评估迎来新突破 在AI技术快速发展的今天,**可信AI**已成为行业共识。然而,对于处理图结构数据的**图神经网络(GNNs)**,其表达能力——即模型捕捉图基本属性的能力——一直缺乏系统性的评估方法。近日,一项发表在arXiv上的研究提出了**基于属性驱动的评估方法论**,为GNN的评估建立了严谨的软件工程基础。 ### 研究背景:GNN评估的挑战 GNN在社交网络分析、知识图谱、生物信息学等领域取得了显著成功,但其表达能力评估仍面临三大挑战: 1. **缺乏标准化基准**:现有数据集往往无法系统覆盖图的基本属性 2. **评估维度单一**:多数研究仅关注准确率,忽略泛化性、敏感性和鲁棒性等关键维度 3. **方法学不足**:缺乏基于形式化规范的严谨评估框架 ### 创新方法论:软件工程与AI的融合 研究团队采用软件工程中的**形式化规范**方法,利用**Alloy**(一种软件规范语言和分析器)开发了可配置的图数据集生成器。该生成器创建了两类数据集家族: - **GraphRandom**:包含满足或违反特定属性的多样化图 - **GraphPerturb**:引入受控的结构变化 这些基准数据集共包含**336个新数据集**,每个数据集至少有**10,000个带标签的图**,覆盖了分布式系统、知识图谱和生物网络中至关重要的**16种基本图属性**。 ### 评估框架:三个维度与两个新指标 研究提出的评估框架从三个关键维度评估GNN表达能力: 1. **泛化性**:模型在未见数据上的表现 2. **敏感性**:模型对输入变化的响应程度 3. **鲁棒性**:模型对噪声和扰动的抵抗能力 框架还引入了**两个新颖的量化指标**,为表达能力提供了更精细的测量工具。 ### 重要发现:全局池化方法的权衡 利用这一框架,研究团队首次对**全局池化方法**对GNN表达能力的影响进行了全面研究。研究发现存在明显的权衡关系: - **基于注意力的池化**在泛化性和鲁棒性方面表现优异 - **二阶池化**在敏感性方面提供更优表现 - **没有单一方法**在所有属性上都表现一致良好 这些发现揭示了GNN架构的**基本局限性**,并指出了多个开放研究方向,包括: - 自适应属性感知池化 - 规模敏感架构 - 面向鲁棒性的训练方法 ### 行业意义与未来展望 这项研究将软件工程的严谨性嵌入AI评估,为开发**表达能力强且可靠的GNN架构**奠定了原则性基础。在AI模型日益复杂的背景下,这种基于属性驱动的评估方法不仅适用于GNN,也可能为其他神经网络架构的评估提供参考。 随着图数据在现实世界应用中的普及,对GNN表达能力的深入理解将直接影响模型在实际场景中的可靠性和有效性。这项研究为AI社区提供了宝贵的工具和见解,有望推动GNN技术向更可信、更可解释的方向发展。

HuggingFace3个月前原文

在强化学习(RL)与控制系统的交叉领域,稳定性一直是个核心挑战。传统方法往往依赖大量数据或精确模型,而最新研究提出了一种创新方法,能在有限数据下提供概率稳定性保证,为RL在安全关键控制场景的应用铺平了道路。 ## 核心创新:有限样本的概率稳定性定理 这项研究的关键在于提出了一个**概率稳定性定理**,它基于李雅普诺夫(Lyapunov)方法,仅使用有限数量的采样轨迹就能确保系统的均方稳定性。这意味着,即使没有完整的模型或无限数据,也能通过有限样本评估控制策略的稳定性。 - **概率随数据增长**:稳定性概率随着轨迹数量和长度的增加而提高,当数据量足够大时,趋近于确定性保证。 - **理论突破**:这填补了RL与控制理论之间的关键空白,使得在无模型框架下进行稳定性分析和控制器设计成为可能。 ## 算法实现:L-REINFORCE 基于这一理论,研究团队开发了**L-REINFORCE算法**,它扩展了经典的REINFORCE算法,专门用于稳定策略学习。 - **策略梯度定理**:研究还推导了稳定策略学习的策略梯度定理,为算法提供了理论支撑。 - **实验验证**:在Cartpole任务(如平衡杆控制)的模拟中,L-REINFORCE在确保稳定性方面优于基线方法,证明了其有效性。 ## 行业意义与应用前景 这一成果对AI和自动化领域具有深远影响: 1. **安全关键应用**:在机器人、自动驾驶、工业控制等需要高可靠性的场景,有限样本下的稳定性保证能降低风险,加速RL的落地。 2. **数据效率提升**:减少对大量训练数据的需求,降低计算成本,使RL更适用于资源受限环境。 3. **理论融合**:促进RL与控制理论的深度融合,为未来智能控制系统开发提供新范式。 ## 总结 这项研究不仅提出了创新的概率稳定性框架和L-REINFORCE算法,还通过实验验证了其优越性。它标志着RL在控制领域向更安全、更高效的方向迈出重要一步,有望推动AI技术在现实世界中的广泛应用。随着数据量的增加,稳定性趋近于确定性,这为后续研究和工程实践提供了坚实基础。

HuggingFace3个月前原文

扩散模型在概率时间序列预测领域展现出巨大潜力,但传统方法常因固定噪声调度导致中间状态难以反转、终端状态偏离假设,且依赖时域条件而忽略谱退化问题,限制了结构恢复能力。近日,研究人员提出 **StaTS**(Spectral Trajectory Schedule Learning)模型,通过交替更新学习噪声调度与去噪器,实现了更高效的自适应预测。 ## 核心创新:谱轨迹调度与频率引导去噪 StaTS 包含两大核心组件: 1. **谱轨迹调度器(STS)**:学习数据自适应的噪声调度,通过谱正则化提升结构保持与逐步可逆性,解决了固定调度导致的中间状态反转困难问题。 2. **频率引导去噪器(FGD)**:估计调度引起的谱失真,并据此调制去噪强度,实现跨扩散步长和变量的异质性恢复。 这种设计使得模型能够更精细地处理不同噪声水平下的时间序列结构,尤其在频谱层面实现更好的信息保留。 ## 技术实现:两阶段训练稳定耦合 为了确保调度学习与去噪器优化之间的稳定耦合,StaTS 采用 **两阶段训练流程**: - 第一阶段:初步学习噪声调度与去噪器参数 - 第二阶段:通过交替更新进一步优化,避免训练不稳定问题 这种训练策略在多个真实世界基准测试中展现出 **一致的性能提升**,同时能够在更少采样步数下保持强劲表现。 ## 行业意义与潜在应用 在 AI 时间序列预测领域,扩散模型正逐渐成为概率预测的重要工具。StaTS 的提出,不仅解决了现有方法在调度设计与频谱建模上的局限,还为以下场景带来新的可能性: - **金融预测**:股票价格、汇率波动等需要高精度概率估计的场景 - **气象预报**:温度、降水等时间序列的长期概率预测 - **工业物联网**:设备传感器数据的异常检测与趋势分析 随着时间序列数据在各行业的爆炸式增长,能够自适应学习调度并兼顾频谱信息的模型,有望在复杂动态系统中提供更可靠的决策支持。 ## 总结 StaTS 通过谱轨迹调度学习与频率引导去噪的协同设计,为扩散模型在时间序列预测中的应用开辟了新路径。其代码已开源,为后续研究与实践提供了可复现的基础。在 AI 模型不断追求效率与准确性的背景下,这类自适应学习方法或将成为时间序列分析领域的重要演进方向。

HuggingFace3个月前原文

在交通规划领域,公交网络设计是一个经典但充满挑战的课题。传统方法通常基于固定的乘客需求假设来构建优化模型,然而现实世界中的出行需求充满变数,这种简化处理往往导致设计方案在实际运营中效果不佳。近日,一项发表在arXiv上的研究提出了一种名为**双层乘客选择公交网络设计(2LRC-TND)** 的新框架,它巧妙地将**机器学习(ML)** 与**情境随机优化(CSO)** 相结合,旨在更真实地捕捉和应对需求的不确定性。 ## 传统模型的局限与双层需求挑战 传统的公交网络设计模型通常假设乘客需求是已知且固定的。但在现实中,需求受多种因素影响: - **核心需求**:即那些依赖公共交通出行的固定乘客群体。 - **潜在需求**:指那些原本不选择公交,但可能因服务改善(如线路更便捷、班次更密)而转变出行方式的乘客。他们的选择是“有条件的”,取决于网络设计的质量。 忽略这种双层、动态的需求特性,设计出的网络可能无法有效吸引潜在用户,也无法为核心用户提供最优服务,最终影响系统的整体效率和可持续性。 ## 2LRC-TND框架:如何融合AI与优化 该框架的核心创新在于系统性地处理这两层不确定性: 1. **机器学习建模出行选择**: - 框架使用**多个机器学习模型**来构建两种出行方式选择模型,分别预测核心乘客的稳定需求和潜在乘客的条件性选择行为。 - 这些模型能够学习历史数据中的复杂模式,并考虑各种情境因素(如时间、天气、社会经济背景等),从而更准确地模拟真实世界的决策过程。 2. **情境随机优化整合决策**: - 将训练好的ML模型集成到一个**情境随机优化(CSO)** 问题中。CSO允许在优化时明确考虑未来可能出现的不同“情境”(即需求的不同实现方式),而不仅仅是单一的平均或最坏情况。 - 这个整合后的优化问题通过**约束规划(CP)** 技术,并利用**CP-SAT求解器**进行计算,以找到在多种可能需求情境下都表现稳健的网络设计方案。 简单来说,**2LRC-TND先用AI预测“人们会怎么选”,再用优化算法决定“线路该怎么布”**,并且整个过程充分考虑了未来的不确定性。 ## 实证检验:亚特兰大案例研究 研究团队在美国**亚特兰大都会区**进行了大规模的案例验证。该案例涉及: - **超过6,600个出行弧段** - **超过38,000次出行记录** 计算结果表明,与传统固定需求模型相比,**2LRC-TND框架能够设计出更能适应需求波动、更贴合现实情境的公交网络**。这证明了该框架在解决大规模、复杂现实问题上的有效性和实用性。 ## 对AI与交通领域的启示 这项研究代表了**运筹学、机器学习与城市规划**交叉领域的一次重要进展。它展示了AI不仅仅是预测工具,更能作为核心组件嵌入到复杂的决策优化流程中,解决诸如基础设施规划这类具有长期影响的战略性问题。 - **对AI行业的意义**:它推动了机器学习模型在“决策支持”乃至“决策制定”中的深度应用,特别是在需要处理高度不确定性的领域。 - **对智慧城市的意义**:为数据驱动的、动态响应的交通系统规划提供了新的方法论。随着城市数据日益丰富,此类框架有望成为未来智能交通管理系统(ITS)和出行即服务(MaaS)平台的核心规划引擎。 ## 小结 **2LRC-TND框架**的提出,标志着公交网络设计从静态、确定性的思维,向动态、概率性的思维转变。通过拥抱不确定性而非回避它,并利用机器学习的力量来理解和预测这种不确定性,我们离设计出更具韧性、效率更高且更能满足市民真实需求的公共交通系统更近了一步。这不仅是交通工程的进步,也是人工智能在解决重大社会基础设施挑战方面价值的有力证明。

HuggingFace3个月前原文

## 亚1比特压缩的新突破:几何对齐是关键 在追求更高效、更轻量化的大语言模型(LLM)部署过程中,模型压缩技术,尤其是量化,扮演着核心角色。近期,一篇题为《通过潜在几何对齐最大化亚1比特大语言模型的谱能量增益》的论文,揭示了在极端压缩(低于1比特)场景下,一个被忽视的关键因素——**潜在几何失准**,并提出了创新的解决方案。 ### 发现“谱能量增益”与“几何失准”的矛盾 研究人员首先识别出一种被称为 **“谱能量增益”** 的现象。具体来说,在具有**重尾谱**(即奇异值分布极不均匀)的模型中,低秩的二元近似(binary approximation)方法,在理论上能够超越使用更高精度(如浮点数)但秩更小的基线模型。这为将模型压缩到极致(如0.1到1比特每参数,bpp)提供了诱人的前景。 然而,现实是骨感的。以往试图利用这种增益的尝试均告失败,其性能甚至落后于当前最先进的1比特方法。论文将这种性能退化归因于 **“潜在几何失准”** 。问题的根源在于:标准奇异值分解(SVD)产生的奇异向量通常具有**高相干性**,表现为一种“尖峰分布”。这种几何结构恰恰是二元量化(将连续值映射到+1/-1)的**最坏情况**,因为它使得量化过程损失了大量信息。 ### 解决方案:LittleBit-2框架 为了将理论上的“谱能量增益”转化为实际的性能优势,研究团队提出了 **LittleBit-2** 框架。该框架的核心思想是充当一个**几何预处理器**,在量化之前主动调整潜在空间的几何结构。它主要包含两大关键技术: 1. **内部潜在旋转**:对模型的内部表示进行变换,旨在改变奇异向量的分布。 2. **联合迭代量化**:一种改进的量化方法,与旋转过程协同优化。 这套组合拳的目标非常明确:将原本“尖峰状”的高相干潜在分布,对齐到更适合二元量化的**超立方体几何结构**上。最关键的是,这种对齐操作被设计为预处理步骤,在模型推理时**不产生任何额外开销**,保证了部署效率。 ### 实证结果:确立亚1比特新标杆 理论需要实践检验。研究团队在 **Llama-2** 和 **Llama-3** 模型上进行了广泛的实验。结果表明,LittleBit-2在**亚1比特区间(1~0.1 bpp)** 内,成功建立了新的性能标杆。其模型保真度能够匹配甚至媲美当前领先的1比特基线方法。这意味着,在几乎不损失精度的情况下,模型的大小和计算需求被压缩到了前所未有的程度。 ### 对AI行业的意义与展望 这项研究不仅仅是提出了一种新的压缩工具。它更深刻地指出,在追求极致的模型压缩时,不能仅仅关注量化算法本身,还必须考虑模型**内部表示的固有几何特性**。将“几何对齐”作为压缩流程的一个设计维度,为后续的超低比特量化研究开辟了新的思路。 随着边缘计算、移动端AI部署需求的爆炸式增长,如何让庞大的LLM在资源受限的设备上流畅运行,是产业界亟待解决的挑战。LittleBit-2所代表的、兼顾极致压缩比与模型性能的技术路径,无疑为**轻量化大模型**的落地应用注入了一剂强心针。未来,我们或许会看到更多基于几何视角的模型优化方法涌现,进一步推动高效AI的边界。

HuggingFace3个月前原文

## 时间序列因果发现的新战场:计量经济学方法能否为AI带来启示? 在人工智能领域,因果机器学习(Causal ML)正成为继预测性AI之后的下一个前沿。这项技术旨在从数据中挖掘出变量间的因果结构,而不仅仅是相关性,这对于政策制定、医疗干预等需要理解“为什么”的领域至关重要。然而,当前大多数因果ML研究集中在横截面数据上,对于具有明确时间顺序的时间序列数据,因果结构的发现仍是一个开放的研究课题。 近期,一篇发布于arXiv的预印本论文《Econometric vs. Causal Structure-Learning for Time-Series Policy Decisions: Evidence from the UK COVID-19 Policies》将目光投向了这一难题。该研究由Bruno Petrungaro和Anthony C. Constantinou共同完成,他们不仅评估了传统的因果ML算法,还引入了一个常被AI社区忽视的“老对手”——计量经济学方法。 ### 为什么是计量经济学? 计量经济学作为经济学的一个分支,长期以来专注于从时间序列数据中推断因果关系,特别是在政策评估和宏观经济分析中积累了丰富的理论和方法。论文指出,计量经济学对因果性和时间序列的关注,使其成为与因果ML进行对比的理想参照系。 研究团队评估了**四种计量经济学方法**和**十一种因果ML算法**,核心目标是:**比较它们在从时间序列数据中恢复因果结构方面的性能,并探讨计量经济学能否为因果ML的发展提供可借鉴的经验。** ### 关键发现:规则与探索的权衡 研究基于英国COVID-19政策的真实世界数据展开,这是一个典型的时间序列政策决策场景。主要结果揭示了两种方法论路径的鲜明特点: * **计量经济学方法**:提供了**清晰的时间结构规则**。这些方法通常基于严格的统计假设(如平稳性、外生性),生成的因果图(graphical structures)相对稀疏,更注重可解释性和符合经济理论先验。在模型维度(model dimensionality)控制上较为严格。 * **因果ML算法**:展现出**更广泛的探索能力**。它们倾向于搜索更大的图结构空间,这往往导致生成**更密集的因果图**,能够捕捉到更多可识别的因果关系。这种“数据驱动”的特性有时能发现计量经济学方法可能忽略的潜在关联。 简而言之,计量经济学方法更像是一位遵循严格章程的法官,而因果ML算法则像是一位大胆探索的侦探。前者在规则框架内提供稳健但可能保守的结论;后者则能发现更多线索,但也可能引入更复杂的模型和解释挑战。 ### 对AI研究与政策实践的启示 这项研究的意义超出了单纯的算法对比: 1. **方法论融合的潜力**:论文提供了将计量经济学方法的结果转换到最广泛使用的贝叶斯网络R库`bnlearn`的代码。这为AI研究者打开了一扇窗,可以将计量经济学中成熟的时间序列因果推断工具整合到现有的ML工作流中,或许能催生出更强大、更适用于时序数据的混合因果发现模型。 2. **政策决策支持的新视角**:在像COVID-19大流行这样的复杂危机中,政策制定需要快速、可靠的因果洞察。研究表明,没有一种方法是万能的。结合计量经济学的规则清晰性和因果ML的探索全面性,可能为决策者提供更稳健、多角度的证据基础。例如,计量方法可以验证核心政策变量(如封锁措施)与关键结果(如感染率)之间的因果链是否成立,而ML方法可以同时探索更多社会环境或行为变量的潜在影响。 3. **凸显了因果AI的落地挑战**:研究也间接指出了因果ML走向实际应用,尤其是在高风险的公共政策领域时,所面临的挑战。生成的因果图是否过于复杂而难以被领域专家(如流行病学家、经济学家)理解和信任?如何平衡算法的发现能力与模型的简洁性、可解释性?这些都是未来研究需要回答的问题。 ### 小结与展望 这篇论文是一次有价值的跨学科对话。它提醒AI社区,在追求前沿技术的同时,不应忽视其他学科(如计量经济学)数十年积累的智慧。对于时间序列因果发现这一难题,**“老方法”与“新算法”并非替代关系,而是潜在的互补关系。** 未来的方向可能包括开发能够吸收计量经济学时序约束的因果ML模型,或者在政策评估框架中系统性地结合两类方法的输出。随着因果AI在金融、医疗、气候等更多时序数据丰富的领域寻求落地,这种跨领域的比较与融合研究,其重要性只会与日俱增。 > **重要提示**:本文讨论的研究为发布于arXiv的预印本,尚未经过同行评议。其发现不应被直接用作指导临床实践或健康相关行为的依据,在媒体报道时也应咨询多位领域专家。

HuggingFace3个月前原文

随着AI模型规模的爆炸式增长,如何在保持性能的同时降低计算和内存开销,已成为行业面临的核心挑战。量化技术——将模型权重和激活值从高精度(如FP16或FP32)压缩到低精度(如INT8或FP4)——是解决这一问题的关键路径。然而,当精度降至4位(FP4)时,注意力机制因其重尾分布特性,成为阻碍端到端低精度计算的主要瓶颈。 **Attn-QAT** 的提出,标志着在4位注意力量化领域迈出了重要一步。这项研究首次系统性地探索了针对注意力模块的4位量化感知训练(QAT),旨在实现稳定且高效的FP4推理。 ### 为何4位注意力如此困难? 传统量化方法在应用于注意力机制时,面临两大核心难题: 1. **FP4的动态范围极小**:4位浮点数能表示的数值范围非常有限,而注意力分数(attention scores)的分布往往呈现“重尾”特征,即存在大量接近零的值和少量极端大的值(异常值)。这导致在量化过程中,大量信息丢失,模型性能急剧下降。 2. **训练过程不稳定**:研究团队发现,简单的“即插即用”式QAT方法——即在正向传播中使用FP4计算,而在反向传播中沿用高精度(如FP16)的Flash Attention(FA)风格梯度计算——会导致训练过程不稳定,难以收敛。 ### Attn-QAT的核心创新 基于上述挑战,研究团队提出了两项关键原则,并据此构建了Attn-QAT框架: 1. **反向传播中的低精度重计算匹配**:在反向传播计算梯度时,同样使用低精度(FP4)来重新计算注意力分数,确保正向与反向计算路径的一致性,避免精度不匹配带来的梯度误差。 2. **解决Flash Attention梯度计算中的隐式精度假设**:Flash Attention算法为了优化速度,在其梯度计算中隐含了对高精度的依赖。Attn-QAT修改了这些计算步骤,使其适配FP4的数值特性,从而保证了梯度计算的正确性。 ### 实现与性能表现 研究团队不仅提出了理论框架,还提供了高效的工程实现: * **融合Triton内核**:为训练过程开发了高性能的融合Triton内核,优化了计算效率。 * **专用FP4推理内核**:为部署阶段提供了专门的FP4推理内核,确保最终模型能高效运行在支持FP4的硬件上。 在扩散模型和语言模型上的实验表明,Attn-QAT能够有效**恢复因FP4量化导致的注意力质量下降**,其效果优于之前需要依赖复杂异常值缓解启发式方法的FP4注意力方案。更重要的是,在**RTX 5090**显卡上,Attn-QAT带来了**高达1.5倍的推理速度提升**,显著降低了延迟和能耗。 ### 行业意义与展望 Attn-QAT的成功,为在即将到来的支持FP4的GPU上实现端到端的4位模型推理扫清了一个主要障碍。它意味着: * **更高效的模型部署**:大模型可以在资源受限的边缘设备或需要高吞吐量的云端服务中更流畅地运行。 * **降低AI应用成本**:减少计算和内存需求直接转化为更低的运营成本。 * **推动硬件与软件协同设计**:此类研究为下一代AI专用硬件(如FP4-capable GPUs)的软件生态提供了关键支持。 随着论文和代码的公开,Attn-QAT有望被集成到主流深度学习框架中,加速4位量化技术在产业界的落地进程,让更强大、更高效的AI应用触手可及。

HuggingFace3个月前原文

在神经科学领域,脑基础模型正成为解码大脑活动的关键工具,但现有模型多局限于单一功能模态,如fMRI(功能性磁共振成像)、EEG(脑电图)或MEG(脑磁图),这限制了它们利用不同成像技术互补时空动态和集体数据规模的能力。近日,一项名为**Brain-OF**的研究在arXiv预印本平台上发布,标志着首个全功能脑基础模型的诞生,它通过联合预训练整合了fMRI、EEG和MEG三种模态,旨在突破单模态限制,实现更全面的脑信号分析。 ### 为何需要全功能模型? 脑成像技术各有优劣:fMRI提供高空间分辨率但时间分辨率较低,EEG和MEG则相反,能捕捉毫秒级时间动态但空间精度有限。传统单模态模型无法充分利用这些互补特性,导致在复杂神经任务中表现受限。Brain-OF的设计初衷正是为了解决这一问题,通过统一框架处理单模态和多模态输入,以提升模型在多样化下游任务中的性能。 ### 核心技术突破 Brain-OF的创新体现在三个核心组件上: - **Any-Resolution Neural Signal Sampler(任意分辨率神经信号采样器)**:将不同时空分辨率的脑信号投影到共享语义空间中,解决了模态间异质性问题。 - **DINT注意力与稀疏专家混合(Sparse Mixture of Experts)**:模型骨干整合了DINT注意力机制,其中共享专家捕获模态不变表示,路由专家则专注于模态特定语义,有效管理语义偏移。 - **Masked Temporal-Frequency Modeling(掩码时频建模)**:一种双域预训练目标,同时在时间和频率域中重建脑信号,增强了模型对脑活动动态的捕捉能力。 ### 预训练与性能表现 Brain-OF在约40个数据集组成的大规模语料库上进行预训练,覆盖了广泛的神经科学任务。初步结果显示,它在多种下游任务中表现优异,突出了联合多模态整合和双域预训练的优势。这不仅提升了模型精度,还为脑疾病诊断、认知研究等应用提供了更强大的工具。 ### 行业意义与未来展望 Brain-OF的出现是AI在神经科学领域的一次重要进展。随着多模态数据融合成为趋势,此类模型有望推动脑机接口、个性化医疗和基础神经研究的突破。然而,模型仍面临数据隐私、计算资源需求等挑战,未来需进一步优化以适应实际临床环境。 总之,Brain-OF作为首个全功能脑基础模型,通过创新架构解决了多模态脑信号处理的难题,为AI驱动的神经科学开辟了新路径。

HuggingFace3个月前原文

量子机器学习(QML)领域的一项最新研究揭示了当前可训练频率方法的一个关键瓶颈,并提出了一种创新的解决方案。这项由慕尼黑大学团队完成的研究发现,虽然理论上可训练频率方法能够显著降低量子电路的深度需求,但在实际优化过程中,频率参数的移动范围被限制在约±1个单位内,导致许多目标频率无法通过梯度优化达到,从而影响模型性能。 ## 量子机器学习中的频率编码挑战 在量子机器学习中,角度编码(angle encoding)是一种常见的数据编码方式,它能够自然地表示截断的傅里叶级数,从而提供通用函数逼近能力。传统的固定频率编码方法虽然简单,但其量子电路深度随目标频率最大值ω_max和精度ε呈O(ω_max * (ω_max + ε^{-2}))增长,这在处理高频信号时会导致电路深度急剧增加,增加噪声和计算成本。 可训练频率方法理论上能够将电路深度降低到与目标频谱大小相匹配的水平,只需要与目标频谱中频率数量相同的编码门。这种方法在效率上极具吸引力,但其成功依赖于一个关键假设:基于梯度的优化能够将频率预因子驱动到任意目标值。 ## 频率可训练性的实际限制 研究团队通过系统实验发现,这一假设在实际中并不成立。频率预因子表现出有限的可训练性:在典型学习率下,其移动范围被限制在约±1个单位内。当目标频率超出这个可达范围时,优化过程经常失败,导致模型性能大幅下降。 这一发现解释了为什么许多可训练频率方法在实际应用中表现不如预期,特别是在处理包含高频成分的数据时。 ## 三进制网格初始化:突破频率可达性限制 为了解决这一频率可达性限制,研究团队提出了一种基于网格的初始化方法,使用三进制编码生成密集的整数频率谱。这种方法虽然需要O(log_3(ω_max))个编码门——比理论最优值多,但比固定频率方法指数级减少——它确保目标频率位于局部可达范围内。 **三进制编码**的核心思想是利用三进制表示来生成频率谱,这种方法能够以对数级复杂度覆盖广泛的频率范围,同时保持每个频率参数在优化过程中的可达性。 ## 实验验证与性能提升 研究团队在合成目标和真实世界数据集上验证了他们的方法: - **合成目标测试**:在包含三个偏移高频的合成目标上,三进制网格初始化实现了**中位R²分数0.9969**,而可训练频率基线的中位R²分数仅为**0.1841**。 - **真实数据集测试**:在Flight Passengers数据集上,三进制网格初始化实现了**中位R²分数0.9671**,比可训练频率初始化的中位R²分数**0.7876**提高了**22.8%**。 这些结果表明,三进制网格初始化不仅解决了频率可达性问题,还在实际应用中带来了显著的性能提升。 ## 对量子机器学习领域的意义 这项研究对量子机器学习领域具有重要影响: 1. **揭示了实际优化限制**:首次系统性地展示了可训练频率方法在实际优化中的局限性,为后续研究提供了重要参考。 2. **提供了实用解决方案**:三进制网格初始化方法为处理高频数据提供了一种有效途径,平衡了理论效率与实际可行性。 3. **推动算法设计**:研究结果提示,未来的量子机器学习算法设计需要更仔细地考虑优化动态和参数可达性。 随着量子计算硬件的不断发展,这类优化量子机器学习训练过程的研究将变得越来越重要,有助于加速量子机器学习从理论到实际应用的过渡。

HuggingFace3个月前原文

## 概念瓶颈模型迎来语言模型赋能新方法 在追求AI可解释性的道路上,**概念瓶颈模型(Concept Bottleneck Models,CBMs)** 一直被视为一种有前景的架构。其核心思想是让模型先识别出人类可理解的“概念”(如“有翅膀”、“是红色的”),再基于这些概念进行最终分类。这种设计赋予了模型内在的可解释性——用户可以清楚地知道模型是基于哪些“概念”做出决策的。然而,一个长期存在的瓶颈限制了CBMs的广泛应用:为海量数据标注这些高质量的概念,需要耗费大量专家知识和人力成本。 ## 现有方案的局限:忽视LLM的“不确定性” 近年来,一些研究开始尝试利用**大型语言模型(LLMs)** 的知识来自动生成概念标注,以期绕过昂贵的人工标注。这听起来是个完美的解决方案:LLMs拥有丰富的世界知识,可以理解并描述图像或文本中的概念。但现有方法存在两个关键缺陷: 1. **忽视不确定性**:它们将LLM生成的概念标签视为“确定无疑”的,忽略了LLM可能产生的“幻觉”或不确定输出。这就像把一位偶尔会犯错的专家的意见当成了绝对真理,直接用于训练模型,无疑会引入噪声和错误。 2. **缺乏量化与整合**:这些方法既没有一套可靠的机制来量化LLM标注的“不确定性”程度,也没有在模型训练过程中考虑这种不确定性。不同概念的可靠性是不同的,但现有方法却“一视同仁”。 ## 新方法:不确定性感知的语言引导 针对上述问题,来自arXiv的一篇新论文《Uncertainty-aware Language Guidance for Concept Bottleneck Models》提出了一种创新的解决方案。该方法的核心在于“不确定性感知”,它包含两个相辅相成的部分: * **严谨的不确定性量化**:该方法设计了一套机制,能够为LLM标注的每个概念标签**提供严格且无分布假设的不确定性量化保证**。简单来说,就是它能可靠地评估“LLM说这张图里有‘猫’这个概念,到底有多大的把握?”。这为后续处理提供了可靠的数据基础。 * **将不确定性融入训练**:更重要的是,它将量化后的概念不确定性直接整合到CBM的训练过程中。模型在学习时,会知道哪些概念标签是LLM高度确信的(可靠性高),哪些是LLM也不太确定的(可靠性低),从而在参数更新时给予不同的权重。这使模型能够更稳健地处理带有噪声的LLM标注数据。 ## 意义与展望 这项研究的意义在于,它为**利用LLM赋能可解释AI模型**提供了一条更可靠、更严谨的路径。它承认并正视了LLM作为“标注员”的局限性(不确定性),并通过数学方法加以约束和利用,而不是简单地回避或忽视。 **这种方法有望显著降低构建高性能、可解释模型的门槛**,使得在缺乏大量专家标注的领域(如专业医疗影像分析、稀有物种识别等)应用CBMs成为可能。论文作者表示,在多个真实世界数据集上的广泛实验验证了该方法的有效性。 随着AI模型在关键决策领域(如医疗、金融、自动驾驶)的应用日益深入,模型的可解释性与可靠性变得至关重要。这项结合了**概念瓶颈的可解释性优势**与**大型语言模型的知识广度**,并辅以**严谨的不确定性处理**的研究,代表了可解释AI领域一个值得关注的前进方向。

HuggingFace3个月前原文

近期,一项名为 **EvoX** 的研究在 arXiv 上发布,提出了一种结合大型语言模型(LLM)与进化搜索的自适应进化方法,旨在解决传统固定策略在跨任务或动态搜索空间中的局限性。该研究由来自多所顶尖机构的团队完成,并在近 200 个真实世界优化任务中展现出显著优势。 ## 背景:LLM 驱动的进化搜索 近年来,随着 LLM 能力的提升,研究人员开始探索将其与进化算法结合,以自动化改进程序、提示和算法。例如,**AlphaEvolve** 等项目通过重用已评估的解决方案来引导模型生成新候选方案,取得了不错的效果。然而,这种进化过程的有效性高度依赖于搜索策略——即如何选择和变异先前的解决方案以生成新候选。 传统方法通常采用固定的搜索策略,例如预设探索与利用的比例,这些策略在整个执行过程中保持不变。虽然在某些场景下有效,但它们往往难以适应不同任务的需求,甚至在同一任务中,随着搜索空间的变化,固定策略可能失效。 ## EvoX 的核心创新:元进化 **EvoX** 引入了一种自适应进化方法,它不仅优化候选解决方案,还同时优化用于生成这些方案的搜索策略。这意味着系统能够根据优化进展,持续更新如何选择和变异先前的解决方案,从而在过程中动态切换不同的搜索策略。 这种“元进化”机制允许 EvoX 自我调整,适应任务特性和环境变化,避免了传统方法中一刀切的局限性。研究团队强调,这种动态适应性是提升自动化发现效率的关键。 ## 性能评估与结果 在近 200 个真实世界优化任务中,EvoX 与多种现有 AI 驱动的进化方法进行了对比,包括 **AlphaEvolve**、**OpenEvolve**、**GEPA** 和 **ShinkaEvolve**。结果显示,EvoX 在大多数任务中表现更优,验证了其自适应策略的有效性。 这些任务涵盖了多个领域,如程序优化、提示工程和算法改进,表明 EvoX 具有广泛的适用性。研究团队指出,这种性能提升主要归功于其能够根据任务需求动态调整搜索策略,而不是依赖于固定的参数设置。 ## 潜在应用与行业影响 EvoX 的提出为自动化发现领域带来了新的可能性。其自适应特性使其在以下场景中具有潜在价值: - **跨领域优化**:适应不同任务和环境,减少人工调参需求。 - **动态搜索空间**:在任务执行过程中,随着搜索空间变化,自动调整策略以保持高效。 - **AI 辅助研发**:加速程序、算法和提示的迭代改进,提升研发效率。 从行业角度看,EvoX 可能推动 AI 驱动的自动化工具向更智能、更灵活的方向发展,尤其是在需要频繁适应新挑战的领域,如软件开发、数据科学和机器学习模型优化。 ## 总结 EvoX 通过元进化机制,实现了搜索策略的自适应优化,在真实世界任务中超越了现有方法。这一进展不仅展示了 LLM 与进化搜索结合的潜力,也为未来自动化发现系统提供了新的设计思路。随着研究的深入,我们有望看到更多类似技术在实际应用中落地,进一步推动 AI 技术的普及和创新。

HuggingFace3个月前原文