SheepNav

AI 资讯

每日聚合最新人工智能动态

教皇利奥十四世发布了其首部通谕《伟大的人类》,表面聚焦人工智能,实则直指更古老的问题:权力集中、民主侵蚀与技术精英的自利统治。通谕指出,由少数精英构建和治理的技术,无法服务公共利益。AI会放大已有权力者的优势,影响民主进程。教皇呼吁以“明确标准和有效监督”引导AI,并终结以“更强大算法和更大数据集”为目标的军备竞赛。这些动态早在AI之前就已存在,与1891年通谕对工业革命时期权力集中的批判一脉相承。

TechCrunch7天前原文

教皇利奥十四世在其首份重要教宗文件中警告了人工智能及不受约束的技术力量带来的风险。这份名为《伟大的人性》的宣言旨在“在人工智能时代守护人的尊严”,探讨了AI驱动的战争、AI对劳动的影响以及建立新的法律和伦理框架的必要性。 ## 核心关切:AI对人性尊严的侵蚀 教皇在通谕中将当前AI时代比作“巴别塔”,指出社会必须避免“巴别综合征”——即“以牺牲弱者为代价的利润崇拜、抹杀差异的同一性、以及认为单一语言(甚至是数字语言)能将一切(包括人的奥秘)转化为数据和表现的妄念”。他强调,AI的快速普及正在造成经济和社会动荡,而针对个人的保护措施严重不足,威胁着人类尊严。 ## 关键领域:战争、劳动与儿童保护 通谕覆盖了AI已深度嵌入的现代生活主要领域: - **AI驱动的战争**:教皇警告自主武器系统可能使战争非人化,呼吁国际社会制定严格限制。 - **劳动与失业**:AI导致的大规模岗位流失和劳动市场变革,需要新的社会保障体系。 - **儿童与AI**:儿童接触AI工具和内容的风险,亟需加强监管。 ## 呼吁:以人性为中心的技术治理 教皇利奥十四世呼吁建立“道德和社会辨别力,以守护人的首要地位”,确保“始终是人的智能——连同其良知和自由——引导技术创新,并负责任地决定其使用和界限”。这份超过42,000字的文件不仅是宗教文本,更是对全球技术治理的深刻干预。 ## 行业背景:梵蒂冈持续关注AI伦理 此次通谕延续了梵蒂冈近年来对AI伦理的关注。此前,教皇利奥十四世曾表示其教宗名字的选择部分源于对AI的关切。在科技巨头马斯克与奥特曼的法律纠纷暴露AI领导层问题的背景下,这份文件为全球AI治理提供了来自宗教伦理的独特视角。 教皇强调,技术发展必须服务于全人类,而非少数利益集团。他呼吁各国政府、科技公司和公民社会共同参与,构建保护人类尊严的法律和伦理框架。

The Verge7天前原文

阵亡将士纪念日促销季已经到来。作为一名购物编辑,我筛选出了目前最值得关注的5个优惠,涵盖智能穿戴、家电、流媒体和会员服务等领域。 ## 精选优惠一览 - **Fitbit Air**:预售价$99,节省$36,并附赠免费腕带。这款新品主打轻量级健康追踪,适合入门用户。 - **Hisense Canvas 55英寸电视**:售价$850,节省$650。这款电视以艺术画框设计为卖点,适合追求家居美学的消费者。 - **Walmart+会员**:30天试用仅需$1,可享受免费送货、燃油折扣等福利。 - **Roborock F25 Ultra洗地机**:售价$600,节省$200。支持蒸汽清洁,适合硬地板家庭。 - **Costco会员**:新会员可获赠$20或$40购物卡,具体金额视套餐而定。 ## 购买建议 这些优惠均来自可靠零售商,但需注意部分为限时活动。建议优先关注**Fitbit Air**和**Hisense Canvas TV**,折扣力度较大。Costco会员适合经常批量购物的家庭,而Walmart+试用则适合短期需求。 > 注:所有价格和优惠可能随时调整,购买前请确认最新信息。

ZDNet AI7天前原文

## 早鸟优惠已上线:苹果产品迎来纪念日大促 虽然距离阵亡将士纪念日(Memorial Day)还有一段时间,但各大零售商已经提前开启了促销模式,为苹果用户带来了多款热门产品的限时折扣。从iPad到Apple Watch,再到AirPods Max,本次优惠覆盖了苹果生态中的多个核心品类,部分型号的降价幅度甚至达到了**250美元**,堪称近期最值得入手的时机之一。 ### 热门产品折扣一览 根据ZDNET整理的信息,目前可以确认的折扣包括: - **Apple iPad Pro M5 13英寸**:降至 **$1,183**,节省 **$116**。M5芯片带来的性能提升,加上13英寸大屏,适合专业创作者和重度用户。 - **Apple iPad Air M3**:降至 **$499**,节省 **$250**。这是本次优惠中降价幅度最大的产品之一,M3芯片保证了流畅的日常使用和轻量创作,性价比突出。 - **Apple Watch Series 11**:降至 **$299**,节省 **$100**。作为最新的主力智能手表,这个价格相当有吸引力。 - **Apple Watch Ultra 2**:降至 **$549**,节省 **$250**。专为户外和运动爱好者设计,钛金属表壳和长续航是其核心卖点。 - **Apple AirPods Max 2**:降至 **$509**,节省 **$40**。虽然降价幅度相对较小,但对于高端头戴式耳机来说,仍是不错的入手机会。 ### 购买建议与注意事项 这些折扣目前主要来自**亚马逊(Amazon)**和**百思买(Best Buy)**等主流零售商,价格可能随时变动。建议有购买计划的用户尽早下单,因为热门型号(尤其是降价幅度大的iPad Air M3和Watch Ultra 2)可能很快售罄。 需要注意的是,部分折扣可能仅限特定颜色或配置,购买前务必确认产品型号和优惠条件。此外,虽然这些是“早鸟”优惠,但通常与正式促销期间的价格保持一致,不必担心后续会有更大降幅。 ### 行业背景解读 从行业角度看,苹果产品的折扣通常集中在几个节点:新品发布后的清库存、返校季以及重大节日促销。本次纪念日促销的时间点,恰好处于苹果春季新品(如M5 iPad Pro)发布后不久,因此降价主要针对前代或同期产品,旨在刺激销量并抢占假期消费份额。 对于消费者而言,这是一个平衡性能与预算的好机会。特别是**iPad Air M3**和**Apple Watch Ultra 2**,其降价幅度已接近历史最低点,实用价值很高。 **小结:** 如果你近期有升级苹果设备的打算,不妨抓住这波早鸟优惠。无论是自用还是送礼,现在的价格都具备较强竞争力。

ZDNet AI7天前原文

## 倒计时开始:Startup Battlefield 200 申请窗口即将关闭 对于早期创业者而言,这是一个不容错过的信号:**Startup Battlefield 200** 的申请截止日期为 **5月27日**。如果你正在打造一家突破性初创公司,或者认识这样的创始人,现在是行动的最后时刻。该计划为入选的200家初创公司提供 **风险投资对接、全球曝光、TechCrunch 报道以及10万美元无股权稀释奖金**。 ### 为何说这是早期创始人的“最后召唤”? Pre-A 轮创始人请注意:最强力的初创公司已纷纷入场,申请窗口正在迅速关闭。如果你的公司已被提名,请立即完成申请;最后一周通常进展极快,随着截止日前申请激增,迟交的材料容易被淹没。如果你知道某家初创公司值得关注,请立即提名,确保其在5月27日前有足够时间提交。 ### 历史证明:定义类别的公司往往始于粗糙 科技史上一些最具影响力的公司并非以华丽的融资公告起步,而是从一次路演开始。**Dropbox** 曾在满怀疑虑的观众面前演示原型;**Cloudflare** 登上舞台时,大多数人还不理解边缘网络的含义;**Discord** 当时还只是名为 Hammer & Chisel 的草根游戏初创公司。它们都经历了同一个熔炉:**Startup Battlefield 200**。这并非巧合,而是一种模式——而这一切始于一份申请。 Startup Battlefield 200 从来不是为最“精致”的公司设立的竞赛,而是为最“有前途”的公司准备的。**未发布可以,无营收也可以**。关键在于你所构建的东西是否真正改变了什么——不是渐进式的改进,而是有意义的变革。如果你或你认识的创始人正在打造有影响力的产品,那么申请本身就是第一次路演。 ### 这不仅仅是路演竞赛 Startup Battlefield 200 是发现突破性公司的地方。入选的初创公司将在 **Disrupt 舞台** 上现场展示,面对 **超过10,000名参会者**,包括顶尖风投、全球媒体和广大 TechCrunch 受众。这是你获得投资者关注、接受直接 VC 反馈、并证明你的公司属于下一代定义类别初创公司的机会。 ### 200家入选公司将获得: - **为期三天的全资展览展位**(在 Disrupt 大会上) - **团队免费通行证** - **专属路演培训** - **创始人大师班**(与行业领袖交流) ### 结语 时间不等人。5月27日之后,窗口将永久关闭。无论你的产品是刚刚起步还是已有雏形,只要你有改变行业的雄心,现在就是提交申请的最佳时机。 立即行动,也许下一个科技传奇就从这里开始。

TechCrunch7天前原文
Pavona 推出安全芯片开放硬件生态系统,从 OpenTitan“信任根”起步

在半导体与安全领域,一场由开源驱动的变革正在加速。近日,Pavona 公司正式宣布推出面向安全芯片的开放硬件生态系统,其首个核心组件基于 **OpenTitan** 项目——一个由 Google 等企业主导的开源“信任根”(Root of Trust)芯片设计。这一举措旨在打破传统安全芯片设计的封闭壁垒,推动硬件安全的透明化与可定制化。 ## 从“信任根”到开放生态 “信任根”是任何安全系统的基石,它负责在设备启动时验证固件与软件的完整性。传统上,这类芯片由少数厂商专有设计,用户难以审计其安全性。OpenTitan 作为首个开源信任根项目,已经为服务器、笔记本电脑等设备提供了可验证的硬件安全基础。Pavona 此次发布的生态系统,不仅包含 OpenTitan 兼容的硅 IP(知识产权核),还提供开发工具、参考设计以及社区协作框架,让开发者能够基于开放标准构建从 IoT 设备到数据中心的全栈安全方案。 ## 为何需要开放硬件? 与软件开源不同,硬件开源面临设计成本高、制造门槛大等挑战。但近年来,RISC-V 架构的兴起已证明开放指令集能够降低芯片设计门槛。Pavona 认为,安全芯片领域同样需要开放生态来应对日益复杂的威胁: - **透明性**:开源硬件允许安全专家审计设计中的后门或漏洞,避免“黑箱”风险。 - **灵活性**:企业可根据特定应用场景定制信任根,无需受制于单一供应商。 - **成本效益**:通过共享 IP 和协作设计,降低中小型企业的安全芯片开发成本。 ## 行业影响与未来展望 Pavona 的发布正值全球对硬件供应链安全的关注升温。从政府机构到云服务商,都在寻求可验证的、不受出口管制影响的安全方案。开放硬件生态系统有望成为这一趋势的关键推动力。 不过,开放硬件也面临长期维护与标准化挑战。Pavona 表示,将采取类似 Linux 基金会的治理模式,通过社区贡献与商业支持双轨并行,确保生态的持续演进。 ## 小结 Pavona 的开放硬件生态系统,为安全芯片领域注入了一股开源活力。从 OpenTitan 信任根出发,它有可能重塑硬件安全的设计、验证与部署流程。对于关注供应链安全与自主可控的行业而言,这无疑是一个值得长期观察的动向。

IEEE AI7天前原文
Pavona 推出开源硬件生态系统,打造安全芯片新范式

近日,一家名为 **Pavona** 的新兴企业宣布推出一个全新的开源硬件生态系统,旨在为安全芯片设计提供模块化、可复用的基础组件。该生态系统的首发核心是基于 **OpenTitan** 的“信任根”(root-of-trust)组件,标志着开源硬件在安全领域的又一次重要突破。 ## 从 OpenTitan 到 Pavona:信任根的开放之路 OpenTitan 是由 Google 等多家科技巨头共同发起的开源项目,旨在打造一个透明、可审计的信任根芯片设计。信任根是硬件安全的基础,它负责验证系统启动过程中的每一个环节,确保设备从通电起就处于可信状态。然而,OpenTitan 本身更偏向于一个参考设计,实际应用时需要大量定制工作。 Pavona 的定位正是填补这一空白。它提供了一套 **“启动套件”**,包括硬件模块、参考设计和软件工具,让开发者能够基于 OpenTitan 快速构建符合自身需求的安全芯片。这不仅降低了安全芯片的开发门槛,也使得更多中小型企业和研究机构能够参与到硬件安全创新中来。 ## 开源硬件的生态化探索 与开源软件不同,开源硬件一直面临着设计复用难、工具链不统一、验证成本高等挑战。Pavona 的做法是构建一个 **模块化的硬件生态系统**,将复杂的芯片设计拆解为可独立开发、测试和集成的功能块。开发者可以根据需要选择信任根、加密引擎、安全存储等模块,像搭积木一样组合出完整的芯片方案。 这种思路借鉴了开源软件中“包管理”和“库”的概念,但在硬件领域实现起来更为复杂。Pavona 不仅提供了模块本身,还配套了相应的 **软件驱动和验证工具**,确保不同模块之间的互操作性。这对于推动开源硬件从“爱好者玩具”走向“工业级应用”至关重要。 ## 行业意义与挑战 在当今的数字化时代,硬件安全已成为从物联网设备到数据中心服务器的刚需。然而,传统安全芯片设计往往被少数大厂垄断,且闭源的设计使得安全审计变得困难。Pavona 的开源生态系统有望改变这一局面: - **透明度提升**:开源设计允许全球安全专家共同审查,发现并修复潜在漏洞。 - **降低成本**:模块化复用减少了重复设计工作,缩短了产品上市时间。 - **促进创新**:开放的平台鼓励更多参与者贡献新模块,加速技术演进。 不过,开源硬件也面临一些现实挑战。例如,芯片制造的物理特性决定了其迭代周期远长于软件,且硬件 Bug 的修复成本极高。此外,如何确保社区贡献的模块质量、如何建立可持续的商业模式,都是 Pavona 需要解决的问题。 ## 未来展望 Pavona 的推出是开源硬件运动的一个重要里程碑。它不仅为安全芯片设计提供了新的基础设施,也可能催生出一个类似 Linux 在软件世界中的生态效应。随着更多企业和开发者加入,我们有望看到更多基于 Pavona 的定制化安全芯片出现,覆盖从智能卡到云服务器的广泛场景。 当然,这仍是一个早期项目。Pavona 团队需要持续完善工具链、吸引社区贡献,并与芯片代工厂建立合作关系,才能真正实现“让安全芯片触手可及”的愿景。对于关注硬件安全和开源生态的从业者而言,Pavona 无疑是一个值得密切跟踪的新动向。

IEEE AI7天前原文

距离 TechCrunch Disrupt 2026 早鸟优惠截止仅剩5天。**2026年5月29日晚上11:59(太平洋时间)**前注册,可享受最高**$410**的折扣,锁定旧金山 Moscone West 的入场资格。 对于创始人、投资者和运营者而言,这次大会的核心价值在于**高效连接**。传统的融资流程常卡在“触达”环节——冷邮件、错失的介绍、漫长的等待。而 Disrupt 将“访问权限”融入体验中: - **Startup Battlefield 200**:向顶级VC路演,争夺**10万美元**无股权稀释奖金。 - **Deal Flow Café**:专为投资者与创始人打造的深度对话空间。 - **精准匹配**:通过定向1对1或小组会议,与志同道合的投资者直接沟通。 - **Expo Hall 近距离接触**:将冷启动转化为现场演示和真实对话。 从“追逐注意力”转变为“锁定影响力”,你的门票还提供与一线从业者交流的机会,包括 Index Ventures 的 Nina Achadjian、Databricks 联合创始人 Arsalan Tavakoli-Shiraji、Gusto CEO Josh Reeves 等。 **关键提醒**:早鸟折扣仅剩5天,5月29日后价格将上调。立即注册,在融资周期中抢占先机。

TechCrunch7天前原文
重拾“社会工程”:为何我们不能修复拒绝命名的问题

“社会工程”一词,在当今网络安全语境下,几乎成了“恶意操纵”的代名词。然而,系统工程师、**《棘手问题:如何工程化一个更美好的世界》**作者 **Guru Madhavan** 在 IEEE Spectrum 发表观点文章,呼吁我们重新审视这一概念,将其从贬义中剥离,恢复其作为解决复杂社会问题工具的本意。 ### 被污名化的术语 社会工程(Social Engineering)原本指运用社会科学原理来设计社会制度、流程和行为,以达成积极的社会目标。然而,随着网络钓鱼、电话诈骗等攻击手段的泛滥,“社会工程师”几乎等同于“黑客”或“骗子”。这种语义窄化导致一个严重后果:我们丧失了描述和设计有益社会干预措施的语言。Madhavan 指出:“**如果我们不能命名它,就无法修复它。**” ### 为何需要“好的社会工程” 现代社会面临诸多“棘手问题”(Wicked Problems)——气候变化、公共卫生、社会不平等——这些问题没有简单的线性解决方案,往往需要跨学科协作和对人类行为的深刻理解。这正是社会工程可以发挥价值的地方。例如,通过设计更直观的公共空间引导人流、优化税收表单提高合规率、或利用行为经济学鼓励节能行为,这些都是社会工程的应用。 ### 从对抗到协作 在网络安全领域,社会工程常被视为需要防御的威胁。但 Madhavan 主张,我们也可以主动运用其原理来增强系统韧性。例如,设计更人性化的安全提示、通过“助推”鼓励用户设置强密码、或在组织内部建立安全文化。这些做法本质上都是社会工程,却因术语的负面联想而被忽视。 ### 回归工程本质 工程的核心是解决问题。Madhavan 认为,拒绝承认社会工程的建设性用途,无异于放弃了一种强大的方法论。他呼吁学术界和业界重新定义这一术语,区分“恶意社会工程”和“建设性社会工程”,并鼓励工程师与社会科学家的合作。 ### 小结 “社会工程”不应成为禁忌词。通过重拾其原本含义,我们不仅能为解决复杂社会问题提供新思路,还能在网络安全等传统领域开辟出从对抗转向协作的新路径。正如 Madhavan 所言:**“我们无法修复拒绝命名的问题。”** 重新命名,是解决问题的第一步。

IEEE AI7天前原文

近年来,即插即用太阳能系统(也称为阳台太阳能)在可持续能源爱好者中越来越受欢迎。这类系统通常包括太阳能板、逆变器和一个小型电池,可以直接插入家中的标准120伏插座,为附近的电器供电,而无需专业安装或屋顶改造。然而,在美国,这种便捷的能源解决方案目前仅在犹他州合法,该州允许功率不超过1200瓦的小型系统即插即用。 为什么即插即用太阳能尚未普及?核心原因在于美国电力监管体系并非为这种即插即用式设计而建。传统电网要求严格的许可、检查和保险流程,以确保安全和公平。即插即用系统虽然降低了门槛,但也带来了电力逆流、电网稳定性和电费计量等复杂问题。因此,各州需要时间修订法规,以适应这一新技术。 对于消费者而言,即插即用的主要优势在于成本和易用性。无需专业安装和繁琐的许可手续,用户可以自行在阳台、庭院或露台上部署,系统功率通常在200瓦到1800瓦之间,适合减少部分电费,但无法完全替代电网供电。Wolf River Electric的太阳能专家Justin Nielsen指出,历史上太阳能采用与房屋所有权挂钩,但如今超过三分之一的美国人租房居住,尤其是在城市地区,可持续需求更为迫切。即插即用太阳能为租户和没有合适屋顶的居民提供了可行的替代方案。 随着更多州开始关注这一趋势,未来几年法规可能会逐步放宽。如果您正在考虑加入即插即用太阳能的行列,建议密切关注所在州的立法动态,并了解当地电网的并网要求。

ZDNet AI7天前原文
AI时代催生漏洞猎捕军备竞赛

十年前,奖励研究人员提交软件漏洞的“漏洞赏金”计划才刚刚兴起。如今,随着AI代理自主识别漏洞并开发利用工具的能力增强,漏洞披露领域正经历剧烈变革。独立安全研究员Joseph Thacker表示,他今年提交的漏洞数量是去年的三倍,并预计Google等公司今年在漏洞奖励上的支出将是去年的2到10倍。然而,这种“丰收”背后是供需关系的重塑:AI工具大幅降低了发现中低难度漏洞的门槛,导致赏金计划被淹没,而真正的高价值漏洞可能因此涨价。对于大多数无力承担高额支出的公司,压力尤为显著。与此同时,攻击者也在利用AI加速漏洞利用开发,这可能迫使90天披露窗口等传统标准被压缩。Thacker指出,目前AI代理已能发现“中低垂果实”,但明年这类提交将减少,因为许多漏洞已被提前挖出,部分公司可能被迫提高赏金。业界尚不确定长期供需动态,但可以预见的是,漏洞猎捕正从人工主导转向人机协作,这既提升了效率,也加剧了安全团队与攻击者之间的军备竞赛。

WIRED AI7天前原文

在最近的Google I/O大会上,谷歌展示了即将推出的Android Auto更新,包括全新的Material 3 Expressive界面、沉浸式导航、自定义小部件以及Gemini AI集成等功能。作为长期用户,体验后我反而对现有车辆的内置系统感到失望。 ### 更智能的界面与个性化 Android Auto将采用**Material 3 Expressive设计**,界面更圆润、色彩更协调,整体更像Android平板而非简单分屏。最引人注目的是**自定义小部件**:用户可以通过提示词生成专属小部件,例如天气小部件会直接显示是否适合跑步或骑行。谷歌员工演示时,一个天气小部件清晰指示了户外活动适宜度,而我更期待它能总结通勤路况并推荐沿途面包店。 ### 沉浸式导航与多任务体验 新版本支持**三面板布局**,可同时显示地图、智能家居控制和视频播放器。视频播放器在车辆行驶时会自动最小化为音频模式,确保安全。沉浸式导航让地图显示更立体,路况信息更直观。 ### Gemini AI深度集成 Android Auto将整合**Gemini AI**,支持自然语言交互。例如,你可以说“帮我找一条避开拥堵的路线,并在途中停靠一家咖啡店”,系统会自动规划行程。此外,AI还能根据驾驶习惯预测目的地并提前调整设置。 ### 对现有车辆的“恐惧” 体验完这些功能后,我对自己的旧车感到沮丧——它缺乏AI加持的智能体验。Android Auto的更新不仅提升了驾驶便利性,更重新定义了人车交互。预计这些功能将在今年晚些时候推送。

ZDNet AI7天前原文

## 研究背景 在结构化输出的语言模型生成中,最大softmax概率(MSP)是评估不确定性量化的默认方法。尽管计算成本低,但MSP往往校准不良。现有方法通过探测模型内部激活,将原始隐藏状态输入不透明分类器,将激活视为静态快照,忽略了表示形成的逐层轨迹。然而,相似的终点可能源于截然不同的路径,证据在各层间如何积累、增强或逆转,可能揭示出最终概率所掩盖的不确定性。 ## 方法创新 该研究提取了**11种尺度不变的几何特征**,追踪每层MLP更新的累积路径,并将其输入**稀疏线性探针**。这些特征具有封闭形式的几何意义,使得探针的系数能够揭示误差在深度上的形成过程——哪些层过早做出决定,哪些层与运行状态矛盾,以及轨迹何时偏离终点。 ## 实验结果 在选择性弃权(selective abstention)场景下,该探针显著优于MSP,性能提升幅度与基线校准误差成正比,**最高可达21个AURC点**。这表明,通过分析语言模型的内部轨迹,可以有效提高不确定性估计的校准度。 ## 行业意义 这项研究为语言模型的可信度评估提供了新视角。传统方法依赖最终输出概率,但忽略了推理过程中的动态变化。通过几何特征揭示的路径信息,不仅能提升不确定性量化精度,还能帮助理解模型何时犯错,为模型调试和安全性应用提供支持。未来,该方法可能集成到更复杂的校准框架中,推动语言模型在医疗、金融等高风险领域的可靠部署。

HuggingFace7天前原文

近日,一篇发表在 arXiv 上的论文提出了一种名为 **ManiF-SMC**(Manifold Forgetting with Self Mode Connectivity)的新型机器反学习方法,旨在更有效地实现“被遗忘权”。机器反学习的目标是从已训练好的模型中删除特定数据的影响,但现有方法往往效果有限,且可能破坏原始学习目标。ManiF-SMC 通过将反学习问题重新定义为在表示空间中推动被遗忘样本远离其原始流形中心,并利用自模式连通性自适应生成边界,实现了与重训练等效的反学习效果。 ## 核心问题:现有反学习方法的局限 当前大多数反学习方法依赖于标签操作或任务梯度反转,但这些方式存在明显缺陷: - **反学习效果有限**:难以彻底消除目标数据的影响。 - **破坏原有模型性能**:可能损害模型在剩余数据上的表现。 - **不等价于重训练**:无法保证与从头训练(在移除数据后)的模型行为一致。 ## ManiF-SMC 的创新思路 研究团队观察到,在剩余数据上重训练的模型倾向于根据语义相似性对已删除样本进行分类。基于此,他们提出将近似反学习重新定义为:**将每个被遗忘样本从其原始学习的流形表示中心,推向保留数据中与其最相似的语义邻居**。这一操作完全在表示空间中进行,减少了对标签和任务特定梯度的依赖。 具体而言,ManiF-SMC 采用**基于边界的三元组损失**来同时实现反学习和表示保留目标。然而,为每个反学习案例找到合适的边界极具挑战。为此,论文引入**自模式连通性模块**,能够快速重建局部流形,从而为每个反学习案例生成自适应的边界。 ## 实验验证与性能 在四个代表性数据集上的大量实验表明,ManiF-SMC 在仅操作模型表示空间的情况下,**反学习效果可与最先进的近似方法相媲美**,同时保持了对原始任务的性能。该方法为机器反学习提供了一条不依赖标签和梯度反转的新路径,具有重要的理论与应用价值。 ## 意义与展望 随着数据隐私法规(如 GDPR)的推行,机器反学习成为保障用户“被遗忘权”的关键技术。ManiF-SMC 的提出不仅提升了反学习的有效性,还通过纯表示空间操作降低了实现门槛。未来,该方法有望应用于联邦学习、推荐系统等需要动态删除用户数据的场景。

HuggingFace7天前原文

arXiv:2605.22872v1 Announce Type: new Abstract: Experienced physicians develop diagnostic expertise through clinical practice, acquiring not only disease knowledge but also the ability to differentiate confusable conditions. Current medical vision-language models (VLMs) lack this capability -- their parameters encode static knowledge that does not evolve across diagnostic encounters. We propose MedExpMem, an experience memory framework enabling VLM-based diagnostic agents to accumulate different

HuggingFace7天前原文

## 研究背景:文本通信的瓶颈 当前 LLM 智能体之间的通信依赖于文本,这一过程涉及将发送方模型的状态进行自回归解码,再由接收方模型重新编码,导致显著的延迟和信息损失。为突破这一瓶颈,**Cache-to-Cache (C2C)** 等方法尝试直接交换 KV 缓存,通过学习适配器将发送方的键值矩阵映射到接收方。然而,C2C 的适配器体积庞大、训练成本高昂,且只能逐 token 翻译,要求双方上下文完全一致,这在实际智能体通信中几乎无法满足。 ## LCF 方法:高效压缩与异构上下文处理 针对上述问题,研究者提出了 **Latent Cache Flow (LCF)**。其核心创新在于两点: - **联合压缩翻译**:LCF 将键(Keys)和值(Values)进行联合翻译与压缩,使得适配器规模仅为 C2C 的 **4%**(约 13 MB vs 956 MB),大幅降低了存储和训练开销。 - **上下文差异处理**:LCF 适配器并非翻译整个缓存,而是仅传输目标模型尚未拥有的“新信息摘要”,从而有效应对双方上下文不同的场景。 ## 实验表现:精度与速度双提升 在共享上下文设置下,**13 MB 的 LCF 适配器** 的准确率超过了 **956 MB 的 C2C 适配器**;而在上下文不同的场景中,LCF 相比传统文本通信方式,准确率提升 **23%**,速度提升 **8.5 倍**。 ## 意义与展望 LCF 提出了一种轻量级、高效的模型间直接通信方案,有望替代冗长的文本交互,为多智能体协作、分布式推理等场景提供新的技术路径。不过,目前该研究仍处于早期阶段,更大规模模型和更复杂任务上的表现有待进一步验证。

HuggingFace7天前原文

## 微调新范式:FuRA 如何用全秩更新兼顾效率与性能? 在大型预训练模型(如 LLM 和 VLM)的微调中,全参数微调(Full FT)和参数高效微调方法(如 LoRA)各有利弊。Full FT 虽能保留完整更新空间,但容易因微调数据中的噪声破坏预训练学到的稳健特征;LoRA 等低秩方法虽然参数高效,却限制了模型的表达能力。 最新研究 **FuRA(Full-Rank Adaptation)** 试图打破这一困局。其核心洞察在于:**谱预条件(Spectral Preconditioning)** 是此前被忽视的关键。具体而言,FuRA 通过对每个权重矩阵进行全秩奇异值分解(SVD),冻结其中一个奇异基向量,从而将更新约束在预训练列空间内,实现了在相同可训练参数数量下优于无约束 Full FT 的优化方案。 ### 技术细节:块张量列车分解与全秩更新 FuRA 的架构基于一种高效的**块张量列车分解**: $$W = L S R$$ 其中,大型核心矩阵 $L$ 被固定为预训练的块状 SVD 基,而仅优化紧凑核心 $R$ 和块状奇异值 $S$。这种设计同时带来了三大优势: 1. **全秩谱预条件**:通过冻结 $L$ 保留预训练空间的谱结构,避免噪声干扰。 2. **全秩更新表达能力**:$R$ 和 $S$ 的组合仍能实现全秩更新,不损失模型容量。 3. **参数与计算效率**:参数量、内存占用和每步训练时间均与 LoRA 相当,具有实际部署可行性。 ### 实验表现:全面超越 Full FT 与 LoRA 研究者在多个场景中验证了 FuRA 的有效性: - **LLM 微调**:在 **LLaMA-3-8B** 模型的常识推理任务上,FuRA 比 Full FT 平均提升 **+1.37** 个点。 - **数学推理强化学习**:在基于强化学习的数学推理微调中,FuRA 同样表现更优。 - **视觉指令微调**:针对 VLM(视觉语言模型)的视觉指令微调,FuRA 也取得了更好的结果。 此外,FuRA 的 4-bit 量化版本 **QFuRA** 也超越了 QLoRA 的性能,表明该方法在低精度场景下同样有效。 ### 行业意义:效率与性能的平衡点 当前 AI 模型微调领域,Full FT 因计算成本高、易过拟合而逐渐被 LoRA 等 PEFT 方法取代,但 LoRA 的低秩假设在某些任务上存在性能瓶颈。FuRA 提供了一种新的折中方案:**通过巧妙的参数化设计,在保持与 LoRA 相当的效率的同时,实现了全秩更新的表达能力,甚至超越了 Full FT 的性能**。 对于需要部署大规模模型的企业和研究者而言,FuRA 具有重要参考价值。它不仅适用于 LLM,还扩展到 VLM 等更复杂的多模态模型。代码已开源,感兴趣的读者可以进一步探索。

HuggingFace7天前原文

## 核心发现:推理不是任务属性,而是动态解码状态 Chain-of-Thought(CoT)推理已成为提升大语言模型(LLM)能力的默认策略,但其有效性并非普适。最新研究揭示了一个矛盾现象:在事实性问答或开放式生成任务中,CoT不仅收益甚微,甚至可能拖累性能,同时显著增加token消耗。针对这一“推理悖论”,来自北京大学的魏晓、王浩庆、邓志鸿和唐烨辉等研究者提出了一种全新视角——将LLM推理视为一种**动态解码状态**,而非任务或模型的固有属性。 ## 熵动力学:预测推理收益的信号 研究团队通过系统分析发现,**解码早期的熵变化轨迹**是判断当前任务是否适合CoT的关键信号。具体而言,那些能从CoT中受益的任务,其熵值在解码初期呈现**持续下降**趋势;反之,若熵值不稳定或上升,则CoT往往无效甚至有害。这一现象可类比为**相变**:从高熵的“探索”状态切换到低熵的“结构化推理”状态。 ## EDRM框架:轻量级、免训练的路由机制 基于上述洞察,研究者提出了**EDRM(Entropy Dynamics-based Reasoning Manifold)**,一种无需额外训练的路由框架。EDRM通过将早期解码的熵轨迹嵌入到一个紧凑、可解释的流形表示中,实现零样本部署和细粒度的实例级自适应推理策略选择。 ## 实验结果:效率与精度双赢 在**15个基准测试**和**4种不同规模与架构的LLM**上,EDRM均优于静态基线方法。在数据集级别,仅需**50个校准样本**,EDRM即可实现**41%–55%的token缩减**,同时提升准确率;在实例级别,它能在保持**27%–45% token节省**的前提下,将准确率进一步提升**最高4.7%**。 ## 行业启示:选择性推理优于默认推理 这项研究不仅提供了实用的推理路由工具,更从根本上挑战了“CoT对所有任务都有益”的默认假设。它提示我们,在LLM推理中引入**动态控制机制**,根据任务特性按需调用推理能力,是提升效率与效果的关键方向。对于AI工程化部署而言,EDRM的轻量级特性(无需训练、低样本需求)使其具有极高的实用价值。

HuggingFace7天前原文

随着自主系统和智能工业部署日益将计算分散到近传感器、边缘和云资源之间,能源、延迟和可靠性的严苛预算要求系统具备运行时自适应性。然而,当多模态传感器套件(摄像头、LiDAR/深度等)在边缘端激增时,多数现有方法要么在强大服务器上融合模态,要么应用忽略跨模态依赖的单模态近传感器过滤,导致冗余传输或事件遗漏。为此,研究者提出了 **FusionSense**——一种面向能源受限自主边缘系统的融合感知智能传感框架。 ## 核心方法:三阶段训练 FusionSense 通过一个三步流程训练轻量级近传感器分类器: 1. **服务器端融合模型学习下游任务**:首先在服务器上训练一个融合模型,充分捕捉多模态数据的联合特征。 2. **生成“过滤安全”标签**:量化每个模态相对于融合决策的必要性,确定哪些模态在特定场景下可以安全过滤。 3. **压缩边缘端融合模型**:将近传感器预测作为辅助信号注入,实现模型轻量化。 最终得到一个运行时决策层,能够协同减少计算和通信开销,且计算量随传感器数量线性增长。 ## 性能表现:能效与质量双赢 在基于 SynDrone 数据集的 **RGB+深度/LiDAR** 双模态实验中,FusionSense 展现出显著优势: - 在 **1% 兴趣帧(FoI)出现率** 下,能耗降低 **33 倍**; - 在 **10% FoI 出现率** 下,能耗降低 **11 倍**; - 在固定 **30% 数据缩减率** 下,质量损失减少 **92.3%**; - 能效提升比最佳过滤基线高出约 **1.5 倍**。 ## 行业意义与展望 FusionSense 解决了边缘多模态智能中一个关键痛点:如何在有限资源下实现高效融合。其创新在于将融合意识提前到近传感器阶段,避免了传统“先传输后融合”的冗余。该工作已被 **ISLPED 2026** 接收,为自主无人机、工业物联网等场景提供了实用的能效优化方案。未来,随着传感器数量增加,这种线性扩展的方法将更具吸引力。

HuggingFace7天前原文

思维链(Chain-of-Thought,CoT)提示被广泛认为能提升小语言模型的算术推理能力,但最新研究揭示了一个令人意外的现象:**模型在读取答案时,主要依赖的是“位置复制”捷径,而非真正的逻辑推理**。来自 arXiv 的论文《The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models》通过精细实验,揭开了这一机制的面纱。 ## 关键发现:位置胜过逻辑 研究者对三个 1B-3B 参数规模的指令微调模型(在 GSM8K 数据集上)进行了测试。他们采用前缀补全任务,将答案读取阶段与中间推理步骤分离。结果发现:**模型在回答算术问题时,倾向于直接复制位于答案分隔符之前的最后一个数字**,无论这个数字是否来自正确的推理过程。 具体数据令人震惊: - **正确数字的存在** 贡献了 54-92 个百分点的准确率(占模型教师强制上限的 89-92%)。 - 即使在错误推理步骤中,最终答案与 CoT 最后数字匹配的概率高达 **95-96%**。 ## 复制机制压倒上下文理解 进一步实验表明,这一复制通道的优先级远高于基于上下文的推理补全。当研究者将 CoT 中的最后一个数字替换为错误值时,模型准确率骤降至接近零——即使中间推理步骤完全正确。相反,如果移除该数字,准确率反而能回升 5-32 个百分点。更值得注意的是,**即使是模型本身能够完成的单步算术,在存在可复制数字时也会被抑制**。 ## 模型间的差异与共性 不同模型表现出细微差异: - **Qwen 和 Llama** 几乎无条件复制干扰数字(87-95% 的情况)。 - **Gemma** 则表现出一定的选择性门控机制。 通过头部消融实验,研究者发现这一捷径与特定架构的注意力头集合相关,并且该效应在 GSM-Symbolic 数据集上得到复现。 ## 对非算术任务及更大模型的影响 有趣的是,在非算术的 Big-Bench Hard(BBH)任务上,CoT 步骤打乱后的性能下降明显——说明位置复制主要针对算术场景。而在 7B-8B 参数规模的模型中,内容选择性门控机制开始出现,表明**模型规模增大后可能逐步摆脱这种捷径**。 ## 对 CoT 监督的警示 这一发现对基于 CoT 的模型监督和安全性评估提出了严峻挑战:**步骤级别的忠实度评估可能将位置驱动的答案传输误认为真正的计算过程**。这意味着,当前许多依赖 CoT 可解释性的方法可能高估了模型的内在推理能力。 ## 总结与展望 该研究揭示了小语言模型在算术推理中的一种“偷懒”策略:与其进行复杂的逻辑推导,不如直接复制位置合适的数字。这不仅解释了为什么打乱 CoT 步骤对性能影响较小,也提醒研究者需要重新审视 CoT 提示的真正作用机制。未来,如何设计训练方法和评估指标来抑制这种捷径,将是提升模型推理真实性的关键方向。

HuggingFace7天前原文