SheepNav

AI 资讯

每日聚合最新人工智能动态

来源:OpenAI清除筛选 ×

## OpenAI如何构建智能体运行时环境 OpenAI宣布通过将**Responses API**与**shell工具**和**托管容器工作空间**相结合,构建了一个完整的智能体运行时环境,标志着从单一任务模型向复杂工作流智能体的重要转变。 ### 为什么需要计算机环境? 当前AI应用正从使用擅长特定任务的模型,转向能够处理复杂工作流的智能体。仅通过提示模型只能访问其训练过的知识,但赋予模型一个计算机环境可以解锁更广泛的应用场景,例如运行服务、从API请求数据,或生成电子表格、报告等实用成果。 然而,构建智能体面临几个实际问题: - 中间文件存放在哪里? - 如何避免将大型表格粘贴到提示中? - 如何为工作流提供网络访问而不引发安全担忧? - 如何在不自行构建工作流系统的情况下处理超时和重试? ### Responses API的增强方案 OpenAI的解决方案不是让开发者自行构建执行环境,而是为Responses API配备必要的组件,使其能够可靠地执行现实世界任务。核心架构包括: 1. **Responses API**:作为智能体的核心接口,负责接收指令并协调执行。 2. **Shell工具**:实现紧密的执行循环——模型提出读取文件或通过API获取数据等操作,平台运行该操作,结果反馈到下一步。 3. **托管容器工作空间**:提供隔离的执行环境,具备文件系统用于输入输出、可选的SQLite等结构化存储,以及受限制的网络访问。 ### 智能体工作流的执行机制 一个高效的智能体工作流始于紧密的执行循环。模型提出动作建议,平台在隔离环境中运行,结果用于后续步骤。以shell工具为例,它展示了模型如何使用工具的一般原理: - 在训练期间,模型通过逐步示例学习工具的使用方法和效果。 - 当模型“使用工具”时,实际上只是提出工具调用建议,无法自行执行调用。 - 平台负责安全地执行这些调用,确保操作可控且结果可追溯。 ### 早期经验与行业意义 OpenAI分享的初步经验表明,这种环境能够实现更快、更可重复且更安全的生产工作流。对于AI行业而言,这代表着一个关键演进: - **降低开发门槛**:开发者无需从零构建复杂的基础设施,即可部署具备实际交互能力的智能体。 - **提升应用范围**:从简单的文本生成扩展到数据处理、自动化报告生成等实际业务场景。 - **强化安全可控**:通过隔离环境和受限网络访问,平衡功能性与安全性需求。 随着智能体逐渐成为AI应用的主流形态,OpenAI的这一举措可能推动更多企业采用类似架构,加速AI在复杂任务中的落地进程。

OpenAI25天前原文

全球领先的家居用品零售商 Wayfair 近期宣布,通过将 OpenAI 模型深度集成到其核心运营系统中,显著提升了供应商支持流程的效率和产品目录的数据质量。这一举措不仅实现了大规模自动化,还优化了涉及数千万产品的复杂零售工作流。 ## 从试点到全面生产:AI 驱动的运营革新 Wayfair 并非将生成式 AI 视为一次性的实验或孤立解决方案,而是选择将其嵌入到核心业务流程中。公司最初在复杂度和规模需求最高的领域进行试点:供应商支持请求的路由与解决,以及对约 **3000 万件商品** 目录中数万种产品属性进行一致性优化。自 2024 年小规模测试验证价值后,该系统已发展为全面的生产系统,有效减少了人工工作量,加速了决策过程,并提升了海量产品的数据质量。 ## 规模化解决目录质量挑战 Wayfair 的目录团队管理着近千个不同产品类别下的数千万件商品。准确且一致的产品属性标签(如颜色、材质、尺寸或特定功能)对于搜索、推荐和商品陈列至关重要。 > “我们的数据质量越高,与客户建立的信任就越深。这至关重要,因为它能帮助购物者做出正确的购买决策,从而直接减少因产品信息不实导致的高成本下游问题,如退货。”——Wayfair 目录商品管理副总监 Jessica D'Arcy 在引入 OpenAI 之前,标签改进主要依赖供应商和客户反馈问题。人工处理难以应对庞大的数据量。早期为单个标签定制的 AI 模型虽然有效,但构建和维护成本高昂。 Wayfair 的机器学习科学家 Carolyn Phillips 指出:“我们最初为单个标签构建定制模型,技术上可行。但面对 **47,000 个标签** 时,这种方法根本无法规模化。” ## 构建可复用的 AI 架构 为了突破一次性模型的局限,Wayfair 创建了一个基于单一 OpenAI 模型的“标签无关”系统。该系统通过一个“定义代理”来吸收网络和内部定义,为每个标签生成上下文含义。 Phillips 强调:“真正的瓶颈并非模型性能,而是如何构建一个能灵活处理海量、多样化标签的通用架构。”这种架构转变使得 Wayfair 能够以统一、高效的方式处理数百万产品的属性更新,而无需为每个标签单独开发模型,大幅降低了技术复杂度和运营成本。 ## 对行业的意义与启示 Wayfair 的案例展示了生成式 AI 在零售和电商领域的深层应用价值: - **运营效率提升**:自动化票务分类和属性管理,释放人力资源。 - **数据质量飞跃**:通过 AI 确保产品信息的一致性与准确性,增强用户体验和信任度。 - **规模化能力**:可复用的 AI 架构解决了海量数据处理难题,为行业提供了可借鉴的技术路径。 这不仅是技术集成,更是通过 AI 重塑核心工作流,实现降本增效与质量控制的典范。

OpenAI25天前原文

## 指令层级:AI安全部署的核心挑战 在当今的AI系统中,模型经常需要处理来自多个来源的指令——系统消息中的安全策略、开发者的产品指导、用户的请求,以及从在线数据中获取的信息。当这些指令发生冲突时,模型必须决定哪些指令应该被优先遵循。如果模型错误地将不可信的指令视为权威,就可能导致违反政策、泄露隐私或执行恶意操作等安全问题。 OpenAI的研究团队指出,许多AI安全和可靠性问题的根源在于**指令层级(instruction hierarchy)的失效**。当模型无法正确区分指令的信任级别时,就可能出现以下情况: * 用户请求被禁止的内容时,模型未能拒绝 * 在线数据中嵌入的提示注入攻击被模型执行 * 开发者意图与用户请求冲突时,模型做出错误判断 ## IH-Challenge:专门训练指令层级的数据集 为了解决这一问题,OpenAI推出了**IH-Challenge**——一个专门设计用于强化指令层级能力的训练数据集。该数据集的核心目标是训练模型根据指令的信任级别进行优先级排序,从而提升以下几个关键安全属性: 1. **安全可操控性(safety steerability)**:模型对系统提示中的安全规范更加敏感和响应 2. **提示注入攻击鲁棒性**:模型能够更好地抵抗嵌入在工具输出中的恶意指令 3. **指令冲突处理能力**:在多重指令冲突场景下做出符合安全策略的决策 ## OpenAI的指令层级框架 根据OpenAI Model Spec中概述的原则,OpenAI模型的指令层级遵循明确的优先级顺序: **系统指令 > 开发者指令 > 用户指令 > 工具输出** 这意味着: * 当系统消息包含安全政策而用户请求违反该政策时,模型应该拒绝用户请求 * 当工具输出包含恶意指令时,模型应该忽略这些指令而不是将其视为命令 * 只有在不违反更高优先级约束的情况下,模型才应该遵循较低优先级的指令 ## 大规模指令层级训练的挑战与解决方案 虽然强化学习似乎是教授指令层级的自然选择,但OpenAI的研究表明,大规模实施这种训练面临独特挑战。传统的训练方法可能无法充分模拟现实世界中复杂的指令冲突场景,或者难以平衡不同优先级指令之间的权衡。 IH-Challenge通过精心设计的任务来解决这些挑战,这些任务专门训练模型识别和处理指令冲突。通过在这些任务上进行训练,模型学会了: * 识别不同来源指令的信任级别 * 在冲突情况下坚持更高优先级的约束 * 即使在面对精心设计的攻击时也能保持安全边界 ## 对AI行业的意义与影响 这项研究对AI安全部署具有深远意义。随着AI系统在更多关键领域得到应用,确保模型能够可靠地遵循正确的指令层级变得至关重要。IH-Challenge不仅提升了模型的安全性能,还为整个行业提供了一个可借鉴的框架: * **为AI安全研究提供新方向**:指令层级训练可能成为未来模型安全训练的标准组成部分 * **增强企业级AI部署的信心**:更可靠的指令处理能力使AI系统更适合在敏感环境中使用 * **推动行业标准发展**:OpenAI的指令层级框架可能影响其他AI开发者的安全实践 ## 展望未来 IH-Challenge的推出标志着AI安全研究从单纯的内容过滤向更复杂的指令理解和管理迈进。随着模型能力的不断提升,确保它们能够正确理解和执行多层次、多来源的指令将成为AI安全的核心课题。这项研究不仅解决了当前的安全挑战,也为未来更复杂、更自主的AI系统奠定了安全基础。 对于开发者和企业用户而言,这意味着他们可以更自信地部署AI系统,知道这些系统能够更好地理解和遵循安全策略,即使在面对恶意攻击或意外冲突时也能保持可靠的行为。

OpenAI26天前原文

## ChatGPT 推出数学与科学互动可视化学习功能 2026年3月10日,OpenAI 宣布在 ChatGPT 中推出全新的**互动可视化学习功能**,旨在帮助全球学生更直观地理解数学和科学概念。这一功能将覆盖超过 **70 个核心数学与科学主题**,允许用户实时调整公式、变量,并观察图表和结果的变化,从而将抽象概念转化为可实验的直观体验。 ### 功能亮点:从抽象到直观 传统数学与科学学习常因概念抽象而令人望而生畏。根据一项盖洛普调查,超过一半的美国成年人表示在数学方面存在困难,许多家长也缺乏辅导孩子学习的信心。ChatGPT 的新功能正是针对这一痛点设计。 当用户询问核心主题时,ChatGPT 不仅能提供文字解释,还会呈现一个**互动视觉模块**。例如,用户可以: - 调整公式中的变量,即时看到图形如何变化 - 探索物理定律(如理想气体定律 PV=nRT)中参数的关系 - 通过拖拽操作理解几何定理(如勾股定理)的推导过程 这种“动手实验”式的学习方式,让学习者能够主动探索概念背后的逻辑关系,而非被动接受信息。 ### 教育价值:强化概念理解 研究表明,基于视觉和互动的学习方式,对许多学生而言,比传统教学更能促进深层次的概念理解。当学习者可以操纵变量并即时看到效果时,他们更容易内化数学和科学概念之间的关系。 一位高中数学教师 Anjini Grover 评价道:“这个功能最突出的是它强调概念理解。学习数学时,理解为什么某个原理成立、以及不同想法如何连接,有助于概念长期留存。我特别欣赏它不止步于回答原始问题,而是主动提示你扩展思维,探索更深层的联系。” ### 使用场景与示例 新功能适用于多种学习场景: - **课后复习**:学生可以重新探索课堂中难以理解的概念 - **作业辅助**:在解题过程中实时验证思路 - **考前准备**:通过互动模块巩固关键知识点 - **兴趣探索**:自主研究感兴趣的数学或科学主题 用户只需向 ChatGPT 提问即可触发互动模块,例如: - “帮我理解勾股定理” - “解释 PV=nRT 如何工作” - “如何计算圆的面积?” - “解释二项式平方公式” ### 行业背景与意义 在 AI 教育工具竞争日益激烈的背景下,ChatGPT 此举进一步巩固了其作为综合性学习助手的地位。每周已有 **1.4 亿人**使用 ChatGPT 学习数学和科学概念,新功能的推出有望提升用户粘性和学习效果。 相比于单纯提供答案,互动可视化功能更注重**探究过程**,这符合现代教育理念中“以学生为中心”的导向。它不仅是答案生成器,更是思考催化剂。 ### 小结 ChatGPT 的互动可视化学习功能,标志着 AI 教育工具从**信息提供**向**体验构建**的演进。通过将抽象概念具象化,它降低了学习门槛,让更多人能够以直观、有趣的方式探索数学与科学的奥秘。这一功能现已面向全球所有订阅计划开放,预计将深刻影响未来的自主学习模式。

OpenAI26天前原文

## OpenAI 收购 Promptfoo:加速企业级 AI 安全与评估能力 2026 年 3 月 9 日,OpenAI 宣布将收购 **Promptfoo**,这是一家专注于 AI 安全平台的初创公司,旨在帮助企业识别和修复 AI 系统在开发过程中的漏洞。收购完成后,Promptfoo 的技术将直接集成到 **OpenAI Frontier** 平台中,这是 OpenAI 用于构建和运营 AI 协作伙伴(AI coworkers)的核心平台。 ### 收购背景与动机 随着企业将 AI 协作伙伴部署到实际工作流程中,评估、安全和合规性已成为基础性需求。企业需要系统化的方法来测试代理行为、在部署前检测风险,并维护清晰的记录,以支持长期的监督、治理和问责。Promptfoo 的团队由 Ian Webster 和 Michael D’Angelo 领导,已开发出一套强大的工具套件,被超过 **25% 的《财富》500 强公司** 所信任,同时还提供了一个广泛使用的开源 CLI 和库,用于评估和红队测试 LLM 应用程序。 OpenAI B2B 应用首席技术官 Srinivas Narayanan 表示:“Promptfoo 在企业规模评估、保护和测试 AI 系统方面拥有深厚的工程专业知识。他们的工作帮助企业部署安全可靠的 AI 应用,我们很高兴将这些能力直接引入 Frontier。” ### 技术集成与核心能力提升 收购后,OpenAI 计划在 Frontier 平台上为构建代理的企业增强以下核心能力: - **平台内置安全与安全测试**:自动化的安全测试和红队测试能力将成为 Frontier 平台的原生部分,帮助企业识别和修复风险,如提示注入、越狱、数据泄露、工具滥用和超出策略的代理行为。 - **开发工作流中的安全与评估集成**:Frontier 将深度集成到识别、调查和修复代理风险所需的工作流程中,使安全成为企业 AI 系统开发和运营的核心部分。 - **监督与问责**:集成的报告和可追溯性将帮助组织记录测试、监控随时间的变化,并满足日益增长的 AI 治理、风险和合规性期望。 ### 行业影响与未来展望 Promptfoo 的创始人表示,他们创立公司的初衷是因为开发者需要一个实用的方法来保护 AI 系统。随着 AI 代理越来越多地连接到真实数据和系统,安全性变得至关重要。此次收购不仅强化了 OpenAI 在企业级 AI 安全领域的布局,还可能推动整个行业对 AI 安全测试标准的重视。 OpenAI 承诺将继续构建开源项目,同时推进 Frontier 内的集成企业能力。这显示了 OpenAI 在平衡开源创新与商业应用方面的战略考量。 ### 小结 OpenAI 收购 Promptfoo 是其在 AI 安全领域的重要一步,旨在通过技术集成提升 Frontier 平台的企业级安全能力。随着 AI 应用的普及,此类收购可能成为行业趋势,强调安全、评估和合规性在 AI 部署中的核心地位。

OpenAI27天前原文

Descript 作为一款 AI 原生的视频编辑器,正通过深度整合 OpenAI 的推理模型,革新视频本地化的工作流程。其核心突破在于解决了多语言配音中语义保真与时长匹配的平衡难题,让自动化的配音听起来自然流畅。 ## 从文本编辑到视频编辑的 AI 原生理念 Descript 的产品哲学很简单:如果你能编辑文本,就应该能编辑视频。自创立之初,AI 就驱动着产品的方方面面,从转录、编辑、音频清理到日益复杂的创意工作流。公司多年来一直基于 OpenAI 的技术栈构建,例如使用 **Whisper** 进行转录,并在其协同编辑器 **Underlord** 中集成 **GPT 系列模型**。 ## 翻译:一个高影响力的用例 视频翻译传统上是一个缓慢且昂贵的过程,需要语言专家管理项目、制作直译文本、进行质量控制并生成对应音频。大型语言模型(LLMs)极大地压缩了这一工作流,使得高质量、大规模的翻译成为可能。 在视频本地化中,字幕和配音都要求**语义保真**——翻译必须保留原意。但**时长匹配**在两者中的作用却截然不同: * 对于字幕,时长匹配是“锦上添花”。 * 对于配音,时长匹配则是**关键所在**。因为如果翻译后的语音过长或过短,即使意思正确,听起来也会很不自然。 ## 技术突破:在生成时同步优化语义与时长 Descript 最初只提供字幕翻译,效果良好。但当用户希望进一步获得目标语言的配音音频时,问题出现了:配音听起来总是不太对劲。 Descript 的 AI 产品负责人 Aleks Mistratov 指出:“我们听到最多的投诉大概是,翻译后语言的语速听起来不自然。” 问题的根源在于,不同语言表达相同意思所需的时间长度不同。 为此,Descript 重新设计了其翻译流程。他们利用 **OpenAI 的推理模型**,在文本生成阶段就同步优化**语义保真**和**时长匹配**,而不是事后再进行调整。这种“生成时优化”的方法,确保了翻译出的脚本不仅在意义上准确,其朗读时长也能与原语音片段高度吻合,从而产出听起来自然的配音。 ## 显著成效与未来方向 新流程上线后的前 30 天内,效果立竿见影: * 带配音的翻译视频导出量增加了 **15%**。 * 时长匹配的准确度提升了 **13 到 43 个百分点**(具体提升幅度因语言而异)。 Descript 的 CEO Laura Burkhauser 表示:“配音正成为 Descript 越来越受欢迎的使用场景。我们正在为那些希望翻译并同步整个视频库的公司构建批量处理功能。” 这预示着 Descript 的目标不仅是处理单个视频,而是赋能企业高效地完成大型内容库的自动化本地化。 ## 小结:AI 如何重塑创意工作流 Descript 的案例清晰地展示了 AI,特别是先进的推理模型,如何深入具体的生产环节,解决传统方法中棘手的细节问题(如配音的语速自然度)。它不再仅仅是提高效率的工具,而是成为了实现新可能性的核心引擎——让高质量、低成本、大规模的多语言视频创作变得触手可及。这不仅是视频编辑工具的进步,更是内容全球化浪潮下一项关键基础设施的升级。

OpenAI1个月前原文

## OpenAI 推出 Codex Security:AI 驱动的应用安全代理 2026年3月6日,OpenAI 正式宣布其应用安全代理 **Codex Security** 进入研究预览阶段。这款工具旨在通过深度分析项目上下文,以更高的置信度和更低的噪音,检测、验证并修复复杂的安全漏洞,从而帮助开发团队更高效地保障代码安全。 ### 为什么需要 Codex Security? 在当前的软件开发环境中,AI 代理正在加速代码生成与迭代,但安全审查却成为日益突出的瓶颈。传统 AI 安全工具往往存在两个主要问题: - **大量低影响发现和误报**:导致安全团队花费大量时间进行筛选和分类。 - **缺乏上下文理解**:难以识别真正复杂的漏洞,影响风险评估的准确性。 Codex Security 正是为了解决这些挑战而生。它结合了 OpenAI 前沿模型的代理推理能力与自动化验证,专注于提供高置信度的发现和可操作的修复建议,让团队能够聚焦于真正重要的漏洞,并更快地交付安全代码。 ### 核心能力与改进 Codex Security 的前身是 **Aardvark**,去年已在小范围客户中进行了私有测试。在早期内部部署中,它成功发现了真实的 SSRF(服务器端请求伪造)漏洞、关键的跨租户身份验证漏洞等多个问题,安全团队在几小时内就完成了修复。 通过外部测试者的反馈,工具在提供相关产品上下文和从入门到代码安全的全流程方面得到了显著优化。更重要的是,其检测质量在测试期间持续提升: - **精度不断提高**:对同一代码库的多次扫描显示,检测精度随时间增加,在某个案例中,噪音自初始推出以来减少了 **84%**。 - **误报率大幅下降**:所有代码库的误报率降低了超过 **50%**,同时,严重性被高估的发现率减少了 **90%** 以上。 这些改进帮助 Codex Security 更好地将报告的严重性与实际风险对齐,减轻了安全团队不必要的分类负担,预计信噪比将继续改善。 ### 工作原理与可用性 Codex Security 利用 OpenAI 的前沿模型和 Codex 代理,通过基于系统特定上下文的漏洞发现、验证和修复,来减少噪音并加速补救过程。它能够构建系统上下文,并创建可编辑的威胁模型,从而更精准地识别复杂漏洞。 从今天起,Codex Security 开始以研究预览形式向 **ChatGPT Enterprise、Business 和 Edu 客户** 推出,通过 Codex 网页平台提供,并在接下来一个月内免费使用。这标志着 OpenAI 在将 AI 技术深度整合到软件开发安全流程中迈出了重要一步,有望为行业带来更智能、更高效的安全解决方案。

OpenAI1个月前原文

在竞争激烈、数据爆炸的金融投资领域,传统研究方法正面临巨大挑战。全球多策略投资公司Balyasny资产管理公司(Balyasny)通过构建一个AI驱动的投资研究系统,正在彻底改变其投资分析流程。 ## 背景:传统投资研究的痛点 Balyasny是一家全球性多策略投资公司,拥有约180个投资团队,覆盖多种资产类别和地区。投资研究本身具有复杂性高、风险大、时效性强的特点。分析师需要处理成千上万份文档,包括市场数据、券商研究报告和监管文件等。虽然人类专业知识仍然不可或缺,但传统方法耗时且难以规模化。 现有的现成AI工具往往无法同时处理结构化和非结构化数据,缺乏工作流程编排能力,且通常不符合机构合规标准。Balyasny意识到,他们需要一个专门构建的AI系统:一个能够像分析师一样思考、以机器速度运行,并在严格合规边界内工作的系统。 ## 构建AI研究引擎的核心策略 2022年底,Balyasny成立了应用AI团队,这是一个由20名研究人员、工程师和领域专家组成的集中化团队,负责构建直接嵌入团队级工作流程的AI原生工具。他们的旗舰产品——AI投资研究系统,旨在像熟练的分析师一样进行推理、检索和行动。 首席AI官Charlie Flanagan表示:“AI正在使我们的团队能够更快地应用第一性原理思维,覆盖更多数据,并具有更强的结构性。” ### 关键经验一:部署前严格评估模型 在任何模型投入生产之前,Balyasny构建了金融领域最复杂的评估流程之一。他们从超过12个维度对模型进行评估,包括: - **预测准确性** - **数值推理能力** - **情景分析能力** - **对噪声输入的鲁棒性** 这些评估基于Balyasny的内部基准、工具和专有金融数据运行。这一严格流程凸显了**GPT‑5.4模型系列**的优势,特别是在多步骤规划、工具执行和幻觉控制方面。 ### 全面采用OpenAI平台与智能体工作流 Balyasny的AI研究引擎并非单一模型的应用,而是结合了严谨的模型评估、OpenAI平台的全面使用以及复杂的智能体工作流程。这种组合使系统能够: - 整合多种数据源(结构化和非结构化) - 自动化研究流程中的重复性任务 - 提供可解释的推理过程,便于人类分析师验证 - 在合规框架内安全运行 ## AI如何重塑投资研究 Balyasny的案例展示了AI在专业金融领域的深度应用。通过构建定制化的AI研究引擎,他们不仅提升了分析效率,更重要的是增强了研究的深度和广度。系统能够处理海量数据,识别人类可能忽略的模式,并快速生成结构化的分析报告。 这种AI驱动的转型并非要取代人类分析师,而是赋能他们。分析师可以将更多时间集中在战略思考、复杂判断和客户互动上,而AI则负责处理数据密集型的基础分析工作。 ## 行业启示 Balyasny的经验为其他金融机构提供了宝贵借鉴: 1. **专业化评估至关重要**:通用模型评估不足以满足金融行业的高标准需求,必须建立针对性的评估体系。 2. **工作流程整合是关键**:AI工具必须无缝嵌入现有工作流程,才能真正提升效率。 3. **合规性不可妥协**:金融行业的严格监管要求AI系统在设计之初就考虑合规边界。 随着AI技术的不断成熟,类似Balyasny这样的案例将越来越多。投资研究正从依赖个人经验的传统模式,转向人机协作的智能化新时代。

OpenAI1个月前原文

OpenAI 于 2026 年 3 月 5 日发布了 **GPT-5.4 Thinking** 的系统安全卡,这是 GPT-5 系列的最新推理模型。该文档详细阐述了模型的安全缓解措施,其中一项关键突破是:**GPT-5.4 Thinking 成为首个针对“网络安全高能力”实施专门防护的通用目的模型**。 ### 安全策略的延续与升级 OpenAI 表示,GPT-5.4 Thinking 的整体安全缓解方法与同系列前代模型相似,保持了策略的连贯性。然而,其在网络安全领域的防护是一个显著的进步。这项网络安全安全措施并非从零开始,而是建立在为 **GPT-5.3 Codex**、**ChatGPT** 和 **API** 实施的最新方法之上,意味着 OpenAI 正在将特定领域(如代码生成和对话)的安全经验,系统性地迁移和升级到更通用的推理模型中。 ### 基线对比与模型定位 文档中特别说明,并不存在名为“GPT-5.3 Thinking”的模型。因此,评估 GPT-5.4 Thinking 安全性能和改进的主要基线是对比 **GPT-5.2 Thinking**。这明确了该模型在“Thinking”推理模型序列中的直接迭代关系,也暗示了从 5.2 到 5.4 版本之间,安全能力,尤其是网络安全防护方面,可能经历了重点强化。 ### 行业背景与潜在影响 在 AI 模型能力飞速发展的背景下,强大的推理能力若被恶意利用,可能带来前所未有的网络安全风险,例如自动化漏洞挖掘、复杂社会工程攻击或恶意代码生成。OpenAI 主动为 GPT-5.4 Thinking 的“高能力”预设防护栏,反映了行业领先者对**AI 安全前置化**和**能力与安全同步演进**的重视。这不仅是技术措施,也传递出在推动 AGI(通用人工智能)过程中,将**责任与安全**置于核心的治理信号。 此举可能推动整个行业更早、更系统地将高级别网络安全评估纳入大模型的开发与部署流程,为未来更强大模型的负责任落地设立新的参考标准。

OpenAI1个月前原文

## OpenAI 研究发现:推理模型难以控制思维链,强化 AI 安全监控 OpenAI 近日发布了一项关于 **CoT-Control(思维链控制)** 的研究,发现当前前沿推理模型在尝试控制或隐藏其思维链时表现困难。这一发现对 AI 安全监控具有积极意义,因为它意味着 **思维链监控(CoT monitoring)** 作为一种安全防护层,在当前阶段仍能有效运作。 ### 研究背景:AI 安全监控的挑战 随着 AI 代理能够执行越来越复杂和自主的任务,对其行为进行可靠监督变得至关重要。OpenAI 的安全策略采用 **深度防御(defense-in-depth)** 原则,包括安全训练、行为测试、代理代码审查和思维链监控等多层互补防护。 思维链监控通过分析代理在执行任务时生成的推理步骤(即思维链),在训练和部署阶段提供有价值的安全信号,帮助识别代理行为是否不安全或与用户目标不一致。 ### 关键发现:模型难以“隐藏”思维 研究聚焦于一个潜在风险:如果未来 AI 代理能够故意重塑或隐藏其思维链以逃避监控,评估系统可能会高估其对齐性或安全性,导致监控失效。 然而,实验结果显示: - **当前推理模型在控制思维链方面表现挣扎**,即使被告知正在被监控,也难以有效隐藏或改变推理过程。 - 模型规模越大,可控性略有提高,但随着推理步骤变长或经过额外后训练,可控性反而下降。 - 这表明 **CoT 可控性目前不太可能对监控构成重大风险**,为安全防护提供了缓冲期。 ### 为什么这是“好事”? 1. **监控有效性得以维持**:思维链作为“透明窗口”,让研究人员能实时观察模型内部推理,及时发现偏差或危险倾向。 2. **安全迭代部署更可行**:OpenAI 强调 **迭代部署(iterative deployment)** 原则,即在真实场景中研究系统行为并持续完善防护措施。当前模型的可监控性为这一过程提供了基础。 3. **为未来风险预警**:研究提前识别了“监控失效”的可能路径,促使安全社区未雨绸缪,开发更鲁棒的监控技术。 ### 行业意义与后续方向 这项研究呼应了 AI 安全领域的一个核心议题:如何在能力提升的同时保持可控性。思维链监控作为可解释 AI 的重要实践,其有效性直接影响着高风险应用的落地信心。 OpenAI 指出,尽管当前风险较低,但随着模型演进,**持续评估 CoT 可控性**至关重要。未来需关注: - 模型是否会在更复杂任务中学会“欺骗”监控; - 如何设计抗干扰的监控机制; - 平衡模型性能与透明度的技术方案。 ### 小结 OpenAI 的 CoT-Control 研究揭示了一个令人安心的现状:推理模型尚不具备精细控制思维链的能力,这强化了思维链监控作为安全护栏的价值。然而,这并非终点,而是提醒业界在推进能力前沿时,必须同步筑牢安全底座——毕竟,真正的智能不仅在于“能做什么”,更在于“能否被信任”。

OpenAI1个月前原文

## OpenAI推出教育新工具:弥合AI能力差距,赋能下一代 OpenAI近日发布了一系列专门针对教育领域的新工具、认证和测量资源,旨在帮助学校和大学弥合AI能力差距,确保AI技术在教育中的应用能够真正为学生创造机会,而非加剧不平等。 ### 教育面临的AI挑战:能力“悬置”现象 数据显示,每周使用ChatGPT的9亿用户中,**大学年龄段的成年人是各年龄段中最大的采用群体**。然而,OpenAI的研究揭示了一个严峻问题:**全球范围内存在显著的“能力悬置”现象**——即AI工具的实际能力与人们如何使用它们之间存在巨大鸿沟。 即使是学生中的高级用户,其使用深度也仅达到ChatGPT“超级用户”水平的**1%到10%**。这意味着绝大多数学生仍停留在基础使用层面,未能充分发挥AI在复杂任务中的潜力。 ### 从基础使用到深度应用:构建“能动性” OpenAI指出,现代教育体系大多是为帮助学生适应现有工作体系而设计的,但这些体系正因AI而快速变革。研究预测,**近40%的核心工作技能将因AI而改变**。 为了在“智能时代”蓬勃发展,学生需要培养**“能动性”**——即持续学习、解决难题、并利用AI为自己创造新经济机会的能力。这种能动性不会仅通过基础AI使用自动产生,而需要学生从简单任务逐步进阶到深度应用,如: - **研究与分析**:利用AI进行市场分析、政策权衡评估 - **创意与设计**:生成产品概念、创作内容 - **编程与开发**:辅助编码、构建简单智能体工作流 - **项目管理**:模拟真实职业场景中的AI协作 ### 教育机构的关键角色:嵌入真实用例 OpenAI强调,教育机构在弥合这一能力鸿沟中扮演核心角色。教师和教育工作者可以通过将**真实的AI用例嵌入课程作业**来帮助学生释放AI的全部潜力。例如,设计那些既使用AI又反映真实专业工作的作业,如分析市场、设计产品概念、评估政策权衡或构建智能体工作流。 那些能够帮助学生从基础使用转向真实能力培养的机构,将有助于推动AI益处更广泛地惠及所有学习者。 ### OpenAI的教育支持举措 支持各类教育机构获得必要工具以应对这一时刻,是OpenAI在教育领域的核心工作重点。新发布的工具和资源包括: - **教学工具**:帮助教师设计整合AI的课程与作业 - **能力认证**:为学生提供AI技能水平认证,增强就业竞争力 - **测量资源**:帮助机构评估学生的AI使用深度与能力进展 - **研究支持**:基于去标识化的用户数据分析,理解学生从基础使用到深度能力发展的路径 ### 未来展望:机遇与责任并存 在美国,**三分之一的大学年龄段年轻人定期使用ChatGPT**,但极少人充分发挥其潜力。OpenAI的学习研究正聚焦于理解学生如何从基础使用迈向深度能力发展。 通过赋能教育机构,OpenAI旨在确保AI技术成为促进教育公平、扩大机会的工具,而非加剧数字鸿沟。这不仅是技术部署,更关乎如何塑造下一代在智能时代的学习方式、工作准备与创新潜力。 教育系统正站在一个关键转折点:如何将AI从“新奇工具”转化为“核心能力培养器”,将决定未来劳动力是否准备好迎接一个由智能技术重塑的世界。

OpenAI1个月前原文

在AI浪潮席卷全球的当下,许多企业仍将AI视为零散用例的集合——这里一个试点,那里一个工作流,某个部门试用一款有前景的工具。这种“打补丁”式的做法或许能带来局部效率提升,却难以从根本上改变企业的价值创造方式。这就像互联网时代初期,企业只专注于制作互动横幅广告和邮件营销活动,却完全错过了电子商务的革命性机遇。 真正在AI转型中脱颖而出的组织,采用了一种更为宏大和系统的逻辑:他们将AI视为一系列**价值模型**的组合。每个模型都有其独特的经济逻辑、价值实现周期和治理要求,并且每个模型的成功实施都为下一个模型的规模化铺平了道路。因此,从AI中获得最大回报的企业,并非那些试点项目最多的公司,而是那些深刻理解**应该构建哪些价值模型、以何种顺序推进、以及需要奠定何种基础**来重塑自身业务的组织。 ### 从试点到组合:五大AI价值模型 目前,在企业实践中逐渐清晰的AI价值模型主要有五种。它们创造价值的方式各异,但彼此关联,形成了一条清晰的演进路径: 1. **员工赋能**:这是启动最快、门槛相对较低的价值模型。其核心是通过普及实用的AI工具(如**ChatGPT**),让广大员工快速上手,在获得短期生产力提升的同时,为整个组织构建起必要的“AI素养”。 2. **建立治理框架**:当员工普遍具备AI使用能力后,组织需要建立相应的规则、流程和责任体系,以确保AI的使用是安全、合规且符合伦理的。 3. **系统深度集成**:在可控的治理框架下,AI能力可以更深入地嵌入到核心业务系统和流程中,实现自动化与智能化。 4. **依赖关系管理**:随着AI深度融入业务,企业需要管理由AI驱动的复杂系统之间的依赖关系,确保稳定性和可靠性。 5. **智能体主导运营**:这是最高阶的形态,即由AI智能体自主或半自主地管理某些业务运营环节,实现真正的流程再造。 这条路径的逻辑环环相扣:**员工赋能构建了使用能力,能力普及使得治理成为可能,有效的治理为深度系统集成扫清障碍,集成化系统催生了复杂的依赖关系,而对依赖关系的有效管理,最终让由智能体主导的安全运营变为现实。** ### 深度聚焦:员工赋能模型 以首个模型“员工赋能”为例,它远不止是给员工提供一个聊天机器人账号那么简单。其最大价值并非体现在更快的草稿撰写、信息汇总或数据分析上,而在于打造整个组织的“**AI就绪度**”。 * **跨职能协同基础**:当市场、销售、研发、人力资源、法务、财务等不同部门的员工都开始使用AI并积累经验时,他们就拥有了共同的语言和理解。法务部门可以据此制定使用规范,财务部门可以评估投资回报,业务团队可以跨部门协作,共同探索AI在哪些场景有效以及如何安全使用。 * **关键衡量指标**:该模型的成功与否,不应只看使用了多少许可证,而应关注: * 不同岗位角色的**重复使用率**和**熟练度水平**。 * 跨团队可复用的**提示词、工作流程和数字资产**是否形成。 * 是否有**跨职能赋能**的证据。 * 是否催生了**新的工作方式**。 * **常见失败模式**:需要警惕“**两级分化**”的陷阱——即一小部分“超级用户”飞速进步,而组织中的大多数人停滞不前,这会导致AI转型的潜力无法全面释放。 ### 战略核心:顺序与基础 对于企业领导者而言,关键的战略问题不再是“选择哪个模型”,而是“**从哪个模型开始、它需要奠定什么基础、以及它接下来能解锁什么可能性**”。选择正确的起点和构建坚实的进阶基础,比同时开展大量互不关联的试点更为重要。 这五大价值模型为企业描绘了一条从局部应用到全局重塑的清晰路线图。它强调,AI转型是一场需要精心设计和分步实施的系统工程,其最终目标不是拥有最酷的技术,而是构建难以被模仿的、持久的**商业竞争优势**。

OpenAI1个月前原文

## OpenAI推出“采用”新闻频道:从技术狂热转向商业落地的关键一步 2026年3月5日,OpenAI宣布推出全新的“采用”(Adoption)新闻频道,标志着企业AI应用进入了一个新阶段。过去两年,AI领域的焦点主要集中在技术突破、模型更新和性能演示上,这些进展固然重要,但如今已不再是企业采纳AI和实现价值的瓶颈。当前,企业领导者面临的核心问题已从“AI能做什么”转变为“如何将AI能力转化为具体的运营变革”。 ### 为何需要这个新频道? OpenAI指出,当前的信息环境被技术更新、产品新闻和基准测试所主导,而这些内容已无法满足企业实际需求。真正的挑战在于如何将AI能力转化为**更好的决策、更快的工作流程、更强的执行力、新的杠杆形式,以及最终的新商业模式**。 “采用”频道正是为了应对这一转变而设计,它是一个专注于AI在实际工作中应用的商业博客,旨在为领导者提供实用见解和框架,帮助他们成功规模化AI应用、建立用户信任、重新设计工作流程,并创造持久的竞争优势。 ### 目标受众与核心内容 该频道主要面向**C级高管、AI负责人、转型与采用领导者**,以及帮助企业在AI原生世界中适应的运营者和顾问。内容将围绕以下几个核心主题展开: - **AI创造价值的地方与“好”的标准**:清晰思考AI在何处驱动有意义的商业价值,领导者应如何评估机会,以及在实际中强有力的执行是什么样子。 - **组织如何成功规模化AI**:提供实用见解,探讨什么因素促进采用扩散,什么导致停滞,以及领先组织如何从实验转向真正的运营变革。 - **AI如何重塑运营模式和角色**:分析当AI成为日常工作一部分时,责任如何转移、领导者如何以不同方式治理,以及组织如何设计信任、控制和性能。 - **AI市场中持久与炒作的区别**:提供接地气的观点,区分什么重要、什么是噪音,以及哪些发展可能以持久方式塑造企业决策。 - **基于企业现实的垂直视角**:探讨这些问题在不同行业中的不同表现,关注实际约束、系统、工作流程和监管环境。 ### 从技术驱动到价值驱动的转变 这一举措反映了AI行业从技术狂热向商业落地的深刻转变。随着基础模型能力的成熟,企业不再仅仅关注“AI能做什么”,而是更关心“如何用AI赚钱”或“如何用AI提升效率”。OpenAI通过推出这个频道,主动引导对话方向,帮助企业跨越从实验到规模化应用的鸿沟。 在AI竞争日益激烈的背景下,**生态系统的建设**和**企业采用率**已成为决定AI公司长期成功的关键因素。OpenAI此举不仅是为了提供内容,更是为了巩固其作为企业AI解决方案领导者的地位,通过分享实用框架、决策视角、运营模式和实地案例,帮助企业实现AI驱动的转型。 ### 小结 “采用”新闻频道的推出,是OpenAI对企业AI应用痛点的一次精准回应。它标志着AI行业正从技术演示阶段迈向价值实现阶段,为企业领导者提供了从理论到实践的桥梁。随着更多框架和案例的分享,这一频道有望成为企业AI转型的重要参考资源,推动AI技术在全球范围内的规模化应用。

OpenAI1个月前原文

## OpenAI发布ChatGPT for Excel测试版,金融数据集成同步上线 2026年3月5日,OpenAI正式推出**ChatGPT for Excel**测试版,这是一款直接嵌入Excel工作簿的插件,让用户能够通过自然语言指令快速构建、更新和分析电子表格模型。同时,OpenAI宣布在ChatGPT中新增对**FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global**等权威金融数据源的直接集成。这两项新功能均基于最新发布的**GPT-5.4模型**(特别是其“思考”版本)驱动,旨在显著提升金融工作流程的效率。 ### 为什么这对金融从业者至关重要? 金融分析师、策略师、研究员和会计师日常工作中,大量时间耗费在手动建模、场景分析、数据提取和长篇研究上。传统方式下,构建一个复杂的财务模型或运行多场景分析可能需要数小时甚至数天。GPT-5.4经过与行业实践者的紧密合作优化,专门针对这些真实金融工作流进行了强化,使其在金融推理和基于Excel的建模任务上表现更为出色。 **ChatGPT for Excel的核心价值在于:** - **用自然语言替代复杂公式**:用户只需用平实语言描述需求,ChatGPT就能在工作簿中直接创建或更新实时Excel模型,无需手动编写公式、追踪链接或修复模型结构。 - **保持工作簿原生性**:所有操作均在Excel原生环境中进行,确保模型的结构、公式和假设得以保留,输出结果为格式化的标准工作簿。 - **加速分析与决策**:支持数据分析、报告生成、库存管理、预算编制等多种任务,帮助团队减少手动劳动,将更多时间聚焦于判断与决策。 ### 金融数据集成:打通可信数据源 除了Excel插件,OpenAI将多家主流金融数据提供商直接集成到ChatGPT中。这意味着用户可以在ChatGPT界面内无缝访问和处理来自FactSet、道琼斯Factiva等机构的可信数据,无需在不同平台间切换。这一集成简化了数据获取流程,让研究人员和分析师能更便捷地开展基于权威数据的深度分析。 ### 技术基石:GPT-5.4的专项优化 GPT-5.4作为OpenAI当前最先进的模型,已全面部署于ChatGPT、Codex和API中。其“思考”版本特别针对金融领域的复杂推理任务进行了优化,能够更好地理解金融语境、处理数值计算和逻辑推演。这种优化不是泛化的能力提升,而是基于实际工作流的针对性改进,从而在金融专业人士日常依赖的任务上实现更强性能。 ### 潜在影响与行业展望 此次发布标志着AI在金融这一高度监管环境中的渗透进入新阶段。通过将ChatGPT深度融入Excel——这一金融行业的核心工具,OpenAI不仅提升了单个用户的工作效率,更可能推动团队协作的标准化和一致性。数据集的直接集成则进一步降低了数据获取门槛,有望加速研究周期。 然而,在受监管的金融环境中部署AI,**数据准确性、模型可解释性及合规性**仍是关键考量。OpenAI强调与行业实践者合作优化模型,或意在增强其在实际应用中的可靠性与信任度。 **小结**:OpenAI通过ChatGPT for Excel和金融数据集成,正将强大的语言模型能力注入金融工作流的核心环节。这不仅是工具层面的升级,更是对传统金融分析模式的一次效率革新。随着测试版的推进,其在实际业务中的落地效果与行业适应度值得持续关注。

OpenAI1个月前原文

## GPT-5.2 Pro协助发现量子引力新数学结果 OpenAI与多所顶尖研究机构合作,发布了一篇题为《单负引力子树振幅非零》的预印本论文。这项研究将近期在胶子领域取得的单负振幅结果扩展到了引力领域,揭示了在特定运动学条件下,一类长期被认为为零的引力子相互作用实际上可以出现。 **关键突破点**在于,研究人员利用**GPT-5.2 Pro**辅助推导并验证了量子引力中非零的引力子树振幅。这一发现挑战了标准教科书中的传统观点,即单负振幅在树图层面(忽略量子环效应的最简单近似)应为零。 ### 什么是单负振幅? 在粒子物理学中,散射振幅是用于计算粒子以特定方式相互作用概率的数学量。它以一种紧凑的形式编码了可观测的最终结果,而不是通过许多图表追踪碰撞的每一个中间步骤。 * **振幅的角色**:它们是理论预测与实验观测之间的桥梁。 * **单负配置**:指一个粒子具有负螺旋度,而其余粒子具有正螺旋度的特定粒子排列。螺旋度描述了粒子自旋相对于其运动方向的方向,在决定相互作用如何发生方面起着重要作用。 ### 传统观点与新发现 长期以来,基于标准论证,物理学家认为在树图层面,引力子的单负振幅应为零。然而,这项新研究证明,这一结论依赖于假设粒子运动是“一般性”的。 **当粒子动量满足一种特殊的对齐条件,即所谓的“半共线机制”时,通常的论证不再适用。** 在这种机制下,振幅并不为零,而是作为明确定义的数学分布存在。 ### 研究意义与AI的辅助作用 这项工作的意义不仅在于其物理学内涵,还在于展示了**高级AI工具在基础科学研究中的辅助价值**。GPT-5.2 Pro被用于帮助寻找和验证这一新的数学结果,体现了AI在探索复杂数学结构和加速科学发现方面的潜力。 * **对量子引力理论的贡献**:加深了我们对引力子(引力的量子粒子)相互作用的理解,可能为量子引力理论的构建提供新的线索。 * **方法论启示**:表明振幅中可能隐藏着未被传统计算揭示的数学结构,这延续了过去几十年该领域的研究趋势。 * **AI+科研范式**:是AI辅助前沿理论物理研究的一个具体案例,展示了人机协作解决深奥科学问题的可能性。 ### 小结 这项由OpenAI、哈佛大学、剑桥大学、高等研究院和范德堡大学研究人员共同完成的工作,是理论物理学与人工智能交叉领域的一次有趣探索。它既推进了我们对量子引力基本问题的认识,也实证了像GPT-5.2 Pro这样的AI系统可以作为科研人员的有力工具,协助处理复杂的推导与验证任务。研究团队已公开预印本并欢迎学界反馈,后续影响值得关注。

OpenAI1个月前原文

在新闻行业面临成本压力和数字化转型的背景下,Axios作为一家以“智能简洁”著称的媒体公司,正积极探索AI技术如何赋能本地新闻采编。公司首席运营官Allison Murphy分享了他们如何将AI深度整合到新闻工作流中,以支持记者、提升效率,并最终实现可持续的高质量本地新闻报道。 ## AI在Axios Local的核心角色 Allison Murphy明确指出,AI已成为Axios Local运作的核心部分。其根本目标在于证明一种可持续、盈利的本地新闻模式是可行的——能够为美国每个社区提供高质量新闻。这需要解决规模化与效率问题,而AI恰好擅长于此。Murphy强调,OpenAI的技术与Axios Local的发展方向存在“天然的契合”。 ## 从创作到分发的全流程赋能 Axios将AI应用于整个新闻工作流,包括故事创作、编辑和分发。其中,最关键的价值在于**帮助记者更快地完成重要工作**。由于读者期待Axios标志性的“智能简洁”风格,公司内部开发了一个名为**Axiomizer**的自定义GPT工具。记者将草稿输入后,该工具会建议更犀利的标题、更清晰的“为何重要”、“下一步动向”以及“弦外之音”等部分,本质上是在优秀报道的基础上,使其对读者的传达效果更上一层楼。 ## 工具化实践:Axiomizer如何运作 - **功能聚焦**:Axiomizer并非取代记者,而是将专家级的扎实报道打磨得更清晰、更精炼、更有用。 - **编辑辅助**:该工具还集成了编辑和风格检查功能,让文字编辑能够专注于真正需要人类判断的部分,而不是耗费时间在基础修改或格式调整上。 - **效率提升**:结果是记者和编辑都能获得更多时间聚焦于高影响力的新闻内容,而AI则在后台处理繁琐事务。 ## 释放人力,深化报道 Murphy指出,AI带来的可能性主要体现在报道覆盖和工作方式两方面。核心目标是让记者将时间花在只有人类才能胜任的工作上: - 采访消息源 - 深入挖掘数据 - 讲述精彩故事 AI通过节省制作环节的每一分钟,为这些核心新闻活动释放了宝贵的人力资源。 ## 行业启示与未来展望 Axios的实践表明,AI在新闻业的应用已超越实验阶段,进入规模化赋能的核心工作流。其模式强调了“人机协作”而非替代——AI处理标准化、重复性任务,而人类记者专注于调查、分析和叙事等创造性与判断性工作。这对于面临资源紧张的本地新闻业尤其具有借鉴意义,为在维持新闻质量的同时实现商业可持续性提供了一条技术路径。

OpenAI1个月前原文

随着AI在教育领域的应用日益广泛,如何科学评估其对学习成果的长期影响成为行业关键挑战。OpenAI近日宣布推出**学习成果测量套件**,旨在通过纵向研究框架,系统追踪AI在不同教育环境中的实际效果。 ## 背景:AI教育评估的现状与局限 当前,教育领域对AI影响的评估大多依赖**考试成绩**等短期绩效指标。这些方法虽然能捕捉即时效果,却难以反映AI如何塑造学生的长期学习过程、思维习惯和综合能力发展。OpenAI团队去年通过“学习模式”等工具的研究发现,AI确实能提升学生表现,但也暴露了现有评估体系的不足——我们缺乏工具来观察AI如何随时间推移影响学习者的进步轨迹。 ## 解决方案:学习成果测量套件 为填补这一空白,OpenAI与**爱沙尼亚塔尔图大学**及**斯坦福大学学习加速器SCALE计划**合作,开发了学习成果测量套件。该框架的核心目标是支持**跨教育情境的纵向测量**,即长期追踪学生在真实学习环境中使用AI后的变化。 ### 关键特点 - **纵向设计**:关注学习过程的动态演变,而非单一时间点的结果。 - **多维度评估**:不仅衡量学术表现,还关注高阶思维、创造力、好奇心及学习自信心的培养。 - **实证验证**:目前正通过随机对照试验进行广泛验证,确保方法的科学性与可靠性。 ## 研究生态与未来计划 OpenAI的**学习实验室**研究生态系统已吸引多家顶尖机构参与,包括**亚利桑那州立大学、UCL知识实验室和MIT媒体实验室**。这些合作将基于前期研究基础,进一步探索AI与教育的深度融合路径。 斯坦福大学SCALE计划主任Susanna Loeb教授指出:“这项研究让我们能快速学习,同时为深入理解AI如何以真正重要的方式融入学校奠定基础。我们希望了解这些工具如何支持严谨的学术学习,同时培养高阶思维、创造力、好奇心以及学生作为学习者的自信心。” ## 行业意义与展望 学习成果测量套件的推出,标志着AI教育评估从“结果导向”向“过程导向”的转变。它有望帮助教育机构: - **科学决策**:基于实证数据优化AI工具的应用策略。 - **个性化支持**:更精准地识别AI对不同学生群体的影响差异。 - **长期规划**:为教育系统的数字化转型提供可持续的评估框架。 OpenAI计划未来发布更多研究成果,并将该测量套件作为公共资源向全球学校、大学和教育系统开放。这一举措不仅有助于推动AI在教育领域的负责任应用,也可能为其他行业评估AI长期影响提供方法论参考。 在AI技术快速渗透教育场景的今天,建立科学、全面的评估体系已成为确保技术红利真正惠及学习者的关键一步。OpenAI的此次尝试,或许正是迈向“AI赋能教育”深层变革的重要开端。

OpenAI1个月前原文

## GPT-5.3 Instant 正式发布:AI 对话体验再升级 2026年3月3日,OpenAI 正式发布了 **GPT-5.3 Instant** 的系统卡,这是 GPT-5 系列的最新成员。根据官方文档,这款模型在多个关键维度上实现了显著改进,旨在为用户提供更自然、高效的交互体验。 ### 核心能力提升 与之前的版本相比,GPT-5.3 Instant 在以下方面表现突出: - **响应速度更快**:优化了处理流程,减少了用户等待时间,提升了实时对话的流畅度。 - **网络搜索能力增强**:能够提供更丰富、上下文更贴切的答案,特别是在需要实时信息检索的场景下。 - **对话连贯性改善**:减少了不必要的死胡同、免责声明和过于武断的表述,使对话更自然、不间断。 这些改进直接针对日常使用中的痛点,例如在客服、教育、娱乐等场景中,用户往往希望 AI 能快速给出准确回答,同时避免生硬的打断或冗余信息。 ### 安全策略延续 在安全方面,GPT-5.3 Instant 沿用了 **GPT-5.2 Instant** 的全面安全缓解方法,具体细节可参考 GPT-5.2 系统卡。这表明 OpenAI 在推动技术创新的同时,持续重视模型的安全性和可控性,确保其在广泛部署中的可靠性。 ### 行业背景与意义 GPT-5.3 Instant 的发布正值 AI 助手竞争白热化阶段。随着用户对 AI 交互体验的要求越来越高,速度、准确性和自然度成为关键指标。OpenAI 通过迭代更新,不仅巩固了其在大型语言模型领域的领先地位,还可能推动整个行业向更人性化、高效化的方向发展。 ### 未来展望 虽然系统卡未透露具体的技术细节或性能数据,但基于描述,GPT-5.3 Instant 有望在智能助理、内容生成、实时问答等场景中发挥更大作用。用户可期待更无缝的 AI 集成体验,而开发者则需关注其 API 更新,以适配新功能。 总的来说,GPT-5.3 Instant 的推出是 OpenAI 持续优化 AI 对话体验的重要一步,它可能为日常 AI 应用带来实质性的提升。

OpenAI1个月前原文

在AI投资与合作伙伴关系日益成为行业焦点之际,OpenAI与微软发布联合声明,澄清双方长期合作关系的稳固性。这份声明不仅回应了外界对OpenAI新融资与合作伙伴的猜测,更重申了双方在技术、商业与战略层面的深度绑定。 ## 事件背景 2026年2月27日,OpenAI与微软发布联合声明,旨在澄清近期行业动态对双方合作关系的影响。自2019年以来,这两家科技巨头已建立起基于互信、深度技术整合与长期创新承诺的战略伙伴关系。随着OpenAI宣布新融资及与亚马逊等新合作伙伴关系,外界对微软与OpenAI合作是否生变产生疑问。声明明确指出,这些新动态均在原有合作框架内,不会改变双方关系的核心条款。 ## 核心内容 声明从多个维度阐述了合作关系的稳固性。**知识产权关系保持不变**,微软继续拥有对OpenAI模型与产品的独家许可与访问权。**商业与收入分成安排也未调整**,包括OpenAI与其他云服务提供商的合作收入分享机制。**Azure作为OpenAI无状态API的独家云提供商**,任何第三方(包括亚马逊)通过OpenAI合作产生的API调用均托管于Azure。 此外,**AGI(通用人工智能)的定义与判定流程维持原样**,体现了双方对技术发展的共同愿景。声明还强调,合作支持OpenAI的成长,允许其在扩展时灵活配置其他计算资源,但核心产品如**Frontier将继续托管于Azure**。 ## 行业影响 这份声明对AI行业具有多重意义。首先,它稳定了市场预期,表明微软与OpenAI的合作仍是AI创新的关键驱动力,有助于缓解投资者与开发者的疑虑。其次,它揭示了AI生态系统的复杂性:OpenAI在保持与微软深度绑定的同时,可拓展多元合作,这反映了行业从封闭竞争向开放协作的转变。 从技术角度看,Azure作为独家云提供商,强化了微软在AI基础设施领域的领导地位,而OpenAI的模型与IP通过Azure全球基础设施,为开发者提供了可扩展的企业级解决方案。这种模式可能成为未来AI合作的范本,平衡了创新自主性与生态整合。 ## 总结与展望 OpenAI与微软的联合声明,不仅是一次公关澄清,更是对AI行业合作模式的深度诠释。它展示了在快速变化的AI浪潮中,长期战略伙伴如何通过信任与协议,适应新动态而不动摇根基。随着AI技术向AGI迈进,这种稳固的合作关系有望持续推动负责任创新,并确保技术红利广泛惠及全球用户。 展望未来,双方在研发、工程与产品开发上的紧密协作,将继续塑造AI技术的前沿,而灵活的合作伙伴框架,或为行业探索更多共赢路径提供启示。

OpenAI1个月前原文

在AI行业竞争日益激烈的背景下,OpenAI与亚马逊宣布了一项具有里程碑意义的战略合作,这不仅涉及技术整合,更包括巨额资本投入。这一合作将重塑企业AI部署的格局,为全球开发者提供更强大的基础设施支持。 ## 事件背景 2026年2月27日,**OpenAI**与**亚马逊**(NASDAQ: AMZN)正式宣布达成多年期战略合作伙伴关系,旨在加速全球企业、初创公司和终端消费者的AI创新进程。这一合作的核心内容包括技术平台整合、基础设施共享和资本投入三个方面,标志着两大科技巨头在AI领域的深度绑定。 亚马逊宣布将向OpenAI投资**500亿美元**,其中首期投资150亿美元,后续350亿美元将在满足特定条件后陆续投入。这一巨额投资不仅为OpenAI提供了充足的资金支持,也体现了亚马逊对AI未来发展的坚定信心。 ## 核心内容 合作的核心技术成果是双方共同开发的**Stateful Runtime Environment**(状态化运行时环境),该环境基于OpenAI的先进模型构建,将通过**Amazon Bedrock**平台向AWS客户开放。状态化开发环境代表了前沿模型使用方式的下一代演进,能够无缝集成计算、内存和身份验证等关键要素。 - **Stateful Runtime Environment**允许开发者保持上下文连续性、记忆先前工作成果、跨软件工具和数据源协同工作,并灵活访问计算资源 - 这些环境经过专门优化,可在AWS基础设施上高效运行,并与**Amazon Bedrock AgentCore**及基础设施服务深度集成 - 预计在未来几个月内正式推出,为企业级AI应用提供生产规模的部署能力 ## 行业影响 **AWS将成为OpenAI Frontier平台的独家第三方云分发提供商**,这一安排显著扩展了OpenAI最先进企业平台的访问范围。随着各行业对AI部署需求的加速增长,Frontier平台使组织能够构建、部署和管理AI代理团队,为企业数字化转型提供强大动力。 OpenAI将通过AWS基础设施消耗**2吉瓦的Trainium计算容量**,以支持Stateful Runtime Environment、Frontier平台及其他高级工作负载的需求。这种深度基础设施整合不仅优化了资源利用效率,也为大规模AI模型训练和推理提供了可靠保障。 双方还将合作开发定制化模型,这些模型将用于增强亚马逊面向客户的应用服务。这种双向技术流动模式,既提升了亚马逊产品的AI能力,也为OpenAI模型提供了更广泛的应用场景。 ## 总结与展望 OpenAI与亚马逊的战略合作代表了AI行业发展的一个重要转折点。通过将OpenAI的前沿技术与AWS的云基础设施深度整合,企业客户将获得更强大、更易用的AI部署解决方案。500亿美元的投资规模创下了AI领域战略合作的纪录,预示着AI基础设施竞赛进入了新的阶段。 这一合作不仅将加速生成式AI在企业级市场的普及,还可能重塑云计算市场的竞争格局。随着Stateful Runtime Environment的推出和Frontier平台的广泛部署,开发者将能够更高效地构建复杂的AI应用,推动整个AI生态系统的创新与发展。

OpenAI1个月前原文