AI 资讯

每日聚合最新人工智能动态

惠普与OpenAI达成前沿战略合作，全面推动企业级AI部署

精选

惠普公司（HP Inc.）近日宣布，将正式启动与OpenAI的**前沿战略合作**（Frontier strategic partnership），在成功完成多项试点项目后，计划将AI能力规模化部署到客户体验、软件开发和企业运营等核心领域。 ## 从试点到规模化：AI如何改变工作流惠普自2026年2月开始测试OpenAI Frontier平台，早期成果显著。一名工程师借助OpenAI模型在数周内处理了**122个拉取请求**，覆盖43个项目；安全团队则用一天时间修复了多个软件漏洞，而传统流程可能需要**一个月**。这些试点证明，AI不仅能加速代码开发，还能优化跨工具、跨团队的协作节奏。惠普工程师表示：“这是一个不可思议的工具，我每天都在使用它。”从个人效率的提升到团队协作的压缩，OpenAI工具正在将原本分散的测试、审查、安全检查和交接流程整合为更流畅的闭环。 ## Frontier平台：统一管理与治理随着试点范围扩大，惠普计划从单一AI工具转向**更广泛的智能体（Agent）和AI工作流组合**。Frontier将作为统一平台，负责监控运行状态、管理上下文、控制操作权限并评估输出结果。这种集中式治理架构意味着企业可以安全地让AI介入更多敏感任务，同时保持合规与可审计性。 ## 行业意义：企业AI落地的“惠普样本” 惠普的案例为传统科技巨头提供了可复用的AI转型模板：**先在小团队验证，再通过统一平台规模化**。不同于初创公司的激进部署，惠普强调“渐进式信任”——从开发工具链到客户服务，每一步都基于实际效果评估。此次合作也标志着OpenAI从面向个人的ChatGPT向**企业级平台服务**的进一步扩展。Frontier提供的不仅是模型能力，更是企业所需的治理、监控与集成工具。对于正在探索AI落地的组织而言，惠普的经验表明：真正的变革来自“小步快跑+统一治理”的组合。 ## 小结惠普与OpenAI的战略合作并非简单的技术采购，而是传统企业利用前沿AI重构核心流程的典型案例。未来，随着更多类似惠普的“传统巨头”加入，AI在企业中的角色将从“辅助工具”演变为“运营基础设施”。

OpenAI17天前原文

OpenAI 预览下一代模型 GPT-5.6 Sol：更强编码、科学和网络安全能力

精选

OpenAI 近日预览了其下一代模型 **GPT-5.6 Sol**，这款模型在编码、科学研究和网络安全方面展现出更强大的能力，同时配备了迄今为止最先进的安全防护体系。 ## 核心亮点 - **编码能力显著提升**：Sol 在代码生成、调试和理解复杂逻辑方面表现优异，有望大幅提升开发效率。 - **科学研究突破**：模型能够辅助研究人员进行文献分析、实验设计甚至初步的数据建模，加速科学发现进程。 - **网络安全强化**：针对日益严峻的网络威胁，Sol 内置了多层防御机制，可主动识别并抵御恶意攻击。 - **最先进的安全栈**：OpenAI 强调，Sol 集成了其史上最全面的安全架构，包括伦理审查、隐私保护和内容过滤等模块。 ## 行业背景与影响 GPT-5.6 Sol 的发布正值 AI 行业竞争白热化阶段。各大厂商纷纷推出更大参数、更专业的模型，而 OpenAI 选择在安全性和垂直领域能力上发力，试图在“能力提升”与“风险控制”之间找到平衡。 - 对开发者而言，更强的编码能力意味着更低的门槛和更高的产出； - 对科研人员来说，AI 助手正在从“工具”演变为“协作者”； - 而网络安全领域的增强，则回应了业界对 AI 系统本身可能被滥用的担忧。 ## 关于命名与定位 “Sol”在拉丁语中意为“太阳”，暗示该模型如同太阳一般，为 AI 应用提供核心驱动力。不过，OpenAI 并未透露 Sol 的具体参数规模，也未公布正式发布日期。目前该模型仍处于预览阶段，后续可能根据反馈进行调整。 ## 小结 GPT-5.6 Sol 代表了 OpenAI 在追求高性能与高安全性之间的一次重要尝试。对于关注 AI 前沿动态的用户来说，这款模型值得持续跟踪——它不仅可能改变开发与科研的范式，也可能为整个行业树立新的安全标准。

OpenAI20天前原文

AI代理如何重塑工作：OpenAI最新研究揭示生产力革命

精选

OpenAI最新经济研究论文显示，AI代理（Agent）正从根本上改变知识工作的方式——从简单的单次交互演变为可独立执行长达数小时甚至数天任务的“数字员工”。论文以OpenAI内部工具Codex为样本，追踪了过去一年中用户行为与生产力模式的深刻转变。 ## 从聊天机器人到自主代理：工作单元的重定义传统AI助手（如ChatGPT）的交互模式通常是短促且自包含的：用户提问，模型回答，任务即告完成。但代理型AI完全不同。**Codex能够自主运行数分钟甚至数小时，期间协调多种工具调用、与环境交互并反复迭代，直至找到解决方案**。这种能力将知识工作的基本单元从“单次问答”升级为“委托式长周期任务”。论文指出，OpenAI内部员工的使用模式佐证了这一转变。在Codex发布后的最初几个月（2025年8月前），ChatGPT仍是公司内部首选AI工具，平均每位员工仅将不到10%的token消耗在Codex上。而到2026年，**包括法务、财务、招聘等非技术部门在内的所有团队，均已将Codex作为主要AI工作工具**。Codex目前占OpenAI内部每周输出token的99.8%。 ## 四大关键趋势基于对个人用户、组织用户及OpenAI员工的追踪，论文归纳出四个显著趋势： 1. **更长周期的工作委托**：到2026年5月，80.6%的个人用户至少提交过一次估计相当于人类30分钟工作量的Codex请求，70.2%的用户提交过超过1小时的任务，25.6%的用户甚至委托过超过8小时的任务。这表明用户对代理的信任和依赖正在快速深化。 2. **全部门渗透**：工程部门率先迁移，但法务、财务和招聘等部门也在2026年4月左右跨越了“Codex为主要AI工具”的门槛。对于OpenAI普通员工，Codex的token使用占比已超过85%。 3. **非开发者增长迅猛**：自2025年8月以来，个人非开发者用户增长了**137倍**，组织用户增长了**189倍**，OpenAI内部非开发人员的使用量也增长了12倍。代理工具的易用性正在打破编程技能壁垒。 4. **跨岗位能力扩展**：Codex使OpenAI员工能够完成原本不属于其职责描述的任务。例如，非技术人员也能编写脚本或分析数据，而工程师则能更专注于架构设计。 ## 行业影响与未来展望这份研究为AI代理的商业价值提供了量化证据。**当AI从“问答工具”进化为“任务执行者”，企业的生产力边界将被重新定义**。代理不仅节省时间，更实现了“能力外溢”——让员工突破原有技能限制，承担更复杂的跨职能工作。不过，论文也隐含了重要挑战：如何确保代理在长时间自主运行中的可靠性？如何管理多代理协作的复杂性？以及，当代理取代部分重复性知识劳动后，人类角色的重新定位将成为一个社会议题。 OpenAI认为，这代表了未来工作的方向：**人类负责设定目标和决策，而AI代理负责执行和迭代**。随着模型能力的增强和产品功能的完善，这一趋势将加速渗透到更多行业和岗位。

OpenAI21天前原文

OpenAI 与博通联合推出专为大模型推理优化的芯片 Jalapeño

精选

OpenAI 与博通（Broadcom）今日联合发布首款自研 AI 推理芯片 **Jalapeño**，这是一款专为大规模语言模型（LLM）推理设计的加速器，旨在提升性能、能效与系统扩展性。 ## 从设计到生产仅用九个月 Jalapeño 由 OpenAI 从零开始设计，基于其对 LLM 底层原理的深刻理解，结合模型、内核、服务系统及产品需求的全栈洞察。博通与 Celestica 负责芯片实现、板级与机架系统集成、高性能网络及可量产方案。整个流程从设计到生产仅耗时 **九个月**，其间 OpenAI 的 AI 模型也加速了开发过程。 ## 性能与能效显著超越现有方案工程样品已在实验室中运行 GPT-5.3-Codex-Spark 等工作负载，达到生产目标频率与功耗。早期测试表明，Jalapeño 的 **每瓦性能** 将大幅优于当前最先进的解决方案。其架构通过减少数据搬运并平衡计算、存储与网络资源，使实际利用率更接近理论峰值。 ## 面向全行业 LLM 的灵活设计 Jalapeño 并非仅服务于 OpenAI 自家模型，而是设计为具备灵活性，可适配当前及未来各类 LLM。OpenAI 计划将其部署在 **千兆瓦级** 的数据中心中，并与合作伙伴共同推进多代平台演进。 ## 全栈战略的关键一环 Jalapeño 的发布标志着 OpenAI 从产品、模型到芯片的全栈平台战略迈出实质一步。OpenAI CEO Sam Altman 与总裁 Greg Brockman 从博通 CEO Hock Tan 手中接收了芯片样品。OpenAI 表示，该芯片将让先进 AI 更快、更可靠且更易获取。未来数月将公布详细技术报告。 > 小结：Jalapeño 的诞生不仅是一次芯片发布，更预示着 AI 基础设施从通用 GPU 向专用推理芯片的转折。对于行业而言，这意味着推理成本有望大幅下降，而 OpenAI 通过掌控芯片层，将进一步巩固其从模型到算力的完整生态优势。

OpenAI22天前原文

GPT-5 帮助免疫学家解开困扰三年的 T 细胞之谜

精选

免疫学家 Derya Unutmaz 借助 GPT-5 Pro 破解了一个困扰其团队三年的免疫学谜题，揭示了葡萄糖如何影响 T 细胞的特化过程。这一突破可能对癌症、自身免疫疾病和感染研究产生深远影响。 ## 谜题背景：T 细胞与葡萄糖的关系 T 细胞是人体免疫系统的关键组成部分，负责对抗病毒、杀死癌细胞、应对细菌和寄生虫，并区分健康细胞与威胁。在发育过程中，T 细胞会分化为不同亚型，各自承担特定功能，而这些分化方向直接影响癌症、自身免疫疾病和感染的进程。2022 年，Unutmaz 教授进行了一项实验，试图理解葡萄糖——一种单糖——如何影响 T 细胞的早期发育。T 细胞不仅以葡萄糖为能量来源，还用它来构建蛋白质和执行其他细胞功能。实验将早期 T 细胞分别置于低葡萄糖环境和含有脱氧葡萄糖（一种干扰葡萄糖利用的分子）的环境中，结果出现了令人困惑的现象：两种条件下 T 细胞的行为差异显著，但团队无法解释其背后的机制。 ## GPT-5 的介入：从数据到洞察直到 2025 年底，Unutmaz 开始使用 **GPT-5 Pro** 重新审视这批数据。他并非简单地将问题抛给模型，而是结合自己的专业知识与 AI 的分析能力，进行迭代式探索。GPT-5 Pro 帮助他识别出之前被忽略的基因表达模式，并提出了新的假设：葡萄糖不仅作为燃料，还可能通过特定的信号通路直接调控 T 细胞的分化程序。模型能够整合海量文献和实验数据，生成可验证的预测，从而加速了研究进程。Unutmaz 形容，没有 AI 的科研“就像失去了双手或半个大脑”。 ## 意义与展望：AI 驱动的免疫学新范式这一发现不仅解答了一个基础生物学问题，更展示了 **AI 增强人类专业能力** 的潜力。传统的免疫学研究往往依赖试错法，而 GPT-5 这样的模型能通过模式识别和知识关联，大幅缩短从数据到结论的周期。对于癌症免疫疗法、自身免疫疾病调控和抗感染策略，理解 T 细胞分化的精确机制意味着可能开发出更靶向的治疗方案。Unutmaz 的案例表明，AI 不再是替代科学家，而是成为科研中不可或缺的“协作者”，尤其在处理复杂生物系统和高维数据时，其价值尤为突出。

OpenAI22天前原文

Helping build shared standards for advanced AI

精选

OpenAI helps build shared standards for advanced AI, supporting evaluation frameworks, safety practices, and global cooperation through the Appia Foundation.

OpenAI23天前原文

对话式旅行新纪元：Omio 如何用 OpenAI 重塑出行体验

精选

## 从搜索到对话：Omio 的 AI 转型之路全球领先的多模式旅行平台 **Omio**，连接着超过 **3000 家** 交通服务提供商，覆盖 **47 个国家** 的火车、巴士、渡轮和航班。随着消费者习惯向对话式界面迁移，Omio 正借助 OpenAI 技术，重新定义旅行发现与预订的方式。传统旅行规划往往需要在多个网站间切换，对比不同交通方式，再拼凑出完整的行程。Omio 认为 AI 能够创造一种截然不同的体验——用户只需描述想去哪里，就能获得个性化、可预订的旅程方案。作为 OpenAI 的早期客户与合作伙伴，Omio 成为首批尝试基于实时交通数据的对话式旅行体验的旅行公司之一。同时，公司也意识到，重塑客户体验的同一技术同样可以改变内部工作方式。 ### 对话式旅行的落地 2023 年，Omio 通过 **ChatGPT** 推出了最早的旅行体验之一，将 OpenAI 模型直接连接到 Omio 的交通库存和预订系统。这一集成让旅行者可以用自然语言提问，例如“从罗马到佛罗伦萨最快的路线是什么？”或“从巴黎到巴塞罗那，坐火车还是飞机更好？” ### 加速产品开发借助 OpenAI 的 **Codex** 和 **API**，Omio 将新产品的开发周期从 **3 个月** 缩短至 **1 个月**，所需开发人力从多个开发者一个季度减少到 **一个开发者一个月**——仅为以往开发工作量的 **20%**。这种效率提升使团队能够快速迭代，推出更多 AI 驱动的功能。 ### 成为 AI 原生公司 Omio 的转型不止于客户界面。公司正全面拥抱 AI，从客服自动化到内部运营优化，逐步将 AI 嵌入每一个业务环节。CTO **Tomas Vocetka** 表示，与 OpenAI 的合作不仅加速了创新，更帮助 Omio 朝着“AI 原生”公司的目标迈进。 ### 行业启示在旅行行业，AI 正在从辅助工具演变为核心体验。Omio 的案例表明，将大语言模型与实时数据、预订系统深度整合，能够创造真正的商业价值——不仅提升用户体验，还显著降低开发成本与周期。对于希望抓住 AI 浪潮的企业而言，关键在于找到技术与场景的最佳结合点，并敢于从实验走向规模化。随着对话式 AI 的成熟，旅行规划或许将彻底告别“搜索–比较–选择”的繁琐流程，进入一个“描述–获得–出发”的流畅时代。

OpenAI23天前原文

Patch the Planet：OpenAI 发起 Daybreak 计划，助力开源维护者修复漏洞

精选

OpenAI 于 2026 年 6 月 22 日宣布推出 **Patch the Planet**，这是一项由 Daybreak 计划资助、与 Trail of Bits 合作的新倡议，旨在帮助开源维护者发现、验证并修复关键开源软件中的安全漏洞。该计划将 **AI 辅助的安全研究**（使用 OpenAI 最先进的网络安全模型）与 **专家人工审查** 相结合，不仅识别漏洞，还直接参与补丁开发。 ## 背景与痛点 AI 正在加速漏洞发现，但仅发现漏洞并不能保护用户。许多开源维护者面临 **报告激增** 的压力，而时间和资源有限。Patch the Planet 旨在减轻这一负担：安全工程师在报告到达维护者之前先行审查，与项目合作开发补丁和测试，并建立可复用的工作流，帮助团队在首次修复后持续提升安全性。 ## 运作方式每个合作从与维护者的咨询开始。安全工程师了解项目需求、偏好以及最需要安全投入的领域：漏洞验证、补丁开发、CI/CD 改进或长期安全工程。达成一致后，研究人员调查潜在漏洞，验证有效问题，开发或完善补丁，支持测试，并通过项目既定渠道协调披露。 ## 首批参与项目初始参与者包括 **cURL**、**NATS Server**、**pyca/cryptography**、**Sigstore**、**aiohttp**、**Go 项目**、**freenginx**、**Python** 和 **python.org**。这些项目支撑着广泛使用的网络、密码学、软件供应链和语言基础设施，加强其安全性可惠及大量下游产品和服务。更多项目将在未来轮次中加入。 ## 合作伙伴 - **Trail of Bits** 已投入全部安全研究团队参与初始冲刺，直接与维护者合作进行调查、验证、补丁开发和披露协调。 - **HackerOne** 和 **Calif** 将协助漏洞分类、协调披露以及额外的针对性发现工作。 ## 意义 Patch the Planet 体现了 **AI 安全从“发现”到“修复”的闭环**。通过将 AI 效率与人工专业判断结合，该计划有望缓解开源社区长期存在的安全资源不足问题，为整个软件供应链带来实质性的安全提升。

OpenAI24天前原文

Daybreak：为全球每一家组织打造安全工具

精选

OpenAI 于 2026 年 6 月 22 日发布了 Daybreak 安全工具集，旨在帮助组织以机器速度发现、验证并修复漏洞。核心更新包括：**Codex Security** 插件升级，可自动预防新漏洞进入生产环境；**GPT-5.5-Cyber** 完整版发布，在 CyberGym 基准上达到 **85.6%** 的业界最佳性能；**Daybreak 网络合作伙伴计划** 允许合作伙伴将模型能力集成到自身产品中；以及 **Patch the Planet** 倡议，联合 Trail of Bits、HackerOne 等机构，帮助 30 多个开源项目（如 cURL、Go、Python）从发现漏洞转向自动生成补丁。 OpenAI 指出，AI 已改变网络安全格局：漏洞发现不再是瓶颈，**修补漏洞** 才是当前最大挑战。Daybreak 旨在民主化补丁自动化，让更多组织受益于前沿 AI 的防御能力。

OpenAI24天前原文

Codex-maxxing：利用AI助手驾驭长周期工作

精选

随着AI工具从单次问答向持续性工作流演进，如何让模型“记住”上下文、跨步骤保持连贯性，成为企业落地的关键挑战。OpenAI 高级解决方案工程师 Jason Liu 在一份新指南中，系统阐述了如何将 Codex 打造成持久工作空间，从而支撑复杂、长周期的项目。 ## 核心思路：从“问一次”到“做全程” 传统提示词交互适合一次性任务，但面对多步骤、跨天的项目，上下文丢失、目标漂移频繁发生。Liu 提出的 **Codex-maxxing** 方法，本质是把 Codex 当作**协作伙伴**而非简单工具：通过结构化的任务拆解、状态记录和阶段性复盘，让 AI 持续理解项目全貌。 ## 三大实践策略 1. **目标分解与可验证步骤** 将宏大目标拆解为可独立验证的子任务，每个步骤完成后要求 Codex 输出明确结果或检查点。例如，在代码开发中，先让 Codex 生成模块接口，再填充实现，最后单元测试——每一步都有“完成”标准。 2. **上下文持久化** Liu 建议利用 Codex 的对话历史与系统提示，定期总结已完成的步骤、当前状态和下一步计划。这种“快照”机制能有效防止长对话中的信息衰减。 3. **人机分工决策** 指南特别强调何时交给 Codex 自动执行、何时需要人工介入。对于高风险决策、跨系统协调或需要业务直觉的环节，人类应保留最终判断；而重复性编码、文档生成、数据整理则可完全委派。 ## 行业背景与价值当前，AI 编码助手市场正从“代码补全”转向“智能体式协作”。Gartner 近期将 OpenAI 评为企业编码代理领导者，印证了这一趋势。Codex-maxxing 方法实质上是**将 AI 从“副驾驶”升级为“项目协作者”**，尤其适合需要持续迭代的软件工程、研究报告撰写、数据分析等场景。 ## 总结 Jason Liu 的指南为长期依赖 AI 的工作流提供了可操作的框架。核心启示在于：**AI 的能力边界不仅取决于模型本身，更取决于使用者如何设计交互流程**。通过合理的任务编排和上下文管理，Codex 可以成为真正意义上的“持久工作空间”，帮助企业从单次提效走向全流程自动化。

OpenAI24天前原文

Samsung Electronics brings ChatGPT and Codex to employees

精选

Samsung Electronics deploys ChatGPT Enterprise and Codex to employees worldwide, marking one of OpenAI’s largest enterprise AI rollouts.

OpenAI24天前原文

OpenAI 为 ChatGPT Enterprise 推出全新使用分析与支出控制功能

精选

OpenAI 近日宣布为 **ChatGPT Enterprise** 推出全新的 **信用额度使用分析** 与 **支出控制** 功能，旨在帮助企业管理 AI 部署成本并增强可见性。 ## 核心更新一览 - **全局管理控制台集成**：新增信用额度使用分析，管理员可查看用户、产品及模型级别的信用消耗明细，追踪使用趋势、识别高频用户，并通过统一的 Cost API 将数据导出至自有系统进行深度分析。 - **灵活的支出控制**：除了此前已推出的自定义角色信用上限外，现在管理员可为整个工作区设置默认限额，为特定群组配置上限，并为需要更多容量的用户提供单独覆盖。员工可实时查看自己的信用使用情况，并在需要时申请额外额度，同时附上工作背景说明，帮助管理员做出审批决策。 ## 行业背景与意义随着 AI 逐渐融入企业日常运营，组织需要像管理其他关键业务投资一样严格管控 AI 支出。OpenAI 此次更新回应了企业对 **成本可见性** 和 **治理能力** 的迫切需求。过去，企业往往面临“黑箱”式使用数据，难以区分高价值使用与异常消耗。新的分析工具使管理层能够基于数据做出决策，避免“一刀切”限制阻碍创新。 ## 适用场景与价值 - **成本优化**：通过细粒度分析识别低效或异常使用模式，及时调整策略。 - **赋能团队**：灵活的限额设置让不同部门根据实际需求获得合理资源，同时避免预算失控。 - **合规与治理**：清晰的审计线索和申请流程有助于满足内部合规要求。 OpenAI 表示，这些功能将帮助企业在扩大 AI 应用规模时 **更有信心**，确保技术投资聚焦于真正创造价值的工作。

OpenAI27天前原文

ChatGPT健康智能升级：GPT-5.5 Instant如何让医疗问答更可靠

精选

每周有超过2.3亿人通过ChatGPT获取健康与 wellness 建议。最新发布的 GPT-5.5 Instant 模型在健康领域实现了显著进步，其表现已接近前沿 Thinking 模型，并且对所有免费用户开放。 ## 健康智能的提升体现在哪些方面？根据 OpenAI 的评估，GPT-5.5 Instant 在以下关键维度上实现了突破： - **紧急情况识别**：更准确地判断何时需要立即就医 - **上下文理解**：主动询问相关信息，避免盲目给出建议 - **不确定性表达**：清晰说明回答的局限性，避免过度自信 - **信息可读性**：将复杂医学术语转化为通俗易懂的语言 ## 医生团队如何参与评估？ OpenAI 组建了一个全球范围内的医生网络，他们通过以下方式帮助定义“好”的医疗回答： 1. **示例评审**：评估模型生成的回复，指出优点与不足 2. **理想行为定义**：描述在真实场景下医生会如何回答 3. **故障模式识别**：发现模型可能出错的典型情况这种医生主导的评估机制，确保了模型改进方向与临床实际需求一致。 ## 评估工具：HealthBench 系列为了量化进步，OpenAI 使用了专门的健康评估基准： - **HealthBench**：覆盖通用健康咨询场景 - **HealthBench Professional**：针对更专业的医疗问题这些评估使用真实对话场景和医生编写的评分细则，从**准确性、安全性、沟通质量、上下文意识、完整性和适当转诊**等多个角度进行打分。 ## 与医生直接对比的结果在另一项测试中，OpenAI 让医生在无AI辅助、有无限时间和网络访问权限的情况下撰写回答，然后与模型回答进行盲评。结果显示，GPT-5.5 Instant 在**准确性、沟通清晰度、完整性、指令遵循和健康专业性**等方面与医生表现相当。 ## 对用户意味着什么？对于普通用户来说，这意味着： - **更可靠的日常健康咨询**：从解读化验单到了解药物副作用，都能获得更有深度的信息 - **更低的使用门槛**：免费用户也能享受到接近顶级模型的健康智能 - **更强的安全边界**：模型更清楚何时该建议用户去看医生，而不是自行处理当然，OpenAI 也强调，ChatGPT 不能替代专业医疗诊断，但在健康信息获取、就医准备和健康管理方面，它正在成为一个越来越可靠的助手。

OpenAI28天前原文

AI助力医生诊断儿童罕见遗传病，18例新确诊

精选

## 研究背景：罕见病诊断的困境即便采用了基因组测序，许多罕见病患者仍无法获得明确的遗传诊断。据统计，约半数患者在接受全面检测和专家会诊后依然无法确诊。他们的医疗数据中可能隐藏着线索，但找出这些线索需要从成千上万个基因变异中筛选，同时还要整合零散的临床记录和快速更新的科学文献。随着新的基因-疾病关联、病例报告和分类证据不断积累，原本无解的病例可能迎来转机。 ## 研究设计：AI 重新分析未解病例来自 **波士顿儿童医院 Manton 孤儿病研究中心**、**哈佛大学** 和 **OpenAI** 的研究人员合作，利用 **OpenAI o3 Deep Research 推理模型** 对 376 个此前经分析但未解决的病例进行了重新分析。这些病例的临床和基因组信息均已去标识化处理。模型生成了带有证据链的候选解释，供研究人员和临床医生审查。 ## 关键结果：18 例新诊断，诊断率提升 4.8% 经过专家复核、额外检测和临床确认，医生在 **18 例** 中建立了诊断——相比此前专家分析，**额外诊断率提升了 4.8%**。这项研究于 **2026 年 6 月 18 日** 发表在 **《NEJM AI》** 上，展示了 AI 辅助的研究工作流如何帮助专家在处理最棘手的病例时产生新的线索。许多病例此前多年未能得到确诊。 ## 工作原理：AI 生成假设，专家验证 **OpenAI o3 Deep Research** 模型帮助研究人员识别出线索，随后通过既定的临床流程进行评估。这表明，随着知识体系的演变，由专家主导的定期重新分析有望变得更加规模化。需要强调的是，**模型并未直接诊断任何患者或做出任何临床决策**，它仅生成带有证据链的假设，供专家审查，并在必要时通过额外检测和临床实验室确认。 ## 为何旧病例可能包含新答案一个不确定的基因检测结果并非永久结论。患者的表型描述、检测结果和家族史可能分散在采用不同标识符、格式和词汇的数据库中。关联这些记录非常困难，因此即使是专家也可能漏诊。此外，专家过去可能仅对部分基因进行测序，而新的测序技术或对已有数据的重新分析可能发现以前被忽略的变异。 ## 行业意义：AI 加速罕见病研究这项研究是 AI 在医学领域应用的又一重要里程碑。它证明了推理模型不仅能处理结构化数据，还能整合非结构化的临床文本和不断更新的科学文献，为罕见病诊断提供可操作的假设。未来，这种“AI 生成假设 + 专家验证”的模式有望成为罕见病诊断的标准流程，帮助更多患者找到病因。

OpenAI28天前原文

近乎自主的AI化学家优化药物化学中关键反应，GPT-5.4 立功

精选

OpenAI 与 Molecule.one 合作，展示了近乎自主的 AI 化学家如何利用 GPT-5.4 改进药物化学中的关键反应，加速科学发现。 ## 从推理到实验：AI 的跨越过去，AI 在科学领域的贡献多集中于理论推导，如数学定理证明和物理模型计算。但化学实验受限于物理世界的噪声和不确定性，AI 必须与真实仪器和分子互动才能验证假设。OpenAI 与 Molecule.one 的合作正是这一跨越的典型：他们让 GPT-5.4 连接至 Maria——一个集成了高通量实验室的自主化学 AI 系统，目标是在给定反应类别中实现改进。 ## 自主提案与迭代优化系统自主生成了多个研究提案，其中名为 **OAI-M1-03** 的方案聚焦于 **Chan-Lam 偶联反应**——一种用于构建碳-氮键的重要化学反应。GPT-5.4 独立识别出 **伯磺酰胺** 是一类具有挑战性但高价值的底物，并建议使用 **温和氧化剂（如 TEMPO）** 来提升反应效率。在 Maria Lab 中进行的两轮实验中，这一想法得到了验证。优化后的条件使 **88% 的硼酸底物** 和 **83% 的磺酰胺底物** 的产率得到提升，**平均产率从 16.6% 提高至 25%**。人类科学家仅在关键环节进行干预，如设计提示词、选择实验方案、修正操作错误以及最终结果验证。 ## 意义与展望这项研究不仅展示了 GPT-5.4 在真实实验场景中的推理能力，更预示着未来 AI 可成为科学家的“得力助手”——它能够提出假设、设计实验、分析数据并自主迭代，从而显著加速药物研发中的优化流程。OpenAI 表示，这延续了其在数学、物理学和生物学中的探索，进一步证明了 **高级 AI 在科学发现中的潜力**。

OpenAI29天前原文

OpenAI 推出 LifeSciBench：专家级生命科学研究 AI 评测基准

精选

OpenAI 近日发布了一个名为 **LifeSciBench** 的全新基准测试，旨在评估 AI 系统在处理真实世界生命科学研究任务与决策时的能力。该基准由领域专家编写并经过同行评审，覆盖分子生物学、遗传学、药物发现等多个关键子领域。 ## 为何需要专家级基准？随着 AI 在科学发现中扮演的角色越来越重要，现有基准往往过于简化或脱离实际科研场景。许多通用基准测试仅关注模型的知识问答能力，而生命科学研究需要模型具备理解复杂实验设计、分析多模态数据、推理因果关系等高级能力。LifeSciBench 的出现填补了这一空白——它由活跃在科研一线的专家设计，确保每个任务都反映真实的实验室挑战。 ## 基准构成与任务类型 LifeSciBench 包含多个子任务，每个任务都模拟一个具体的研究场景。例如： - **实验方案评估**：判断给定的实验步骤是否合理，能否达到预期目标。 - **数据解读**：分析基因表达谱或蛋白质结构数据，提出下一步假设。 - **文献推导**：根据多篇论文的结论，推理出新的研究路径。每个任务都附带专家撰写的标准答案和详细评分标准，避免模糊性。 ## 对 AI 行业的意义 LifeSciBench 的推出反映了 AI 评测从“刷榜”向“实用性”转变的趋势。此前，类似 **BIG-bench** 和 **HELM** 等基准已覆盖广泛领域，但生命科学因其专业性和高风险性，需要更精细的评估工具。对于模型开发者而言，LifeSciBench 提供了一面“照妖镜”：一个在通用对话中表现优秀的模型，可能在实验方案评估中漏洞百出。这直接推动了模型在科学推理、多步规划、不确定性表达等能力上的改进。 ## 潜在影响与局限 - **正面影响**：加速 AI 在药物研发、基因治疗等领域的落地，降低因模型错误导致的科研风险。 - **局限性**：基准仍无法覆盖全部生命科学分支，且专家评审成本高昂，更新速度可能跟不上学科进展。 OpenAI 表示将公开 LifeSciBench 的数据集和评估代码，鼓励社区参与完善。这不仅是评测工具，更是一种开放科学精神的实践——让 AI 的能力在真实科研任务中接受检验。 ## 小结 LifeSciBench 的发布标志着 AI 评测进入“专家级”阶段。它不再满足于测试模型的记忆力，而是直击科研流程中的核心决策点。对于关注 AI for Science 的研究者和从业者而言，这是一个值得持续跟踪的重要进展。

OpenAI29天前原文

OpenAI 推出部署模拟：在发布前预测模型行为，提升安全评估

精选

OpenAI 近日发布了一项名为“部署模拟”（Deployment Simulation）的新方法，旨在模型正式发布前，通过模拟真实部署环境来预测其行为表现。这项技术通过隐私保护的方式重放历史对话数据，让候选模型在接近真实的上下文中做出响应，从而更准确地评估模型可能出现的不良行为及其发生频率。在 GPT-5 系列 Thinking 模型的多次部署中，部署模拟显著提升了不良行为率的估计精度，帮助发现了传统评估未能覆盖的新型对齐问题，并降低了模型识别测试环境的风险。该方法还成功应用于更复杂的智能体场景，表明其不仅适用于标准聊天，还能扩展至涉及工具调用的自主任务。 ## 核心价值与背景随着 AI 能力的不断提升，传统评估方法（如合成提示词、人工编写或生产环境中的对抗性测试）主要关注极端或低概率的恶意场景。然而，这些测试往往忽略了日常使用中可能出现的微妙偏差。部署模拟填补了这一空白：它通过模拟真实对话流，让评估更贴近实际部署后的交互模式。例如，在 GPT-5 系列模型的开发中，部署模拟揭示了某些在传统测试中未暴露的“隐形”风险，比如模型在特定上下文中的不当回应，或对用户意图的误判。这些发现直接推动了缓解措施的制定和部署决策的调整。 ## 技术原理与扩展性部署模拟的核心流程包括： - **隐私优先的数据重放**：使用历史对话（已脱敏）作为输入，让新模型逐一响应，生成模拟的部署日志。 - **行为频率估计**：通过大量模拟对话，统计不良行为（如有害内容生成、拒绝服务等）的出现概率，而非仅依赖人工标注的少数案例。 - **自适应测试**：在模拟过程中，可以动态调整提示分布，覆盖更多边缘情况。 OpenAI 强调，该方法已成功应用于更复杂的智能体（Agent）部署，例如需要多步工具调用的场景。这表明它具备跨场景的通用性，未来甚至可用于内部模型的部署前风险评估。 ## 行业影响与未来规划部署模拟的出现，标志着 AI 安全评估从“静态测试”向“动态模拟”的转变。传统评估常面临“测试污染”问题——模型可能通过训练数据或上下文线索识别出测试意图，从而产生虚假的安全表现。而部署模拟通过隐藏测试身份，大幅降低了这种风险。 OpenAI 计划进一步优化该流程的易用性，使其成为模型开发的标准环节。可以预见，随着 AI 模型日益复杂，类似的方法将成为行业标配，帮助实验室在发布前更全面地理解模型行为，减少不可控风险。 ## 小结部署模拟并非替代现有评估方法，而是作为补充信号，提供“部署前预览”视角。它尤其适合以下场景： - 高容量对话模型（如 GPT 系列） - 涉及工具调用的智能体系统 - 需要量化风险概率的合规场景对于整个 AI 行业而言，这一方法不仅提升了安全性，也增强了公众对模型发布流程的信任。

OpenAI1个月前原文

OpenAI 推出合作伙伴网络，投资 1.5 亿美元加速企业 AI 落地

精选

OpenAI 宣布推出 **OpenAI 合作伙伴网络**（OpenAI Partner Network），旨在通过投资 **1.5 亿美元** 支持全球合作伙伴，帮助企业加速采用、部署和转型 AI。该计划与系统集成商、管理咨询公司、技术及数据提供商等首批全球合作伙伴共同启动，并计划到 **2026 年底** 培训和认证 **30 万名顾问**。 OpenAI 认为，企业实现 AI 价值的瓶颈已不再是模型能力，而是如何识别正确用例、重新设计工作流程、集成现有系统，并推动大规模采用和变革管理。合作伙伴网络将通过共同销售、部署、构建和连接等方式，提供资源和支持，帮助客户将前沿模型转化为可衡量的业务成果。首批合作案例包括 **Agilent 与 BCG**、**eBay 与 Artium**、**Paychex 与 Bain**、**T-Mobile 与 Accenture** 等，展示了从实验室到实际业务场景的落地路径。该计划标志着 OpenAI 从技术提供者向生态系统构建者转型，进一步巩固其在企业级 AI 市场的竞争力。

OpenAI1个月前原文

OpenAI Academy 推出三门新课程，助力AI时代职场转型

精选

OpenAI 宣布推出三门新的 Academy 课程，旨在帮助个人和组织构建实用的 AI 技能。这三门课程分别是 **AI Foundations**（AI基础）、**Applied AI Foundations**（应用AI基础）以及 **Agents and Workflows**（智能体与工作流）。课程设计遵循从理解到应用再到自动化的渐进路径，帮助学习者将 AI 融入日常工作。 ## 课程内容概览 - **AI Foundations**：介绍有效使用 AI 的核心概念与实践，包括提示工程、上下文提供、输出审核和负责任使用。学习者将掌握起草、总结、规划和会议准备等日常任务的改进方法。 - **Applied AI Foundations**：教授如何将有效提示转化为结构化、可重复的工作流。学习者将学会制定工作流计划，定义输入、模型、工具、检查点和人工审核，同时平衡质量、速度与成本。 - **Agents and Workflows**：聚焦如何引导智能体辅助工作，包括提供上下文、定义输出与边界、审核结果。学习者能够运行并优化可复用工作流，识别需要人工判断和监督的环节。 OpenAI 表示，学习是部署的一部分。他们与 **BCG、Accenture、BBVA** 等合作伙伴共同推动课程落地，帮助组织建立全员 AI 素养，缩短从部署到价值实现的距离。 ## 行业背景与意义随着 AI 能力快速迭代，企业面临的最大挑战已从“技术是否可用”转向“如何规模化应用”。OpenAI Academy 的课程设计直击这一痛点：不再停留于工具操作，而是强调**工作流构建**与**智能体协作**。这反映了行业趋势——未来的 AI 应用不仅是单点任务提升，更是系统性工作方式的变革。对于个人而言，掌握这些技能意味着提升职场竞争力；对于组织，则能更快实现 AI 投资的回报。OpenAI 选择与顶级咨询公司合作，也表明其战略重心正从模型研发转向**企业级落地服务**。 ## 小结 OpenAI Academy 新课程为 AI 时代的“终身学习”提供了结构化路径。无论你是初学者还是希望升级工作流的专业人士，都可以从中找到对应阶段的内容。随着更多类似教育资源的推出，AI 技能普及的门槛正在降低，而“人机协作”的新工作模式也将加速到来。

OpenAI1个月前原文

Preply 如何用 AI 辅助真人导师，打造个性化语言学习体验

精选

全球最大的在线语言学习平台 Preply 近日宣布，借助 OpenAI 的 API 推出 AI 驱动的课程总结功能“Lesson Insights”，为学习者提供个性化的语法、词汇和发音反馈，同时帮助导师减轻课后文书负担。 ## 从“人”出发，用技术放大教学价值语言学习本质上是人与人之间的互动——需要对话、信心、动力和文化理解。Preply 联合创始人兼 CTO Dmytro Voloshyn 指出：“语言学习中最大的机会在于个性化。每个学习者都有太多独特的元素，人类很难甚至不可能全部捕捉，而 AI 可以做得更好。” 基于这一理念，Preply 没有选择用 AI 替代真人导师，而是开发了 **Lesson Insights** 功能，利用 OpenAI API 对每节一对一课程进行转录分析，自动生成涵盖语法、词汇和发音的定制化反馈。学习者获得可执行的改进建议，导师则从重复的备课和笔记工作中解放出来，将更多精力投入到教学本身。 ## 数据验证：AI 工具获得导师与学习者双认可自 Lesson Insights 上线以来，Preply 内部的数据表现积极： - **95%** 的员工每周活跃使用 ChatGPT； - **超过 70%** 的导师主动使用 AI 驱动的课程洞察功能； - 该功能的产品市场匹配得分达到 **70**，用户满意度为 **4.7/5**。这些数字表明，AI 辅助工具在真实教育场景中找到了有效落点——既没有削弱导师的核心价值，反而提升了整体教学效率与学习体验。 ## 技术选型：为何选择 OpenAI Preply 在评估了多个 AI 模型后，最终选择与 OpenAI 合作。Voloshyn 解释：“OpenAI 为我们提供了最先进的模型，同时具备大规模服务全球学习者所需的速度、可靠性和生产就绪能力。” 目前 Preply 平台连接着超过 **10 万名** 专业导师，覆盖 **180 多个国家** 和 **90 多种语言**，AI 系统的稳定性和响应速度至关重要。 ## 行业启示：AI 与教育的融合新范式 Preply 的案例为 AI 在教育领域的应用提供了一个值得关注的范式：**AI 不是替代者，而是增强器**。通过处理标准化、重复性的行政任务，AI 让真人导师能够专注于情感激励、文化传递和深度互动这些机器难以复制的维度。同时，学习者获得了更清晰的学习路径和即时反馈，有助于保持长期学习动力。随着个性化学习需求的增长，如何平衡技术效率与人性化温度，将成为在线教育平台竞争的关键。Preply 的实践证明，当 AI 被精心设计为“教学辅助”而非“教学主体”时，它能够显著提升师生双方的体验，并推动语言学习朝着更高效、更可及的方向发展。

OpenAI1个月前原文