AI 资讯

每日聚合最新人工智能动态

美国正通过州与联邦行动推动AI安全

精选

OpenAI全球事务首席官Chris Lehane发表文章，阐述了美国在AI治理上采取的“反向联邦制”策略：在联邦层面尚未出台统一标准的情况下，各州先行通过类似的安全法规，逐步形成事实上的国家标准，进而为全球民主AI治理奠定基础。文章指出，加州、纽约州和伊利诺伊州近期已通过前沿AI安全立法，推动形成共同基线。这种自下而上的路径有助于美国在创新与安全之间取得平衡，避免碎片化监管，并为全球AI安全框架提供民主价值观基石。

OpenAI今天原文

GPT-Red：解锁鲁棒性的自我改进

精选

OpenAI 于 2026 年 7 月 15 日发布了 GPT-Red，这是一个自动化红队系统，通过自我博弈的方式提升 AI 安全性、对齐能力以及抵御提示注入的鲁棒性。 ## 问题：红队测试的瓶颈红队测试是发现模型漏洞、提升鲁棒性的关键手段。然而，当前的方法难以规模化，成为安全工作的瓶颈。常用的鲁棒性评估已被最新模型饱和，我们需要开发能够随着模型能力提升而同步扩展的安全与对齐方法。 ## 方法：GPT-Red 的自我博弈 OpenAI 训练了 **GPT-Red**——一个自动化红队模型，旨在规模化发现漏洞，以便在广泛部署前修复。GPT-Red 是一个强大的攻击者，之前的模型对其提示注入攻击高度脆弱。研究人员利用 GPT-Red 对 **GPT-5.6** 进行对抗训练，显著增强了其对提示注入的鲁棒性。 ## 背景与意义 AI 系统通过浏览器、连接应用、本地文件等工具频繁接触第三方数据。这些能力是执行真实世界任务的必要条件，但也为恶意行为者提供了更多影响模型行为的机会。例如，第三方可能在邮件、网页、工具响应或代码仓库中嵌入精心构造的指令，诱骗模型将敏感数据上传到外部服务器。人类红队测试是安全工作的关键部分，有助于在部署前发现漏洞并设置适当防护。但仅靠人工难以规模化：设计和执行这些测试耗时费力，限制了发现新故障模式并将其整合到更强防护中的速度。此外，虽然人工测试能产生成功的攻击案例，但无法生成训练所需的大规模、多样化的对抗数据。 ## 未来方向 OpenAI 认为，自动化红队测试解锁了一种关键的安全自我改进形式：利用今天的模型直接帮助未来的模型变得更安全。未来，他们将把这种方法与人类红队测试、第三方红队测试、分层防护以及实时监控相结合，持续提升 AI 系统的安全性。

OpenAI今天原文

智能体时代，企业如何管理AI投资？

精选

## 从token价格到“每美元有效工作量” OpenAI 的最新数据显示，从 GPT-4 到 GPT-5.4，每百万 token 的价格下降了 97%，而 GPT-5.6 进一步在 **Artificial Analysis Coding Agent Index** 中实现了每任务输出 token 减少 54%、时间缩短 57% 的进步。然而，单纯关注 token 价格已不足以衡量 AI 的真实价值。企业领导者需要转向 **“每美元有效工作量”**——即完成任务数、节省的时间、改进的决策以及可规模化的工作流。 ## 五步管理AI投资 ### 1. 清晰洞察使用与支出企业管理者需要一张“全景图”：谁在使用 AI？使用了哪些产品或模型？消耗了多少容量？支持了何种工作？没有这些信息，不断增长的账单可能意味着浪费、实验，或即将成为业务关键的工作流。 **ChatGPT Work** 支持更长的多步任务，使得不同工作流的用量差异巨大。管理员需要看到用量背后的工作内容，而不仅仅是消耗的积分。OpenAI 在 **Admin Console** 中更新了用量分析和支出控制功能，帮助管理员从工作区、团队/用户、产品/模型三个层级追踪趋势、识别模式，从而做出投资、培训或限制的决策。 ### 2. 按结果评估模型效率最低的 token 价格未必带来最低的总成本。一个较便宜的模型可能频繁失败、重试或产生需要修正的输出，而一个更强大的模型虽然单次 token 更贵，但可能一次性完成高质量结果。企业应建立 **“按结果评估”** 的框架，综合考虑任务成功率、人工干预成本及最终业务价值。 ### 3. 从实验到生产：识别高价值工作流许多 AI 项目停留在实验阶段，无法规模化。关键在于识别那些重复性高、人工成本大、且 AI 明显改进效率的工作流。例如，客户支持自动分类、代码审查、报告生成等。一旦验证可行性，应优先投资这些工作流的基础设施和模型配置。 ### 4. 设立动态预算与治理规则随着代理式工作流增多，用量可能突发增长。企业需要设置 **动态预算**，结合历史数据和业务周期自动调整上限。同时建立治理规则：哪些任务允许使用高端模型？哪些需要人工审核？如何防止意外成本超支？ ### 5. 持续优化与反馈闭环 AI 投资不是一次性决策。企业应建立持续监控和反馈机制，定期回顾每美元有效工作量的变化，调整模型选择、工作流设计和资源配置。OpenAI 的工具支持趋势追踪，管理者可据此识别哪些工作流正在创造最高回报。 ## 小结在智能体时代，AI 投资管理的关键不再是单纯压价，而是建立一套从“用量可见”到“价值可衡量”的体系。通过聚焦每美元有效工作量、按结果评估模型、规模化高价值工作流，企业才能真正将 AI 投入转化为竞争优势。

OpenAI昨天原文

销售团队如何利用 Codex 提升效率：从管道简报到停滞交易诊断

精选

销售团队的工作往往分散在 CRM 字段、通话记录、邮件线程、Slack 讨论、演示文稿、客户文档和账户信号中。OpenAI 的 Codex 工具能够将这些上下文信息整合起来，快速生成可用的初稿——无论是优先级账户简报、会议准备包、预测风险审查、账户策略包还是停滞交易诊断。销售人员和经理仍负责关系策略和判断，而 Codex 则帮助团队更快地获得工作草案。 ## 主要使用场景 ### 1. 从低活跃账户中挖掘管道机会当销售团队需要将大量低活跃账户转化为优先级行动时，Codex 可分析 CRM 记录、通话记录、邮件线程、使用信号等，生成包含排名机会、触发因素、利益相关者图谱和外联序列的简报。 ### 2. 会议准备包输入即将召开的客户会议背景，Codex 可提取最新互动、未解决问题和关键决策者信息，生成结构化的准备文档，帮助销售代表在会前快速掌握全局。 ### 3. 预测风险审查通过分析交易阶段变化、活动下降或竞品动态，Codex 自动标记高风险交易，并生成风险摘要与建议行动。 ### 4. 账户策略规划对于关键账户，Codex 可整合历史互动、产品使用数据和外部情报，输出包含扩展机会、风险点和季度目标的策略文档。 ### 5. 停滞交易诊断当交易长时间未推进时，Codex 可梳理沟通历史、识别阻塞点（如决策者变动、预算冻结），并建议破局路径。 ## 工作流程 Codex 通过插件（如 Gmail、Slack、Gong、Google Drive）接入数据源，根据自然语言提示自动生成结构化输出。团队可在此基础上完善策略、验证证据并决定下一步行动。 ## 行业影响这一应用标志着 AI 从通用聊天向垂直业务场景的深化。销售团队无需手动整理碎片信息，而是将时间更多地投入到高价值的人际互动和策略决策中。Codex 的“初稿”能力降低了重复性劳动，同时保持了人对关键判断的掌控。

OpenAI2天前原文

数据科学团队如何用 Codex 加速分析产出

精选

OpenAI Academy 最新分享展示了数据科学团队如何借助 Codex 将零散输入快速转化为可供评审的分析资产。从仪表盘、指标定义到实验笔记和业务上下文，Codex 能生成包含图表、说明、来源链接和待审问题的初稿，让团队专注于验证证据与优化建议。 ## 核心工作流：从输入到初稿传统数据科学工作往往止于查询，但真正的价值在于产出可读、可质疑、可行动的交付件。Codex 改变了这一流程： 1. **KPI 根因分析** — 当关键指标异常波动时，团队可提供仪表盘、指标定义、导出数据、营销活动背景及利益相关方讨论记录。Codex 会按细分、同期群、渠道、地域和产品面拆解变化，生成一份包含图表、已确认驱动因素、假设、说明、来源链接和待办问题的根因简报。 2. **影响评估** — 需要量化某个功能或活动的影响时，Codex 可依据实验数据、指标定义和业务背景，输出影响评估报告，区分统计显著性与实际业务意义。 3. **KPI 备忘录** — 定期复盘时，Codex 能基于历史趋势和近期事件，生成包含关键发现、图表和建议的 KPI 备忘录。 4. **仪表盘规范** — 对于新仪表盘需求，Codex 可根据业务问题描述和现有数据源，输出仪表盘设计规范，包括指标定义、可视化类型和交互建议。 ## 实际运作方式 Codex 集成了 **Google Drive、电子表格、Slack、Gmail、文档** 等插件，可自动抓取相关上下文。用户只需提供核心输入（如仪表盘截图、指标定义文件、导出 CSV），Codex 便会调用其推理引擎，结合业务语境生成初稿。输出内容包含： - 数据图表（直接嵌入） - 关键发现与说明 - 来源链接（便于追溯） - 待审问题与待办事项 - 建议的后续动作团队随后可对初稿进行验证：检查证据链是否完整、压力测试假设的合理性、优化最终建议。 ## 对行业的启示这一能力反映了 AI 工具在专业工作流中的演进方向——从“辅助写作”转向“辅助分析”。对于数据科学团队，Codex 并非替代分析师，而是将分析师从重复的“写报告”中解放出来，让他们更多投入在**判断与决策**上。值得注意的是，Codex 的初稿质量高度依赖输入质量。团队需要确保提供的仪表盘、指标定义和上下文足够准确、完整。OpenAI 也在其网络研讨会中强调了这一点，并建议用户从简单场景开始，逐步建立信任。 ## 小结 Codex 为数据科学团队提供了一条从数据到决策的加速路径。通过自动化初稿生成，它让团队能更快地交付分析成果，同时保持对关键逻辑和业务含义的把控。对于追求效率与质量并重的团队，这是一个值得探索的方向。

OpenAI2天前原文

德国电信如何用AI重塑电信业：从客服到网络运营的全面变革

精选

德国电信（Deutsche Telekom）正致力于成为全球首批“AI原生电信公司”之一。这家拥有超3亿客户、20万员工的行业巨头，正在用AI重新设计客户服务、员工工作流、网络运营乃至语音通信的未来。其首席产品与数字官Jonathan Abrahamson表示，成为AI原生企业不是简单地将AI添加到现有工作方式中，而是要重新设计工作本身。目前，该公司已有5万多名月活用户使用ChatGPT和API工具，AI工具使用量自2026年初以来增长了546%。 ## 从员工赋能到业务重塑德国电信的转型采取了自上而下的领导与广泛员工参与相结合的方式。第一阶段重点是让员工使用ChatGPT Enterprise并鼓励实验。员工迅速接受了AI，就像他们在个人生活中使用AI一样，从而对更广泛的访问权限和新功能产生了强烈需求。与此同时，德国电信开始重新设计关键的面向客户的工作流。**客户服务**成为最早的投资领域之一。Abrahamson认为，AI驱动的客户服务仍处于早期阶段，但中期和长期潜力巨大。随着这些系统获得更多上下文、从每次交互中学习，并消除转接和等待时间等常见痛点，它们将带来质的飞跃。 ## 网络运营的智能化除了客户服务，网络运营也是AI改造的重点。电信网络极其复杂，涉及大量实时数据和故障排查。德国电信利用AI进行**预测性维护**和**自动化故障响应**，从而减少网络中断时间，提升服务质量。AI还能优化流量路由，确保高峰时段的连接稳定性。 ## 员工工作流的变革内部工作流的AI化同样显著。从代码生成、文档编写到数据分析，员工使用AI工具的效率大幅提升。Abrahamson提到，AI正在改变决策方式——过去依赖直觉或冗长报告，现在可以基于AI实时分析的数据驱动决策。 ## 语音通信的未来作为传统电信核心业务的语音通信也在被AI重新定义。德国电信正在探索AI如何增强语音服务，例如实时翻译、智能语音助手以及更自然的交互体验。这不仅是技术升级，更是服务模式的创新。 ## 总结德国电信的AI转型并非一蹴而就，而是一个系统工程。从客服到网络，从员工到客户，AI正在渗透每一个环节。其目标不仅是提升效率，更是从根本上改变电信业务的运营模式。随着AI工具的持续普及（使用量增长546%只是开始），德国电信正在为整个行业树立标杆。

OpenAI6天前原文

ChatGPT 入门指南：开启你的首次对话，掌握写作、头脑风暴与问题解决技巧

精选

## 什么是 ChatGPT？ ChatGPT 是一款基于大型语言模型构建的对话式 AI 助手，能够理解自然语言并实时生成类人回应，帮助用户思考、写作和解决问题。它并非简单的问答工具，而是通过 **提示词（prompt）** 驱动的智能伙伴，可处理文本、图像、音频、文件等多种输入形式。 ## 如何开始你的首次对话？ 1. **打开 ChatGPT 界面**：访问 ChatGPT 平台，系统会自动为你创建一个新聊天窗口。 2. **输入提示词**：提示词是你与 ChatGPT 对话的起点，可以是问题、指令或任何你想讨论的内容。例如，你可以复制并修改这个示例提示词： > “告诉我如何用 ChatGPT 让我的生活更轻松。我是一名 [你的职业或身份描述]。请给我 5 件现在就能做的事，并为每件事提供一个提示词。” 3. **阅读并优化回应**：ChatGPT 生成回复后，你可以通过追问或补充细节来优化结果，逐步探索其能力边界。 ## 发现 ChatGPT 的高效使用场景一个实用的方法是：从你日常工作中已以聊天形式进行的任务入手。这些任务通常具备 **易尝试、低风险、即时有用** 的特点，是理想的入门用例： - **起草文稿**：快速生成初稿，打破“空白页焦虑”。 - **头脑风暴**：获取创意灵感，拓展思维边界。 - **总结长内容**：提炼核心信息，节省阅读时间。 - **整理笔记**：将零散想法转化为清晰表述。 - **分析问题**：多角度思考，辅助决策过程。如果 ChatGPT 能帮你更快完成初稿、梳理思路或减少无效耗时，这通常意味着该任务与其能力高度匹配。 ## 从简单对话到结构化工作流随着使用深入，你会发现 **重复性高、步骤多、需长期上下文** 的任务更适合深度整合。这时，可以借助以下工具提升效率： - **项目（Projects）**：组织源材料，保持指令一致性。 - **自定义 GPTs**：针对特定领域定制助手。 - **技能（Skills）**：将一次性提示转化为可重复工作流。 **核心建议**：从简单聊天任务开始，留意哪些操作你重复执行，然后逐步构建更结构化的设置，让 AI 真正融入你的工作节奏。 ## 为什么 ChatGPT 能改变你的工作方式？在 AI 行业快速演进的背景下，ChatGPT 代表了 **自然语言交互** 的普及化。它降低了技术使用门槛，让非专业用户也能通过直观对话获取智能支持。无论是内容创作者、学生、开发者还是管理者，都能通过有效提示词挖掘其潜力，将重复性劳动转化为创造性探索。记住：ChatGPT 的价值不仅在于回答，更在于 **协作**。你越清晰表达需求，它越能提供精准助力。现在，就输入你的第一个提示词，开始这场 AI 赋能之旅吧！

OpenAI6天前原文

GPT-5.6 成为 Microsoft 365 Copilot 首选模型：更强 AI 赋能 Word、Excel、PowerPoint

精选

2026 年 7 月 9 日，OpenAI 宣布 GPT-5.6 将成为 Microsoft 365 Copilot 的新首选模型，覆盖 Word、Excel、PowerPoint、Chat 和 Cowork 等核心应用。这一更新将 OpenAI 最新旗舰模型系列引入日常生产力工具，帮助用户在文档撰写、数据分析、演示制作和跨团队协作中获得更强大的 AI 辅助。 ## 关键更新内容 GPT-5.6 是 OpenAI 最新旗舰模型，其核心亮点包括： - **更高 token 效率**：每个 token 产出更多有用工作，性能成本比显著提升 - **按需复杂任务处理**：能够按需处理最复杂的任务 - **更少轮次交互**：用户可以用更少的提示轮次获得高质量输出 ## 各应用场景的具体提升 ### Word：更智能的文档处理在 Word 中，GPT-5.6 能帮助用户起草、编辑和润色文档，减少反复提示的次数。无论是撰写报告还是修改文案，AI 能更准确地理解意图，提供更贴合语境的建议。 ### Excel：深度数据分析 Excel 中的 GPT-5.6 支持更深入的数据分析，同时更高效地使用 token。用户可以从原始数据更快地转化为洞察，减少手动公式编写和数据处理时间。 ### PowerPoint：高效演示制作在 PowerPoint 中，模型能将早期想法快速转化为视觉上更吸引人的演示文稿，减少手动调整的步骤。用户只需提供核心思路，AI 即可生成结构清晰、设计精美的幻灯片。 ### Cowork：跨职能协作 Cowork 场景下，GPT-5.6 帮助用户完成复杂的跨职能工作，产出更高质量的结果，减少手动协调工作。这对于需要多部门协作的项目尤其有价值。 ## 官方声音 Microsoft Copilot 与 Agents 核心总裁 Nitin Agrawal 表示：“我们迫不及待看到 GPT-5.6 在 Microsoft 365 中的表现，让客户在日常使用的工具中更有效地利用 AI。借助 OpenAI 最新模型驱动的 Copilot，客户能够在 Word、Excel、PowerPoint、Cowork 和 Copilot Chat 中产出更精致的成果。” OpenAI API 产品负责人 Nikunj Handa 补充道：“Microsoft 365 是数百万人每天写作、分析、创作和协作的地方。通过 OpenAI API 将 GPT-5.6 引入 Microsoft 365 Copilot，我们帮助组织从每个 token 中获得更多有用工作，从他们已经使用的工具中获得更多 AI 价值。” ## 技术实现除了原生集成模型外，Microsoft 还将通过 OpenAI API 直接访问模型，为 Microsoft 365 客户提供 GPT-5.6 能力。这延续了 OpenAI 与 Microsoft 长期以来的合作传统——将先进 AI 带给全球用户。 ## 行业意义此次更新标志着 AI 生产力工具的重要里程碑。GPT-5.6 的 token 效率提升意味着企业可以在不增加成本的情况下获得更高质量的输出，而按需复杂任务处理能力则让 AI 从辅助简单任务扩展到支持更复杂的业务场景。对于 Microsoft 365 的 3.45 亿商业用户而言，这可能是他们在日常工作中感受到 AI 价值最直接的一次升级。

OpenAI6天前原文

ChatGPT 升级为“工作伙伴”：可跨应用执行任务、连续工作数小时

精选

OpenAI 于 2026 年 7 月 9 日发布 **ChatGPT Work**，这是一款内置在 ChatGPT 中的智能代理，能够跨应用和文件执行操作，并可在需要时持续工作数小时，将目标转化为成品。ChatGPT Work 基于最新前沿模型 **GPT-5.6**，并集成了 **Codex** 技术——后者每周已有超过 500 万用户使用，其中超 100 万用于非软件开发场景。 ### 核心能力：从对话到执行 ChatGPT Work 不再局限于回答问题，而是能主动行动： - 跨应用整合信息，生成表格、幻灯片、文档甚至 Web 应用。 - 将复杂项目分解为小步骤，自主完成，支持长达数小时的持续工作。 - 通过 **Scheduled Tasks** 功能，即使用户离线，也能独立处理来自 Microsoft Teams、Slack 等工具的消息，更新文档或幻灯片，并与团队同步变更。 ### GPT-5.6：更强的推理与模板遵循能力 GPT-5.6 是驱动 ChatGPT Work 的新一代前沿模型，在多步骤推理和按模板/参考文件创建材料方面达到业界领先水平。该模型已于同日向用户开放。 ### 实际应用案例在早期测试中，ChatGPT Work 展现出显著价值： - **销售场景**：将客户研究发现转化为营销活动简报，再生成营销素材，并针对不同市场进行适配，全程保持上下文连贯。 - **内部效率**：OpenAI 内部近 100% 的团队（包括财务和销售）已使用 ChatGPT Work 和 Codex 加速工作，处理更复杂的任务。 - **合作伙伴**：Zapier、RingCentral、Virgin Atlantic、NVIDIA 等企业也在测试中。 ### 使用建议 OpenAI 建议用户从自己熟悉的场景入手，例如分析月度预算差异、将源材料转化为营销简报、或为销售会议做准备。用户可以实时跟踪进度、回答问题、调整方向，并授权关键操作。 ### 行业意义此次发布标志着 AI 从“问答工具”向“主动执行代理”的关键跨越。结合 Codex 的广泛采用和 GPT-5.6 的推理能力，ChatGPT Work 有望重新定义人机协作模式，尤其适合需要长期跟踪和多步骤协作的复杂工作流。

OpenAI6天前原文

OpenAI 升级 GPT-5.5 生物漏洞赏金计划：奖励翻倍至 5 万美元

精选

OpenAI 于 2026 年 7 月 9 日宣布，其 GPT-5.5 Bio Bug Bounty 计划将升级为一项持续性的私密项目——OpenAI Bio Bounty Program。该计划旨在通过悬赏方式，寻找能够突破 OpenAI 前沿模型（从 GPT-5.6 开始）预设生物安全防御的通用越狱方法。 ## 关键更新最引人注目的变化是**奖励金额大幅提升**：针对 GPT-5.6 和 GPT-5.5 的通用越狱奖励从原先的 **25,000 美元翻倍至 50,000 美元**。对于部分成功的提交，OpenAI 保留酌情颁发小额奖励的权利。 ## 时间线与范围调整 - **GPT-5.5 测试截止日期**：2026 年 7 月 27 日。在此日期之后，该模型的测试将完全结束。 - **未来聚焦**：此后，该计划仅针对 GPT-5.6 及后续模型。OpenAI 承诺会及时与研究人员沟通后续范围变更。 ## 参与方式感兴趣的研究人员可通过滚动申请流程提交简短申请（包含姓名、所属机构、相关经验）。入选者需拥有现有的 ChatGPT 账户，并签署保密协议（NDA）。此前已申请 GPT-5.5 计划的研究人员无需重新申请。 ## 行业背景这一举措是 OpenAI 持续强化高级 AI 生物安全能力的一部分。随着模型能力的快速迭代，确保其不被恶意用于生物风险领域已成为行业共识。通过将赏金计划升级为长期项目，OpenAI 意在建立一个稳定的外部安全研究社区，以应对日益复杂的越狱攻击。此外，OpenAI 还运营着更广泛的 **Safety Bug Bounty** 和 **Security Bug Bounty** 计划，覆盖其他安全漏洞类别。

OpenAI6天前原文

OpenAI公布国家安全合作原则：在民主监督下推动AI防御应用

精选

OpenAI 于2026年7月8日发布《国家安全原则》，首次系统阐述其与政府及国家安全机构合作的指导方针。随着前沿AI系统越来越多地被用于国防、网络安全、生物安全等敏感领域，OpenAI 强调，民主社会应能利用AI保护公民、捍卫关键基础设施、提供公共服务并应对新兴威胁，但必须确保部署方式符合民主问责、人类判断和法治原则。 ## 核心原则与背景 OpenAI 指出，AI在网络安全和生物防御等领域的防御性应用具有显著优势，能够有效增强防御者能力。然而，日益强大的AI系统必须在强化民主制度、防止权力集中的框架下使用。为此，公司制定了这套原则，旨在为政府合作提供透明度，并平衡技术创新与公共安全。原则的制定过程涉及公司内部跨团队协作，包括研究、安全、政策和政府合作等部门，并邀请了国家安全专家 David Kris 提供独立意见。OpenAI 表示，这些原则将适用于当前及未来的国家安全与执法合作，包括已有的与“战争部”的合作项目。 ## 近期合作进展在发布原则的同时，OpenAI 还披露了多项与盟国政府的安全合作成果： - **Daybreak 网络防御计划**：已与澳大利亚、加拿大、日本、韩国、法国、德国、波兰、荷兰等国家，以及欧盟网络安全局（ENISA）建立了“可信访问”伙伴关系。 - **与英国政府的合作**：在网络安全测试与评估领域，OpenAI 与英国政府建立了持续深化的信任关系。 - **生物安全领域**：上个月，OpenAI 宣布扩大对美国及盟国政府机构的 **GPT‑Rosalind 模型** 可信访问，以支持公共卫生和生物防御任务。 ## 行业意义与挑战 OpenAI 此举正值全球各国政府加速将AI纳入国家安全体系的关键时期。一方面，AI在威胁检测、漏洞分析、生物风险预警等方面展现出巨大潜力；另一方面，技术滥用、算法偏见、决策黑箱等问题也引发公众担忧。OpenAI 主动发布原则，意在为行业树立标杆，表明其愿意在民主监督下与政府合作，而非单纯追求技术授权。不过，原则的实际执行仍面临挑战：如何界定“防御性”与“进攻性”用途？如何确保人类判断不被算法替代？尤其是在与“战争部”等军事机构的合作中，透明度和问责机制能否落实仍有待观察。 OpenAI 表示，未来将持续更新原则，并邀请更多民间社会力量参与讨论，共同塑造AI在国家安全领域的负责任使用范式。

OpenAI7天前原文

AI编码评估中的“信号”与“噪声”：OpenAI审计发现SWE-Bench Pro约30%任务存在缺陷

精选

## 基准测试的信任危机：SWE-Bench Pro 被曝约三成任务“有问题” OpenAI 近日发布的一项详细审计报告指出，业界广泛使用的 AI 编码能力基准测试 **SWE-Bench Pro** 存在严重任务缺陷，约 **30%** 的任务被判定为“有问题”。这并非孤立事件——此前 OpenAI 已发现其前身 SWE-bench Verified 存在根本性设计与污染问题，并呼吁社区转向 SWE-Bench Pro。如今，连这个“下一代”基准也未能幸免。 ### 四大问题类型：什么在“作弊”？审计团队通过自动化管道筛查、多轮 AI 审查以及五名资深工程师的独立复核，将问题归纳为四类： 1. **过于严苛的测试**：测试代码强制要求特定的实现细节，而这些细节在任务描述中并未提及，导致许多功能正确的提交被判定失败。 2. **描述不充分的 prompt**：任务描述遗漏了隐藏测试所强制要求的关键需求，且这些需求无法通过常识合理推断。 3. **低覆盖率测试**：测试用例未能充分覆盖所要求的功能，使得不完整的修复也能通过。 4. **误导性 prompt**：任务描述指向错误的行为方向，或与测试实际要求相矛盾。 ### 从“已验证”到“专业版”：问题为何依旧？ SWE-Bench Pro 本是为了解决前代基准 SWE-bench Verified 的缺陷而设计，它通过更长期、更现实的编码任务来追踪 AI 的“代理编码能力”。在 731 个公开任务中，前沿模型在八个月内通过率从 **23.3%** 飙升至 **80.3%**——这一惊人进步如今看来部分可能是水分。OpenAI 强调，当评估存在影响结果的缺陷时，它们会扭曲对能力的理解，误导安全决策与研究优先级。 ### 影响与启示：AI 评估的“测不准”困境这一发现对 AI 行业具有双重警示： - **对研发方向**：如果基准测试本身不可靠，模型开发者可能针对“错误的目标”进行优化，而非真正提升编码能力。 - **对安全评估**：OpenAI 将准确度量模型能力视为安全部署的关键，尤其是在其“准备框架”下。有缺陷的评估可能导致对模型风险的低估或高估。 OpenAI 此次审计并非全盘否定 SWE-Bench Pro，而是呼吁社区共同改进评估方法。他们建议研究者在使用该基准时，对结果持审慎态度，并考虑结合其他评估维度。 ### 小结基准测试是 AI 进步的“标尺”，但尺子本身也需要校准。SWE-Bench Pro 的审计结果再次提醒我们：在追逐更高分数时，必须警惕“噪声”混入“信号”。对于从业者而言，一个更健康的态度是——**不迷信单一基准，多维度交叉验证**。

OpenAI7天前原文

OpenAI Academy携手沃尔顿家族基金会，为K-12教师打造AI技能实战工作坊

精选

OpenAI Academy与沃尔顿家族基金会合作，将于今年夏天举办首届面向K-12教育工作者的AI技能实战工作坊（AI Skills Jam）。该活动旨在帮助教师和管理人员将AI融入日常教学、规划、沟通等场景，提升效率并推动AI素养普及。根据沃尔顿家族基金会与盖洛普联合发布的《为明天而教：弥合期望差距报告》，每周至少使用一次AI工具的教师平均每周节省5.9小时，相当于每学年约六周的时间。节省下来的时间被用于学生反馈、个性化备课、家长沟通等更有价值的活动。本次工作坊将在美国多个城市举行，预计吸引超过1600名教师、学校管理者和学区领导参与。参与者将在OpenAI导师的指导下，进行实践操作，学习如何将AI应用于备课、行政沟通、家长联络等真实场景。工作坊注重动手实践与信任建立，鼓励提问、分享顾虑并积累信心。活动结束后，参与者还将获得OpenAI Academy免费在线平台的持续支持，该平台提供AI应用资源与最佳实践指南，帮助教育工作者持续提升AI技能。此次合作标志着AI教育从理论走向实践的重要一步，也为解决教师时间紧张、资源不均等挑战提供了新思路。

OpenAI7天前原文

三菱日联金融集团携手OpenAI，迈向“AI原生”银行之路

精选

日本最大金融集团之一三菱日联金融集团（MUFG）正通过部署ChatGPT Enterprise，加速向AI原生企业转型。截至2026年5月，已有约35,000名三菱UFJ银行员工在日常工作中使用该工具。MUFG集团CDTO山田忠史表示，AI将从根本上改变金融的本质，而OpenAI的技术与协作让这一愿景成为可能。从2024年10月起，双方开始合作，计划通过生成式AI实现运营现代化、提升效率，并创造全新的客户体验。MUFG不仅将AI视为效率工具，更将其视为拓展人类思维与创造力的方式，致力于构建员工与AI共同学习的文化。 ## 从试点到规模化：35,000名员工的AI实践 2024年10月，MUFG与OpenAI启动合作，探索生成式AI在金融业务中的应用。2026年初，三菱UFJ银行开始分阶段部署ChatGPT Enterprise，目标覆盖约35,000名员工。这一规模在金融行业属于前列，体现了MUFG对AI落地的决心。 MUFG集团CDTO山田忠史强调：“我相信AI将从根本上改变金融的本质。要让AI快速融入组织，关键在于营造一个每位员工都能自然使用AI的环境和文化。”为此，MUFG采取了自上而下的领导承诺与自下而上的员工赋能相结合的策略。 ## OpenAI：从设计到落地的深度伙伴在选择AI合作伙伴时，MUFG看重的是OpenAI的前沿技术与协作精神。山田忠史评价道：“OpenAI与我们共享成为AI原生公司的愿景。凭借其前沿技术和模型，我们看到了一个能将愿景变为现实的合作伙伴。”OpenAI不仅在技术层面提供支持，更从服务设计到实施落地全程参与，帮助MUFG同时推进客户服务创新和银行业务转型。 ## AI原生：超越效率工具的战略定位 MUFG对AI的定位远不止于提升效率。集团认为，AI是延伸人类思维和创造力的方式，员工与AI可以相互学习，共同构建更好的金融服务。这种理念体现在三个方面： - **运营转型**：通过ChatGPT Enterprise优化内部流程，降低重复性工作耗时。 - **客户体验创新**：利用AI提供个性化、智能化的金融服务，例如智能客服、投资建议等。 - **文化变革**：培养“AI原生”思维，让每位员工都能在日常工作中自然使用AI，形成人机协作的新工作模式。 ## 金融业的AI竞赛：MUFG的先行者优势在全球金融业，AI已成为竞争焦点。MUFG的大规模部署不仅提升了内部效率，更可能在客户服务、风险控制等领域形成差异化优势。通过OpenAI的先进模型，MUFG有望在零售银行、财富管理、信贷审批等场景中率先推出AI驱动的创新服务。值得注意的是，MUFG的转型并非一蹴而就。从2024年10月开始探索，到2026年初的规模化部署，整个过程体现了金融机构在技术应用上的谨慎与稳健。随着35,000名员工的逐步接入，MUFG正从“使用AI”迈向“成为AI原生”的新阶段。 ## 未来展望 MUFG的案例为金融行业提供了重要参考：AI原生不是简单的工具部署，而是涉及战略、文化、流程的系统性变革。随着更多员工熟悉AI工具，MUFG有望在内部创新和外部服务上释放更大价值。OpenAI与MUFG的合作也表明，前沿AI技术正在深入垂直行业，推动传统金融服务的重构。

OpenAI9天前原文

澳大利亚支付巨头AP+用ChatGPT和Codex加速支付复杂性处理

精选

澳大利亚支付与身份基础设施公司 **Australian Payments Plus（AP+）** 近日分享了其利用 **ChatGPT Enterprise** 和 **Codex** 提升团队效率的实践成果。作为连接数百万用户日常支付的核心枢纽，AP+ 面临着规则、技术规范、运营流程、网络安全及监管合规等多重复杂挑战，准确性与问责制至关重要。 ### 效率提升：从数据到行动 AP+ 在全公司范围内推广 ChatGPT Enterprise，帮助员工快速合成大量上下文信息，将技术性内容转化为清晰的决策、文档和面向成员的指导。调查显示，**77% 的受访员工每周节省超过 2 小时**，**80% 的员工报告创造力或工作质量有所提升**。 ### Codex 加速技术调查对于产品、工程和技术团队，**Codex** 成为下一阶段的关键工具。在一次对账实例中，团队利用 Codex 追踪系统日志与对账数据中微妙的时间戳不一致问题，将原本需要数天的调查缩短至 **30 分钟**。此前类似问题通常需要 **4 小时** 手动排查。此外，Codex 还被用于构建工作模拟，**原来需数天至数周的任务，现在一天内即可完成**。 ### 安全与风险：AI 辅助而非替代 AP+ 还在探索 Codex 在安全团队中的应用，包括威胁建模、漏洞分析、警报分类以及跨系统可见性。公司强调，**AI 的目标不仅是提高效率，更是帮助员工发挥最佳水平**，同时保持人类专家对风险决策的最终责任。 ### 行业启示在支付行业，速度与准确性并重。AP+ 的实践表明，大型语言模型（LLM）和代码生成工具能够显著降低重复性认知负荷，使技术人员专注于更高价值的判断工作。随着金融监管日益严格，这种“人机协作”模式或将成为行业标配。

OpenAI9天前原文

ChatGPT 普及浪潮：全球用户如何从“尝鲜”走向“深度依赖”

精选

OpenAI 最新发布的 Signals 数据显示，ChatGPT 的全球采用正在经历一场从“广度”到“深度”的深刻转变。用户不仅数量激增，使用行为也发生了质变：他们使用更频繁、任务更多样，且用户群体在地域和性别上均变得更加多元。 ## 深度使用：六个月后的用户画像数据显示，用户注册 ChatGPT 六个月后，**日均发送消息数量比刚注册时增加了 50%**。更重要的是，他们尝试的**不同任务类型数量翻了一番**。这表明，用户并非浅尝辄止，而是逐渐将 ChatGPT 融入工作、学习和生活的核心流程中，从简单的问答扩展到编程、写作、头脑风暴、数据分析等复杂场景。这种“越用越深”的模式，是 AI 工具从新奇玩具演变为生产力平台的关键标志。 ## 全球版图：非洲与亚洲领跑增长自 2023 年 7 月以来，ChatGPT 的周活跃用户在各大洲均呈现强劲增长。其中，**非洲和亚洲的相对增速最快**。按人类发展指数（HDI）分组来看，**低 HDI 国家的周活跃用户增长最为迅猛**。OpenAI 通过免费版和 Go 计划提供的低成本访问，是推动这一趋势的重要因素，使 AI 工具跨越了经济门槛。 ## 性别均衡化：女性用户占比显著提升一个值得注意的社会趋势是，**使用 ChatGPT 的女性用户比例正在上升**，目前已占全球使用量的多数。在巴西、哥伦比亚、波兰和纳米比亚等国家，女性用户的活跃度甚至显著超过男性。而在巴基斯坦、孟加拉国、安哥拉、刚果（金）和马里等国家，男性用户仍占主导。这种地域差异反映了不同社会文化背景下，AI 工具在性别普及上的复杂图景。 ## 行业视角：AI 普及进入新阶段这些数据共同描绘了 AI 普及的下一阶段：**从早期采用者走向大众市场，从单一场景走向多任务渗透，从精英工具走向普惠技术**。对于企业和开发者而言，这意味着需要重新思考产品设计——如何服务一个更庞大、更多样、使用更深入的用户群体？对于政策制定者，则提示了数字鸿沟的新维度：不仅关乎接入，更关乎不同人群如何有效利用 AI 的能力。

OpenAI15天前原文

GeneBench-Pro 发布：AI 在基因组学与生物学中的判断力迎来严苛新测试

精选

OpenAI 今日正式发布 **GeneBench-Pro**，一个面向计算生物学领域、专为评估 AI 系统在真实科研场景中高阶判断能力而设计的基准测试。该基准在原有 GeneBench 基础上大幅升级，覆盖基因组学、定量生物学与转化医学中更具挑战性的任务，旨在衡量模型处理模糊性、迭代修正分析路径以及做出关键科研决策的能力。 ## 为何需要新的基准？科研数据很少自带“说明书”。研究人员必须自行判断：某个模式是生物学信号还是噪声？现有数据能否支撑待解答的问题？每一个结果又该如何指导下一步行动？尽管当前 AI 模型已能熟练执行复杂的数据分析流程，但真实的科学研究还依赖于更高层次的判断——这正是 GeneBench-Pro 试图量化的核心能力。 OpenAI 指出，此前业界缺乏令人信服的评估手段来衡量这类“系统性判断”，包括处理歧义、修正假设、选择正确分析路径，以及判断结果是否已具备决策条件。这些能力难以形式化，因此也难以严格评估，但恰恰成为制约 AI 在科研领域整体表现的关键瓶颈。 ## “科研品味”的可量化评估 GeneBench-Pro 引入了一个独特概念——**“科研品味”**（research taste），将其定义为塑造整个分析过程的判断链条：数据能回答哪些问题？早期诊断结果应如何改变模型或估计目标？初始计划何时需要修订？每个问题都会提供给模型一个真实且杂乱的数据集、简要的实验背景，以及一个与下游决策直接关联的目标估计量。模型必须主动探索数据、选择恰当的分析方法、进行迭代实验，并最终给出答案——整个过程模拟了科研中从数据到结论的完整推理路径。 ## 数据构造与行业背景在生物学领域，数据生成成本（如基因组测序）已大幅下降。一些研究人员甚至认为，当前科研的瓶颈已不再是样本采集，而是下游分析。GeneBench-Pro 正是为应对这一转变而设计——它要求 AI 不仅要会“跑流程”，更要会“做判断”。该基准的推出，标志着 AI 在科学发现领域的评估标准从“能否执行任务”向“能否像科学家一样思考”迈进。对于从事计算生物学、精准医学以及 AI for Science 的团队而言，GeneBench-Pro 提供了一套可复用的、高难度的能力检验框架。 ## 影响与展望 GeneBench-Pro 的发布不仅为模型开发者提供了更清晰的优化方向，也为科研社区如何信任和使用 AI 辅助工具设立了新的标尺。未来，具备高阶判断能力的 AI 有望在药物发现、基因功能解读、疾病机制探索等场景中发挥更大价值。论文已同步公开，详细介绍了基准设计、数据集构建与评估方法。

OpenAI16天前原文

核心转储流行病学：修复一个18年的老Bug

精选

## 核心转储流行病学：修复一个18年的老Bug OpenAI 的工程师最近通过大规模核心转储（core dump）分析，成功定位并修复了其数据基础设施中两个看似不可能的错误——其中一个竟然是来自底层库 **GNU libunwind** 中潜伏了 **18年** 的竞态条件。 ### 奇怪的崩溃现象故事始于 OpenAI 的 **Rockset** 服务（ChatGPT 数据基础设施的关键组件）出现一系列崩溃。崩溃表现为：一个正常的 C++ 函数执行完毕后，返回到一个无效地址，导致程序被内核终止。有时返回地址是 NULL，有时栈指针寄存器 `%rsp` 莫名其妙地偏移了 8 字节。这些异常模式在常规应用代码中几乎不可能出现。团队尝试了所有常规调试手段，甚至借助 ChatGPT 分析，但每个假设都被证据推翻。这个 Bug 看起来“不可能”。 ### 流行病学方法传统调试依赖对少数核心转储的深入检查，但面对这种罕见且诡异的崩溃，团队改变了策略——**像流行病学家一样思考**。他们收集了所有崩溃的核心转储，构建了一个高质量的全量数据集，从统计模式中寻找线索。通过大规模分析，他们发现崩溃其实源于两个完全独立的问题，只是恰好在同一时间被发现： 1. **硬件故障**：某个 Azure 主机上的 CPU 存在静默计算错误，导致指令执行异常。 2. **软件 Bug**：GNU libunwind 中一个存在了 18 年的竞态条件。该库用于栈回溯，在特定并发场景下会破坏栈帧，导致返回地址被覆盖。 ### 修复与启示硬件问题通过更换主机解决；软件 Bug 则提交了补丁给上游社区。这个案例展示了**大规模崩溃数据分析**在定位极低概率 Bug 上的威力——当单点检查失效时，全量统计能揭示隐藏的规律。 OpenAI 的工程师强调，随着 AI 系统对底层基础设施依赖加深，**C++ 的内存安全问题**与**硬件可靠性**将成为持续挑战。而“核心转储流行病学”这种跨领域方法，或许会成为未来大型系统调试的标配。

OpenAI16天前原文

揭秘Genebench-Pro：基准测试、问题与支撑材料深度解析

精选

2026年6月30日，OpenAI发布了Genebench-Pro基准测试的详细案例研究，揭示了10个具有代表性的问题及其背后的数据集与支撑材料。这些案例覆盖了从体细胞肿瘤学到药物基因组学等关键领域，旨在评估AI模型在复杂生物医学推理任务中的表现。 ## 案例一：体细胞肿瘤学中的结构变异引导治疗决策第一个案例聚焦于**结构变异驱动的肿瘤靶向治疗**。模型需要基于长读长测序、基因表达、肿瘤质量和药物基因组学证据，判断一个合成的TXR1导向抑制剂在特定肿瘤亚群中的临床效用。任务要求模型估算治疗获益、毒性风险，并计算净临床效用值，最终以JSON格式输出决策代码和推理过程。该案例强调**多模态数据整合与因果推断**——模型必须从分散的证据中恢复靶点激活状态，再评估治疗干预的边际效应。这不仅是数值计算，更考验模型的**分析推理质量**。 ## 基准设计的深层意图 Genebench-Pro的设计体现了对AI能力的更高要求： - **数据复杂性**：每个问题都附带真实实验数据，包括患者ID、基因组变异、表达谱等，要求模型具备处理异构数据的能力。 - **推理透明度**：模型不仅需要给出答案，还必须提供详细的推理过程（如方法描述与质量控制），以评估其逻辑严谨性。 - **领域特异性**：问题涉及合成生物学标记（如TXR1、DLR1），模拟了真实研究中因隐私或专利原因而脱敏的数据场景。 ## 行业意义与启示此次发布的案例研究对AI在精准医学中的应用具有重要参考价值： 1. **从预测到决策**：Genebench-Pro超越了简单的分类或回归任务，要求模型在不确定条件下做出治疗决策，这与临床实践中“权衡获益与风险”的思维高度一致。 2. **基准的实用性**：通过公开提示词与数据集，研究社区可以复现、验证并改进模型的表现，推动可重复性AI的发展。 3. **人机协作的边界**：尽管AI在数据整合方面展现出潜力，但案例中明确的“不尝试走捷径”的指令表明，当前模型仍需在推理质量上追赶人类专家。 ## 小结 Genebench-Pro的案例研究不仅是一次技术展示，更是对AI生物医学推理能力的一次“压力测试”。它揭示了当前模型的优势与局限，为未来研究方向提供了清晰的路标。随着更多案例的发布，我们有望看到AI在基因组学、药物研发和个性化治疗中扮演更核心的角色。

OpenAI16天前原文

绘制欧洲AI劳动力机遇版图：OpenAI报告解读欧盟就业转型

精选

OpenAI经济研究团队发布《欧盟AI就业转型框架》报告，首次将此前用于美国的分析框架应用于欧洲劳动力市场。报告基于欧盟官方职业分类（ESCO）和Eurostat就业数据，将职业分为四大转型类型：AI可能促进增长的岗位、自动化潜力较高的岗位、工作流程可能重组的岗位以及短期内变化较小的岗位。结果显示，欧盟约12%的就业岗位可能因AI而增长，14%面临较高自动化风险，27%将经历工作重组，其余47%短期内变化不大。各国差异显著：卢森堡、瑞典、荷兰在增长型岗位中占比更高，而东欧部分国家自动化风险相对突出。报告强调，这些分类并非预测，而是为政策制定者和劳动者提供调整压力与机遇的规划地图。 ## 四大转型类型：从增长到重组报告将职业划分为四种类型，每种类型对应不同的AI影响路径： - **增长型岗位（约12%）**：AI通过降低服务成本或提升项目可行性，可能增加对这些职业的需求。例如，AI辅助医疗诊断可能扩大医疗影像分析师的就业机会。 - **高自动化潜力岗位（约14%）**：这些职业的核心任务可能被AI直接替代，如数据录入、基础翻译等重复性工作。 - **重组型岗位（约27%）**：AI改变工作流程和技能需求，但人类仍处于核心地位。例如，律师使用AI进行法律检索，但最终决策仍需人完成。 - **低影响岗位（约47%）**：涉及复杂人际互动、手工操作或高度定制化服务的职业，如心理治疗师、手工艺人等。 ## 欧盟vs美国：结构差异带来不同挑战与2026年4月发布的美国版分析相比，欧盟在高自动化潜力岗位中的就业占比更低。这反映了欧盟经济结构中服务业与制造业的独特比例，以及更严格的职业许可制度对劳动力流动的限制。例如，德国和法国的职业认证体系可能减缓AI对某些岗位的替代速度。 ## 国家差异：北欧领先，东欧承压报告显示，卢森堡、瑞典和荷兰在增长型岗位中占比较高，这些国家的数字经济基础更好，且拥有更多高技能知识型岗位。相比之下，罗马尼亚、保加利亚等东欧国家在自动化潜力较高的岗位中占比更大，主要涉及制造业和行政支持类工作。 ## 政策启示：规划比预测更重要 OpenAI强调，该框架并非就业预测，而是帮助各方提前识别调整点。报告建议： - 加大对重组型岗位的再培训投资，例如为教师提供AI教学工具培训。 - 对于高自动化潜力岗位，建立社会保障网络和转岗机制。 - 在增长型岗位领域，通过教育体系培养AI协作能力。这份报告为欧洲应对AI劳动力转型提供了数据驱动的讨论基础，但最终效果取决于各国政策执行与社会协作。

OpenAI17天前原文

1 / 11下一页