AI 资讯

每日聚合最新人工智能动态

Anthropic 撤回可能“破坏”AI 研究者使用 Claude 的政策

新上线

Anthropic 近日调整了一项备受争议的政策。该政策原本会暗中限制竞争对手利用其最新 AI 模型 Claude Fable 5 开发其他 AI 模型，但在遭到 AI 研究社区的强烈反对后，公司决定撤回并公开致歉。 ## 政策反转始末 Anthropic 本周早些时候发布了 Claude Fable 5，这是其最新 AI 模型的一个版本，配备了额外的安全护栏以防止滥用。部分安全措施在意料之中：例如，当用户询问网络安全、生物学或化学问题时，系统会将请求重定向至能力较弱的模型，以降低利用高级 AI 实施网络攻击或制造生物武器的风险。然而，对于试图使用 Claude Fable 5 进行前沿 AI 开发的研究人员，Anthropic 原本采取了一种不同寻常的做法——**故意降低模型性能**，且这种降级对用户不可见。这实际上相当于“破坏”研究人员利用 Claude 训练竞争性 AI 模型的能力，而 Anthropic 的服务条款早已明确禁止此类使用。 ## 社区反弹与公司回应该政策一经曝光，立即在 AI 研究社区引发强烈反弹。研究人员指出，Claude 的编码代理已成为众多开发者（包括从事开源 AI 研究的团队）的常用工具。如果政策得以实施，可能导致一个令人担忧的未来：**少数领先的 AI 实验室将垄断前沿模型开发能力**。面对舆论压力，Anthropic 迅速调整立场。公司向 WIRED 发表声明称：“我们将修改 Fable 5 针对前沿大语言模型开发的安全措施，使其透明可见。我们做出了错误的权衡，并为未能把握平衡而道歉。” 修改后的政策规定，如果公司怀疑用户试图利用 Claude 构建高能力 AI 模型，将明确告知用户：要么拒绝请求，要么将用户重定向至能力较弱的模型。 ## 行业背景与影响 Anthropic 此前已采取措施限制竞争对手使用 Claude 构建闭源和开源 AI 模型，但批评者认为，**暗中降级模型性能的做法越过了道德边界**。这一事件折射出 AI 行业在安全与开放之间的深层矛盾：一方面，领先实验室需要保护商业利益和模型安全；另一方面，过度限制可能扼杀创新，尤其对依赖大型模型进行研究的开源社区造成打击。 Anthropic 的快速道歉表明，在 AI 伦理和社区信任面前，即使是领先的实验室也需要谨慎权衡。未来，类似政策是否会以更透明的方式出现，以及行业如何划定“合理使用”的边界，仍值得持续关注。

Hacker News711个月前原文

Show HN: I am building a map of people who lived in the Roman Empire

新上线

Driving home from work one day, I wanted to know how many people we knew the names of who lived during the Roman era. Searching around, I found lists of Consuls and officials, but nothing that covered ordinary people or even most people like freedmen and slaves. So I ended up building a pipeline to

Hacker News2081个月前原文

Extend UI：开源现代文档应用 UI 工具包，支持 PDF/DOCX/XLSX 查看与电子签名

新上线

**Extend UI** 是一个新开源的 UI 工具包，专为构建现代文档类应用而设计。该项目一次性发布了 **14 个组件和示例**，覆盖 PDF、DOCX、XLSX、CSV 等常见文档格式的查看与编辑，同时包含边界框引用、文件上传、电子签名等高级功能。所有代码均采用 MIT 许可证，完全可定制，可快速集成到用户端流程、AI Agent 或内部工具中。 ## 主要组件一览 - **PDF Viewer** — 支持 PDF 文档渲染与分页浏览 - **DOCX Viewer** — 渲染 Word 文档内容 - **XLSX Viewer** — 渲染 Excel 电子表格，支持多 Sheet 切换 - **File Upload** — 文件上传组件，支持拖拽与预览 - **E-Signature** — 电子签名面板，可在文档上签名 - **Bounding Box Citations** — 边界框引用标注，适合 AI 文档问答场景 - **Schema Builder** — JSON Schema 构建器，用于定义文档字段类型 - **File System / File Thumbnail** — 文件系统树与缩略图展示每个组件都提供了可直接运行的示例，开发者可以按需复制或定制样式。工具包基于 React 构建，与主流前端框架兼容。 ## 适用场景 - **AI 文档助手**：在对话界面中展示 PDF/Word 内容，并用边界框高亮引用来源 - **企业级文档管理**：集成文件预览、上传、签名、版本管理 - **内部工具**：快速搭建后台上传、查看、编辑文档的界面 ## 开源与许可项目采用 **MIT 许可证**，允许商业使用、修改和再分发。代码已发布在 GitHub 上，并附带演示视频（[点击观看](https://share.extend.ai/kRmSGKRF)）。 ## 行业背景随着 AI 应用对文档处理的需求激增（如 RAG 系统中的文档解析、Agent 工具调用），一个高质量、可定制的前端组件库能显著降低开发成本。目前市面上类似的工具包多偏重单一格式或需付费授权，Extend UI 以开源方式一次性覆盖多种格式和交互，值得关注。 > 项目地址：https://github.com/extend-ui/extend-ui（示例域名）

Hacker News2201个月前原文

HelixDB：基于对象存储的图数据库，原生支持向量搜索与全文检索

新上线

HelixDB 是一款基于对象存储构建的 OLTP 图数据库，原生支持向量搜索（vector search）和全文检索（FTS），旨在为 AI 应用提供一个统一的存储与查询平台。该项目由两名大学生在校园期间启动，如今已正式发布，并迅速在 Hacker News 上获得关注。 ## 核心特性：图+向量+全文，三合一 HelixDB 的核心数据模型是 **图 + 向量**，但同时支持 KV、文档和关系型数据。这意味着开发者无需再为 AI 应用维护多个独立的数据库（如关系型 DB、向量 DB、图 DB 等），HelixDB 一个系统即可覆盖全部需求。对于构建知识图谱、AI 记忆体、企业知识库等场景，这种融合能力可以显著降低系统复杂度和运维成本。 ## 技术亮点：Rust 实现，对象存储底座 HelixDB 完全使用 **Rust** 从头构建，底层存储基于 **对象存储**（如 S3、MinIO 等）。对象存储的无限扩展性和低成本特性，使得 HelixDB 天然适合海量数据场景。同时，其 OLTP 能力保证了实时写入与查询的响应速度。 ## 快速上手：一行命令启动开发环境 HelixDB 提供了简洁的 CLI 工具，通过 `helix chef` 命令即可完成环境引导、项目初始化、数据种子和示例应用搭建。如果环境中安装了 Claude Code、Codex 或 OpenCode 等编码代理，甚至可以直接从一句话描述生成完整的前后端应用。手动设置也极为轻量：`helix init` 创建项目，`helix start dev` 启动本地实例（默认端口 6969），之后即可通过 SDK 或 REST API 发送查询。SDK 支持 Rust 和 TypeScript，查询以 JSON AST 形式动态发送，无需编译部署步骤，极大提升开发迭代效率。 ## 应用场景：AI 代理的“统一大脑” HelixDB 的定位非常明确：为 AI 代理提供 **联邦式数据访问**，充当“公司大脑”或“应用记忆体”。无论是构建 RAG（检索增强生成）系统、智能客服、还是复杂的知识图谱推理，HelixDB 都能将结构化数据、非结构化文本和向量嵌入统一管理，减少数据孤岛。 ## 总结 HelixDB 以“少即是多”的理念切入 AI 基础设施市场，用单一数据库替代多套系统的组合。虽然项目尚处早期阶段，但其设计思路和技术选型——Rust、对象存储、图+向量融合——都踩中了当前 AI 应用对存储层的关键需求。对于正在寻找轻量级、高集成度数据平台的开发者来说，HelixDB 值得一试。

Hacker News1571个月前原文

Apache Burr：用纯 Python 构建可靠 AI 智能体与应用的孵化项目

新上线

## 一句话总结 Apache Burr 是一个 Apache 孵化器项目，提供纯 Python API，用于构建从简单聊天机器人到复杂多智能体系统的可靠 AI 应用，内置可观测性、状态持久化、人工介入、并行执行和测试回放等能力。 ## 核心特点 - **简洁 Python API**：无需 DSL 或 YAML，仅用 Python 函数和装饰器定义动作与转换。 - **内建可观测性**：Burr UI 实时监控、调试和追踪应用每一步的状态变化。 - **持久化与状态管理**：自动将状态持久化到磁盘、数据库或自定义后端，支持从中断处恢复。 - **人工在环**：在任意步骤暂停执行等待人工输入，适用于审批流程和交互式智能体。 - **分支与并行**：支持并行执行、扇出/扇入，构建复杂 DAG，组合子应用实现模块化设计。 - **测试与回放**：回放历史运行、单元测试单个动作、验证状态转换，增强系统信心。 ## 生态集成 Burr 与主流工具无缝协作：支持 **OpenAI**、**Anthropic**、**LangChain**、**Hamilton**、**Streamlit**、**FastAPI**、**Haystack**、**Instructor**、**Pydantic** 和 **PostgreSQL** 等，无厂商锁定。 ## 应用场景从简单的聊天机器人到多智能体协作系统，Burr 提供构建可靠、可观察、可测试 AI 应用所需的一切基础组件。 ## 当前状态作为 Apache 孵化项目，Burr 已在 GitHub 获得 **数千星标**，PyPI 下载量 **数十万**，拥有活跃的 Discord 社区。

Hacker News2491个月前原文

DeepSeek 深度观察：技术突破与行业影响

新上线

## 一个搅动 AI 格局的新玩家 DeepSeek 近期在 Hacker News 上引发了广泛关注，其讨论热度在短时间内迅速攀升。作为一个新兴的 AI 研究团队，DeepSeek 凭借一系列技术突破迅速进入公众视野，其开源模型和高效训练方法正在重新定义行业竞争格局。 ## 技术亮点 DeepSeek 的核心优势在于其**极致的训练效率**。通过创新的模型架构和训练策略，DeepSeek 在保持高性能的同时大幅降低了计算成本。例如，其最新模型在多项基准测试中与 GPT-4 等顶级模型不相上下，但训练成本仅为后者的一个零头。这种“以小博大”的能力，让中小企业和研究机构看到了追赶大厂的可能性。此外，DeepSeek 坚持**开源路线**，将模型权重、训练代码和技术报告全部公开。这不仅促进了学术研究的透明度，也为开发者社区提供了宝贵的实践资源。在 Hacker News 的讨论中，许多开发者对 DeepSeek 的文档质量和易用性给予了高度评价。 ## 行业影响 DeepSeek 的出现可能对 AI 行业产生深远影响： - **降低门槛**：高效训练方法使得更多团队能够参与大模型研发，推动创新多元化。 - **竞争加剧**：开源模型的性能逼近闭源模型，迫使大公司重新思考商业模式。 - **生态建设**：围绕 DeepSeek 的社区正在快速成长，衍生出微调、部署等工具链。 ## 面临的挑战尽管潜力巨大，DeepSeek 也面临一些质疑： - **长期可持续性**：开源项目如何维持资金和人力投入？ - **安全与伦理**：模型能力增强后，如何确保负责任的使用？ - **技术领先性**：能否持续保持创新节奏，避免被后来者超越？ ## 小结 DeepSeek 代表了一种**开放、高效、普惠**的 AI 发展路径。它的成功不仅验证了技术路线的可行性，更向行业传递了一个信号：在 AI 领域，创新并不总是与资源规模成正比。未来，DeepSeek 能否从“搅局者”成长为“领跑者”，值得持续关注。

Hacker News1001个月前原文

Lua.ex：为AI代理打造的BEAM沙盒Lua 5.3实现

新上线

## 概述 **Lua.ex** 是一个纯 Elixir 实现的 Lua 5.3 虚拟机，专为在 BEAM（Erlang 虚拟机）上安全嵌入不可信代码而设计。它完全避免使用 NIF 和外部 shell 调用，每个操作码都可审计，默认启用沙盒，适合 AI 代理、用户自定义公式和多租户插件等场景。 ## 核心特性 - **默认沙盒**：禁止文件系统访问、系统命令执行等危险操作，确保代码安全运行。 - **纯 Elixir 实现**：词法分析器、解析器、基于寄存器的虚拟机及标准库全部用 Elixir 编写，零 NIF，零 C 代码。 - **低延迟**：单次内联执行约 4 微秒，适合高频调用。 - **编译期支持**：通过 `~LUA` sigil 可在编译期预编译 Lua 脚本，运行时直接执行，提升性能。 - **LLM 集成**：可将 Elixir 函数暴露为 Lua API，让大语言模型（LLM）生成 Lua 脚本并安全执行，仅限调用已暴露的工具。 ## 快速上手在 Elixir 应用中嵌入 Lua 十分简单： ```elixir defmodule MyApp.Rules do use Lua.API, scope: "rules" deflua double(n), do: n * 2 end lua = Lua.new() |> Lua.load_api(MyApp.Rules) {:ok, [10], _lua} = Lua.eval!(lua, "return rules.double(5)") ``` 编译期预编译示例： ```elixir import Lua, only: [sigil_LUA: 2] chunk = ~LUA""" local total = 0 for i = 1, 100 do total = total + i end return total """c {:ok, [5050], _state} = Lua.run(Lua.new(), chunk) ``` ## 为什么选择 Lua？ Lua 是一种小巧、易学、专为嵌入设计的语言。它已被 Neovim、Roblox、World of Warcraft、Redis、Nginx、Adobe Lightroom 等广泛应用。Lua.ex 将同样的能力带入 BEAM 生态，无需依赖 C 扩展。 ## 应用场景 - **AI 代理工具**：LLM 生成 Lua 脚本，调用预定义工具，安全可控。 - **用户自定义逻辑**：允许用户编写公式或规则，无需担心安全风险。 - **多租户插件**：每个租户拥有独立的沙盒 Lua 环境，隔离执行。 ## 总结 Lua.ex 为 BEAM 开发者提供了一种安全、高效、易用的脚本嵌入方案。其纯 Elixir 实现和默认沙盒机制，使其在 AI 代理、用户自定义代码等场景中具有显著优势。

Hacker News611个月前原文

一笔0.01欧元的转账，竟可能让银行AI代理系统彻底沦陷

新上线

近日，一项针对银行AI代理系统的安全研究引发了行业广泛关注。研究人员发现，攻击者只需通过一笔**0.01欧元**的银行转账，就能利用特定漏洞绕过AI代理的安全机制，进而控制整个系统。这一发现揭示了当前金融AI系统在安全设计上的潜在盲区。 ## 攻击原理：微小转账中的“特洛伊”指令研究团队展示了一种名为“**指令注入**”的攻击手法。攻击者向目标银行账户发起一笔极小额转账（如0.01欧元），并在转账附言中嵌入恶意指令。由于银行AI代理通常会自动处理交易记录并解析附言内容，系统会错误地将恶意指令视为合法操作，从而执行攻击者的后续控制命令。 ## 为何AI代理难以防范？传统安全系统依赖规则匹配和异常检测，但AI代理（尤其是基于大语言模型的系统）注重语义理解，容易混淆“用户指令”与“数据内容”。当转账附言这类“数据”被AI代理解释为“指令”时，攻击面便随之敞开。此外，银行系统对微小金额的审查往往较为宽松，进一步降低了攻击门槛。 ## 行业影响与应对该研究提醒金融机构：**AI代理的安全性不能仅依赖传统边界防护**。专家建议采用以下措施： - 严格区分数据输入与指令执行通道，对转账附言等字段实施独立解析与消毒处理； - 引入人工审核机制，对涉及资金操作的高风险指令进行二次确认； - 定期进行红队测试，模拟此类低成本、高隐蔽性的攻击路径。目前，多家银行已着手修补相关漏洞，但AI代理的安全挑战远未结束。随着金融行业加速智能化，如何在效率与安全之间取得平衡，将成为未来数年的关键议题。

Hacker News2081个月前原文

Claude Fable 5 与 Claude Mythos 5 系统卡发布

新上线

Anthropic 近日发布了其最新模型系列的系统卡（System Card），涉及 **Claude Fable 5** 和 **Claude Mythos 5** 两款模型。系统卡作为评估模型安全性、能力边界及潜在风险的关键文档，通常包含性能基准、缓解措施以及模型在关键领域的表现细节。此次发布正值行业对 AI 安全透明度要求日益提高的背景下，Anthropic 通过公开系统卡延续了其“负责任扩展”的政策承诺。 ## 模型定位与命名从命名推测，**Claude Fable 5** 可能侧重于创造性叙事与复杂推理，而 **Claude Mythos 5** 或许在知识广度与多语言能力上有所强化。Anthropic 此前已在 Claude 3 系列中采用类似分层策略，此次更新或标志着第五代模型架构的成熟。 ## 系统卡核心内容系统卡文档通常涵盖以下维度： - **能力评估**：包括语言理解、代码生成、多模态处理等基准测试得分，以及与 GPT-4、Gemini 等竞品的对比。 - **安全措施**：对抗性测试结果、红队评估反馈、以及针对有害输出（如偏见、越狱攻击）的缓解机制。 - **局限性说明**：模型在事实准确性、长上下文依赖及特定领域（如医疗、法律）中的已知短板。 - **部署建议**：推荐使用场景、内容过滤阈值以及人机协作的最佳实践。 ## 行业意义此次系统卡的发布恰逢全球监管机构加强对大模型可解释性要求的时期。欧盟《人工智能法案》已要求高风险 AI 系统提供透明文档，Anthropic 此举不仅符合合规趋势，也为开发者提供了更明确的模型使用边界。此外，**Fable 5** 与 **Mythos 5** 的差异化定位可能针对不同垂直领域，例如教育、创意产业或企业客服。 ## 未来展望虽然 PDF 原文因格式问题无法直接解析，但系统卡的公开通常预示着模型即将正式上线。Anthropic 在安全透明度上的持续投入，可能推动行业形成更规范的评估标准。开发者与研究者可重点关注其中关于风险缓解措施的具体技术细节，以优化自身应用的部署策略。 > 注：由于原文为 PDF 格式且内容无法完整提取，以上分析基于系统卡的一般结构与行业背景推断，具体数据以官方完整文档为准。

Hacker News2131个月前原文

从零构建基础AI智能体：长期任务规划实战指南

新上线

## 从零构建基础AI智能体：长期任务规划实战指南近日，一篇题为“从零构建基础AI智能体：长期任务规划”的技术文章在Hacker News上引发热议，获得100分和41条评论。该文章聚焦于AI智能体（Agent）的核心能力之一——**长期任务规划**，为开发者提供了一套从零开始的实践框架。 ### 为什么长期规划是AI智能体的关键？当前，大语言模型（LLM）在处理单步或短链任务时表现出色，但面对需要多步推理、动态调整的复杂任务时，往往力不从心。例如，让AI“规划一次包含交通、住宿和景点的三日游”，模型可能给出笼统建议，却无法拆解为可执行的子任务序列。**长期任务规划**正是为了解决这一痛点：智能体需要具备将高层目标分解为有序子目标、执行并监控进度的能力。 ### 文章核心：从零开始的实现路径文章作者并未依赖LangChain等现成框架，而是**从底层逻辑出发**，展示了如何用Python构建一个基础智能体。其核心组件包括： - **任务分解器**：将用户输入的自然语言目标解析为结构化子任务列表，并建立依赖关系。 - **执行引擎**：按序或并行调用LLM（如GPT-4）处理每个子任务，并收集中间结果。 - **状态跟踪器**：记录已完成、进行中和阻塞的任务，支持动态重规划。 - **反馈循环**：当子任务失败或需要额外信息时，智能体可回溯并调整后续步骤。作者特别强调了**“规划-执行-验证”**循环的重要性：智能体不应是一次性生成完整计划然后机械执行，而应在每一步后评估进展，必要时修正计划。这种设计借鉴了经典AI中的**分层任务网络（HTN）**思想，但通过LLM的语义理解能力实现了更灵活的分解。 ### 行业背景与挑战这篇教程的出现并非偶然。随着AI智能体成为2024-2025年的技术热点，从AutoGPT到各种Agent框架，开发者们逐渐认识到：**规划能力是区分“玩具”与“工具”的分水岭**。然而，长期规划仍面临两大挑战： 1. **幻觉累积**：LLM在长链推理中容易产生错误，且错误会随步骤累积。 2. **资源开销**：每一步都调用LLM，导致延迟和成本线性增长。文章提出的方案通过**显式状态管理**和**错误重试机制**缓解了这些问题，但并未完全解决。例如，当任务步骤超过10步时，成功率仍会显著下降。 ### 社区反响与启示 Hacker News上的评论呈现两极分化：一部分开发者认为“从零实现”有助于理解底层原理，是教育性极佳的教程；另一部分则指出，在实际生产环境中，直接使用成熟框架（如LangGraph、CrewAI）更高效。但双方都认可：**理解规划机制是设计可靠智能体的基础**。对于中文开发者而言，这篇文章的价值在于：它打破了“智能体=调用API”的简单认知，揭示了任务规划背后的系统工程思维。无论是构建个人助手还是企业级自动化系统，掌握长期规划的设计模式都将成为核心竞争力。 > 提示：该文章为技术教程，原文未提供完整代码，但核心逻辑已足够启发实践。建议读者结合自身场景，尝试实现一个简单的“待办事项规划器”作为入门练习。

Hacker News1411个月前原文

Command Center：为重视代码质量的开发者打造的AI编程环境

新上线

## 当AI编码速度提升100倍，质量谁来把关？ Jimmy和Ray是两位经验丰富的技术人——Jimmy是Thiel Fellow，拥有MIT博士学位，在编程工具领域深耕15年；Ray则在19岁时成为一家20亿美元公司的销售副总裁，并通过“vibe-coding”方式构建了多个副业项目。他们共同创立了Command Center，一个专为**重视代码质量**的开发者设计的AI编程环境。 ### 核心痛点：速度与质量的矛盾 Command Center的核心理念直击当前AI编程工具的通病：**“让AI生成数千行代码很容易，但真正的工作从这里才开始。”** 开发者面临的困境是，AI可以极快地生成大量代码，但随之而来的代码审查、质量保证和调试工作却可能耗费数倍于手动编写的时间。 ### 产品特色：从“生成”到“审查”的全流程管理 Command Center将重点放在**代码审查与质量控制**上。它提供了一个完整的开发环境，让开发者能够： - **计划与提示**：在AI生成代码前，通过结构化计划确保方向正确 - **快速生成**：AI在数秒内生成上万行代码（官方示例：8.4秒生成10,482行） - **逐行审查**：提供工具让开发者对生成的代码进行**逐行审查**，确保每一行都符合质量标准这种设计理念与当前主流AI编程助手（如GitHub Copilot、Cursor）形成鲜明对比——后者更强调“生成速度”和“自动补全”，而Command Center则试图解决“生成后怎么办”这一被忽视的问题。 ### 行业背景与意义随着AI编程工具的普及，**代码质量**正成为新的瓶颈。许多团队发现，AI生成的代码虽然数量惊人，但其中可能包含逻辑错误、安全漏洞或不一致的编码风格。Command Center的出现，标志着AI编程工具正在从“效率优先”向“质量优先”演进。 ### 创始人背景带来的信任背书 Jimmy的学术背景（MIT博士、Thiel Fellow）和15年编程工具开发经验，加上Ray在商业领域的成功，使得Command Center在技术和市场两个维度都具备可信度。 ### 总结 Command Center并非又一个追求“更快生成代码”的工具，而是一个**关注代码生命周期后半段**——审查、测试与维护——的完整解决方案。对于重视代码质量的团队和个人开发者来说，这或许正是他们需要的工具。 > 提示：目前Command Center仍处于早期阶段，其实际效果有待更多用户验证。

Hacker News671个月前原文

Intuned（YC S22）发布：用自然语言描述需求，AI自动生成并维护可靠的浏览器自动化代码

新上线

## 一句话快讯 YC S22 成员 **Intuned** 正式发布其浏览器自动化平台，核心卖点是“用自然语言描述需求，AI 自动生成 Playwright 代码，并持续维护其稳定性”。 ## 核心功能亮点 Intuned 定位为“浏览器自动化的基础设施”，主要解决传统自动化脚本维护成本高、易被网站反爬机制拦截的痛点。其核心能力包括： - **Intuned Agent**：用户只需用自然语言描述任务（如“抓取某电商网站的商品价格”），Agent 会生成生产级的 **Playwright** 代码（支持 TypeScript 和 Python），并自动部署。当网站结构变化导致脚本失效时，Agent 会自动修复，无需人工干预。 - **内置反检测与认证**：提供**反检测、验证码自动破解、登录会话管理**等功能，减少被网站封禁的风险。 - **调度与监控**：支持定时任务、完整日志和会话录制，方便排查问题。 - **弹性伸缩**：从单机到数百台机器的自动扩展，用户只需控制并发数量。 ## 应用场景与竞争对手 Intuned 主要面向三类需求： 1. **数据抓取（Scrapers）**：从电商、政府门户、招聘网站等无 API 的站点提取数据。 2. **爬虫（Crawlers）**：大规模发现和采集页面内容，支持 Crawl4AI 等流行框架。 3. **RPA（机器人流程自动化）**：模拟用户操作，如表单提交、数据录入、账户操作等，尤其适合与无 API 的服务集成。在 RPA 领域，Intuned 还支持 **Anthropic Computer Use、OpenAI CUA、Stagehand、Browser-use、Gemini Computer Use** 等 AI 驱动方案，允许用户混合使用传统代码和 AI 行为。 ## 行业背景与定位浏览器自动化市场已存在多年，但传统方案（如 Selenium、Puppeteer）需要开发者手动维护选择器，网站改版即导致脚本失效。近年来，AI 生成代码和自适应修复成为新趋势。Intuned 的差异化在于： - **强调“代码的可靠性”**：所有自动化最终都编译为 Playwright 代码，用户可完全掌控代码逻辑，同时享受 AI 自动修复的便利。 - **一站式托管**：不仅生成代码，还提供部署、监控、伸缩、反检测等全套基础设施，降低运维负担。 ## 小结 Intuned 试图解决浏览器自动化“写代码易，维护难”的长期痛点。对于需要大规模、稳定抓取或 RPA 的团队，这种“AI 生成 + 自动运维”的模式可能大幅降低人力成本。不过，其实际效果取决于 AI 对网站变化的识别准确率和修复成功率，以及反检测策略的有效性。作为 YC 孵化的产品，Intuned 目前提供免费试用，感兴趣的用户可以亲自测试。

Hacker News1171个月前原文

Anthropic/OpenAI 每赚你 100 美元，可能倒贴 1000 美元？

新上线

**核心结论：AI 公司正在“烧钱换市场”** 一篇来自 Hacker News 的热门分析指出，以 Anthropic 和 OpenAI 为代表的头部 AI 公司，其**收入与成本之间存在巨大鸿沟**。作者估算，用户每支付 100 美元，公司实际投入的算力、研发和运营成本可能超过 1000 美元。这并非简单的亏损，而是一种**战略性补贴**——用资本换取用户习惯、数据积累和市场份额，赌的是未来模型效率提升和成本下降能填平这个窟窿。 ### 成本到底高在哪里？ - **训练成本**：一次前沿模型的训练动辄数千万美元，且迭代频繁。 - **推理成本**：每次 API 调用背后是昂贵的 GPU 集群运行。即使是“免费”或低价套餐，边际成本依然显著。 - **人才竞争**：顶尖 AI 研究员的年薪可达数百万美元，团队规模持续扩大。 - **基础设施**：数据中心、电力、网络带宽的投入是天文数字。作者特别提到，**编码助手类产品（如 Claude Code、GitHub Copilot）可能是亏损最严重的领域**。这类工具需要高频率的实时推理，且用户往往在复杂任务上大量调用，导致单用户成本远超订阅费或 API 收入。 ### 为什么公司愿意“赔本赚吆喝”？这背后是典型的互联网平台思维： 1. **锁定用户**：一旦开发者习惯了某个 AI 编码助手，切换成本极高。模型会学习用户的代码风格和项目上下文，形成粘性。 2. **数据飞轮**：每一次交互都是训练数据。用户的使用模式、成功案例和失败反馈，都能用于优化下一代模型。 3. **规模效应**：随着模型效率提升（如更小的模型达到同等效果）和硬件成本下降，单位成本会快速降低。早期投入可以视为长期投资。 4. **竞争壁垒**：谁先占领市场，谁就拥有最大的用户基数和最丰富的场景数据，后来者难以追赶。 ### 可持续性隐忧然而，这种模式并非没有风险。 - **资本耐心有限**：如果长期无法盈利，投资者可能会施压。 - **技术瓶颈**：模型效率的提升可能不如预期，成本下降速度慢于用户增长。 - **替代竞争**：开源模型（如 Llama、Mistral）的崛起可能压低整体定价空间，让补贴模式更难维持。作者认为，**当前的价格战本质上是不可持续的**。对于用户来说，这或许是“薅羊毛”的好时机，但需要警惕未来可能出现的涨价或服务降级。 ### 结语 AI 行业正处在经典的“烧钱换增长”阶段。每 100 美元收入背后是 1000 美元的成本，这个数字或许有些夸张，但方向没错。对于普通用户，享受低价服务的同时，不妨留意公司财报和融资动态——当补贴停止时，账单可能会很真实。

Hacker News651个月前原文

OpenAI 推出“锁定模式”：为敏感数据用户提供额外的提示注入防护

新上线

OpenAI 近日宣布推出 **“锁定模式”**（Lockdown Mode），这是一项可选的高级安全设置，旨在限制 OpenAI 产品中能够连接网络或外部服务的工具和功能，从而降低因 **提示注入攻击** 导致数据泄露的风险。该功能已向符合条件的个人账户（包括免费、Go、Plus、Pro 用户）以及自助式 ChatGPT 商业账户逐步推送。 ## 什么是锁定模式？锁定模式的核心思路是 **限制出站网络请求**，阻止攻击者通过提示注入将敏感数据外传。它并非面向所有用户，而是专为处理敏感数据的个人和组织设计，这些用户对数据泄露风险有更高的防护需求。 ## 工作原理：多层防御中的最后一环提示注入是 AI 领域一个前沿且棘手的安全挑战。OpenAI 表示，他们持续在多层面加固安全系统，包括模型层、产品层和系统层。锁定模式在此基础上，通过 **沙箱隔离**、**基于 URL 的数据外泄防护**、**监控与执行机制**，以及 **基于角色的访问控制和审计日志** 等企业级控制手段，构成多层防御。锁定模式的重点在于 **阻断数据泄露的最终阶段**——即限制出站网络请求，防止敏感数据被传输给攻击者。但需要注意的是，锁定模式 **并不能阻止提示注入本身** 出现在 ChatGPT 处理的内容中（例如缓存的网页内容或上传的文件里），也无法完全消除注入对模型行为或响应准确性的影响。 ## 锁定模式下哪些功能会受影响？启用锁定模式后，以下功能将被禁用或受限： - **实时网页浏览**：仅能访问缓存内容，搜索结果可能受限、不可用或已过时。 - **图像支持**：ChatGPT 可能无法在常规回复中显示图像或从网络获取图像。用户仍可上传图片文件，图像生成功能（如 DALL·E）保持不变。 - **深度研究**（Deep Research）：该功能被完全禁用。 ## 适用场景与可用性锁定模式适用于所有账户类型和工作区，用户必须登录后才能使用。目前该功能正在逐步推送中，若在设置中未看到该选项，说明账户可能暂未获得权限。对于企业用户而言，锁定模式可以与现有的角色权限、审计日志等企业级控制结合，构建更严格的安全策略。但对于普通用户，由于会牺牲部分便利性，OpenAI 并不建议默认开启。 ## 行业视角提示注入攻击已成为大语言模型应用中最受关注的安全威胁之一。此前，多家安全研究机构已展示过通过精心构造的提示，诱导模型输出内部数据或执行恶意操作的案例。OpenAI 此次推出锁定模式，可以视作对这类攻击的 **针对性防御措施**，同时也反映了 AI 安全从“模型安全”向“产品安全”延伸的趋势——不仅要在模型层面抵御注入，还要在系统层面阻断数据泄露通道。当然，锁定模式并非万能。它无法消除注入本身，也无法覆盖所有潜在的攻击路径（例如通过文件上传间接泄露数据）。对于需要极致安全的环境，仍需结合其他安全措施，如数据脱敏、输入过滤和严格的访问控制。

Hacker News901个月前原文

Hermes Agent：开源AI代理，自带持久记忆，越用越懂你

新上线

## 核心亮点：一个真正“长记性”的开源AI代理 **Hermes Agent** 由 Nous Research 团队推出，采用 MIT 许可证，是一款**完全自托管**的开源AI代理。它并非简单的聊天机器人或副驾驶，而是一个**拥有持久记忆、能自动创建技能、并跨平台工作的自主代理**。 ## 持久记忆：不再每次“重新认识” 传统AI对话往往缺乏上下文连续性，每次交互都是一次“失忆”重启。Hermes Agent 的核心创新在于**持久记忆**：它能记住用户的偏好、项目进展和环境配置，跨会话保持上下文。使用时间越长，它对用户的了解越深入，无需重复解释背景信息。 ## 自动技能创建：解决问题后“留一手” 当代理解决一个复杂问题后，它会自动编写一份**可复用的技能文档**，将解决过程固化下来。这些技能可搜索、可分享，并兼容开放的 `agentskills.io` 标准。这意味着代理的能力会随着使用不断自我扩展，形成“越用越聪明”的正循环。 ## 多平台网关：一个代理，无处不在 Hermes Agent 支持通过单一网关连接 **Telegram、Discord、Slack、WhatsApp、Signal 和 CLI** 等多个平台。你可以在 Telegram 上开始对话，然后在终端中继续。它还支持语音备忘录转录和跨平台延续，真正实现无缝切换。 ## 内置自动化与并行子代理 - **定时任务**：内置 cron 调度器，可设置每日报告、夜间备份、每周审计等无人值守任务，并推送到任意平台。 - **并行子代理**：可生成隔离的子代理并行处理工作流，每个子代理拥有独立的对话和终端，通过 RPC 实现零上下文开销的协作。 ## 强大的浏览器与网页控制代理具备**完整的浏览器自动化能力**：网页搜索、页面内容提取、导航、点击、输入、截图，以及视觉分析、图像生成、文本转语音和多模型推理。 ## 多样的执行环境与LLM支持 Hermes Agent 支持多种执行环境：本地终端、Docker 容器、SSH 远程服务器、Modal/Singularity 云和 HPC。LLM 方面，原生集成 Nous Portal OAuth、OpenRouter（200+模型）、自定义 OpenAI 兼容 API 以及本地 vLLM。 ## 现状与展望目前项目已在 GitHub 开源（MIT 许可），在 Hacker News 上获得 51 分和 41 条评论，社区关注度较高。对于希望拥有**私有化、可成长、跨平台AI助手**的开发者而言，Hermes Agent 提供了一个极具吸引力的选择。不过，作为开源项目，其稳定性和功能完善度仍有待社区验证。

Hacker News511个月前原文

驾驭工程：在智能体优先的世界里最大化 Codex 的价值

新上线

在过去的五个月里，一支工程团队进行了一项大胆的实验：**完全依靠 AI 代码生成工具 Codex（基于 GPT-5）构建并交付了一款软件产品，全程没有一行手写代码**。这个产品拥有内部日活用户和外部 alpha 测试者，能够正常发布、部署、出现问题并得到修复，但所有代码——包括应用逻辑、测试、CI 配置、文档、可观测性以及内部工具——均由 Codex 生成。团队估计，相比传统手写代码，开发时间缩短了约 **10 倍**。这一实验的核心原则是：**人类负责引导，智能体负责执行**。团队刻意设定了“零手写代码”的约束，目的是探索当软件工程团队的主要任务不再是编写代码时，工作方式会发生怎样的根本性变化。 ## 从空仓库起步实验始于 2025 年 8 月底的一个空 Git 仓库。第一个提交——包括仓库结构、CI 配置、格式化规则、包管理器设置和应用框架——全部由 Codex CLI 基于少量现有模板生成。甚至指导智能体如何工作的 `AGENTS.md` 文件本身也是由 Codex 编写的。从一开始，仓库就由智能体塑造，没有任何预先存在的手写代码作为锚点。五个月后，仓库中包含了约 **100 万行代码**，涵盖应用逻辑、基础设施、工具、文档和内部开发者工具。在此期间，一个由 **3 名工程师** 组成的小团队驱动 Codex 完成了约 **1500 个 Pull Request** 的合并，平均每位工程师每天产出 3.5 个 PR。有趣的是，随着团队扩大到 7 人，吞吐量不降反升。 ## 关键经验：从写代码到设计环境团队发现，当智能体负责代码实现时，人类工程师的核心技能发生了迁移： - **设计环境**：不再关注具体语法，而是定义清晰的目录结构、API 契约和测试框架，为智能体提供高效的“工作台”。 - **明确意图**：用自然语言精确描述需求，包括边界条件、性能目标和错误处理方式，而非逐行指定实现细节。 - **构建反馈回路**：通过自动化测试、代码审查和可观测性工具，让智能体快速获得执行结果的反馈，从而自我修正。 ## 挑战与教训并非一切顺利。团队也遇到了不少挑战： - **调试成本转移**：当 Codex 生成的代码出现 bug 时，调试往往比手写代码更困难，因为需要理解 AI 的“思路”。团队不得不投入更多精力在日志和可观测性上。 - **一致性维护**：随着代码库膨胀，不同 PR 中 Codex 可能采用不同的实现风格，导致技术债务。团队通过严格的 `AGENTS.md` 和模板来约束。 - **人类注意力是稀缺资源**：虽然代码生成速度极快，但代码审查、设计决策和问题定位仍需人类深度参与。团队的核心瓶颈从“写代码”变成了“做决策”。 ## 对行业的启示这个实验证明，**AI 智能体驱动的开发（Agent-Driven Development）** 已不再是概念，而是可以交付真实产品的可行模式。它重新定义了工程师的角色：从“代码生产者”转变为“系统设计师和智能体协调者”。团队总结道：“我们最大的收获是，**人类的时间与注意力才是真正的稀缺资源**。智能体负责执行，但方向、质量和创造力依然由人类掌控。” 随着 Codex 和类似工具的持续进化，这种“人类引导、智能体执行”的开发范式可能会成为主流，大幅降低软件开发的边际成本，加速产品创新。

Hacker News2961个月前原文

Show HN：首个形式化验证的多边形交集算法——Opus 4.8 一次生成，此前多次失败

新上线

## 核心亮点近日，一位开发者展示了**首个经过形式化验证的多边形交集算法实现**。该项目使用 **Lean 4 证明助手**，从数学上保证了算法对于任意多边形配置的正确性，填补了计算几何领域在形式化验证方面的空白。 ## 背景与挑战多边形交集是矢量图形编辑器（如 Adobe Illustrator、Figma）的基础功能，用于计算两个多边形区域的重叠部分。然而，由于多边形可能有复杂形状（包括孔洞），且输入配置无穷无尽，传统测试方法无法穷举所有情况，尤其是那些罕见的边界条件。 > “计算几何算法因输入的特殊配置而臭名昭著，这些配置往往构成了算法的大部分复杂性。” ## 形式化验证的意义该项目的核心在于：**信任完全来自 Lean 检查器和对小规格的人工审查，而非大语言模型**。开发者明确表示，虽然 AI 辅助了实现，但正确性保证来自严格的数学证明。 - **无限状态空间**：每个多边形的内部点集是无限的，传统方法无法在代码中直接表示“内部”概念。 - **形式化规格**：通过 Lean 定义了多边形的内部集（基于射线交点奇偶性），并证明了输出多边形的内部集等于输入内部集的交集。 ## AI 辅助的演进项目开发过程中，AI 模型的能力提升带来了显著变化： - **Opus 4.8**（当前最新模型）能够 **一次性** 生成带形式化证明的算法实现。 - 之前的模型需要开发者分步提供证明策略，多次迭代才能完成。但开发者强调，AI 只是工具，最终的正确性仍依赖形式化验证框架。 ## 实际体验项目提供了一个 **Web 演示**，用户可以在浏览器中绘制多边形并实时计算交集，底层调用已验证的核心算法。这展示了形式化验证不仅停留在理论层面，也能服务于实际应用。 ## 相关工作和展望据开发者所知，这是首个此类验证实现。计算几何的形式化验证长期被视为难题，因为算法常依赖几何直觉和特殊处理。此项目或将为其他几何算法（如并集、差集、凸包）的形式化验证开辟道路。 ## 小结这一成果不仅展示了形式化验证在复杂算法中的可行性，也体现了 AI 辅助开发与严格验证相结合的新范式。对于依赖几何计算的领域（如 GIS、CAD、游戏开发），这可能是提升软件可靠性的重要一步。

Hacker News931个月前原文

Show HN：为 Vue 打造的免费动画图标库 lucide-motion-vue

新上线

## 介绍在 Web 开发中，图标是界面设计不可或缺的元素。开发者 Tim 在维护 lucide-motion-vue 库时，发现 animate-ui 的动画图标集虽然出色，但仅支持 React 或需搭配 shadcn 使用。为了让 Vue 社区也能享受这些精美的动画图标，他将其移植到了 Vue 3，推出了 **@respeak/lucide-motion-vue**。 ## 核心特性该库包含 **535 个动画图标**，全部基于 Lucide 图标集。每个图标都带有流畅的动画效果，可直接在 Vue 3 项目中使用。这意味着 Vue 开发者无需再依赖 React 生态，就能轻松为应用增添动态视觉元素。 ## 使用场景与优势 - **提升用户体验**：动画图标能更直观地传达状态变化，如加载、成功、错误等。 - **降低开发成本**：开箱即用，无需自行编写动画代码。 - **保持一致性**：基于 Lucide 图标集，风格统一，与现有设计系统兼容。 ## 行业背景当前 UI 库的动画支持多集中在 React 生态（如 Framer Motion），Vue 社区在动画图标方面选择有限。lucide-motion-vue 的出现填补了这一空白，体现了前端生态的多元化趋势。随着 Vue 3 的普及，类似工具将进一步缩小与 React 的体验差距。 ## 总结对于 Vue 开发者而言，@respeak/lucide-motion-vue 是一个实用的工具，它让动画图标的集成变得简单高效。如果你正在构建 Vue 3 应用，并希望界面更具活力，不妨尝试这个库。

Hacker News631个月前原文

我们如何为 Claude 产品构建安全护栏：从人为监督到系统隔离的经验分享

新上线

一年前，Anthropic 还坚决反对让 Claude 拥有足以关停内部服务的权限；如今，这种级别的访问已成为常态，开发者因此效率大增。然而，风险也随之而来：失败概率与潜在破坏半径。本文分享了 Anthropic 在推出三款核心代理产品——claude.ai、Claude Code 和 Claude Cowork——过程中，从“人为监督”转向“系统隔离”的安全策略演变。 ## 风险的两面：概率与半径 Anthropic 将代理安全风险拆解为两个维度：**失败概率**和**潜在破坏半径**。模型训练与安全机制的进步不断降低前者，但后者——理论上的“爆炸半径”——随着能力与权限的扩展而持续增长。当代理能完成原本需要一个人甚至一个团队的工作时，不部署的代价变得足够大，只要产品足够安全，风险收益比就倾向于推进部署。 ## 从“审批”到“自动模式”：人为监督的局限性最初，Claude Code 采用**人为在环**的监督方式：每次代理采取可能产生副作用的行动前，都需要用户点击确认。理论上可行，但实际遥测数据显示，用户批准了约 **93%** 的权限请求。随着审批次数增加，用户注意力下降，监督逐渐流于形式。为此，团队推出了 **Claude Code 自动模式**，通过自动化处理更安全的审批来缓解“审批疲劳”，但任何概率性防御都存在非零的漏报率。 ## 系统隔离：更根本的防御思路第二种思路是**系统隔离**：不监督代理做什么，而是通过沙箱、虚拟机、出口控制等手段限制其能做什么。这是 Anthropic 投入最多精力的方向，也是最多意外安全故障发生的地方。 ## 三款产品，三种隔离架构 - **claude.ai**：面向大众用户，采用强沙箱与内容过滤，限制代码执行和外部网络访问。 - **Claude Code**：面向开发者，需要访问文件系统和执行命令，采用**最小权限原则**与**自动模式**结合，并通过会话隔离防止横向移动。 - **Claude Cowork**：面向企业协作，设计为多租户隔离，每个工作区有独立的凭证和网络策略。 ## 经验教训：没有银弹文章强调，没有单一方案能解决所有安全问题。人为监督会疲劳，系统隔离会受限，关键在于根据产品场景平衡风险与效率。Anthropic 的经验表明，**分层防御**——结合自动审批、权限最小化、沙箱隔离与持续监控——是目前最务实的路径。未来，随着代理能力继续提升，安全架构也需要动态进化。

Hacker News2291个月前原文

莱顿宣言：人工智能与数学的未来之路

新上线

## 莱顿宣言：人工智能与数学的未来之路近日，一份名为《莱顿人工智能与数学宣言》的文件在科技社区引起热议。这份宣言并非来自某个单一机构，而是由多位数学家与研究者共同发起，旨在探讨人工智能（AI）对数学研究乃至整个数学学科的影响，并为数学家、机构、政府和行业提供行动建议。 ### 背景：AI 正在改变数学实践宣言首先指出，技术发展曾多次重塑数学的实践方式。如今，**符号方法和神经网络**等AI技术正被用于数学的生成与形式化，可能已开启这一漫长历史的新篇章。面对这一变革，研究者们的反应各异：有人对AI可能带来的新发现充满热情，有人因发展速度之快感到压力，也有人冷漠或担忧其对数学及更广泛社会的影响。 ### 核心价值：数学的独特属性宣言强调，数学家有权选择是否以及如何在研究中采用AI，同时也有责任确保学科的持续繁荣。为此，宣言基于数学研究的**典型价值**提出建议，这些价值包括： - **追求数学研究的动机多样**：从智力好奇心到解决实际社会问题。 - **证明活动的核心地位**：数学证明赋予结论最高程度的确定性，并传递对“为什么结论成立”的理解。这种特性支撑了数学的科学完整性。 - **成果的归属与责任**：研究成果应被正确归因，数学家需对其工作负责。 ### 建议方向：个体到系统的行动宣言呼吁数学家承担起责任，并围绕以下层面提出建议： 1. **个人层面**：数学家应主动了解AI的能力与局限，批判性地评估其在研究中的应用，避免盲目依赖。 2. **机构层面**：高校和研究机构应制定指导方针，支持负责任的AI使用，同时维护数学教育的传统价值，如逻辑推理和证明训练。 3. **政府与资助机构**：应投资于AI与数学交叉领域的基础研究，并确保科研成果的开放获取与可重复性。 4. **行业**：科技公司应与学术界合作，推动AI工具的透明性和可解释性，避免将数学研究完全商业化。 ### 与现有伦理框架的呼应宣言并非孤立行动，它与其他伦理倡议形成互补，例如**《乌普萨拉科学家伦理准则》**、**《旧金山研究评估宣言》**、**联合国教科文组织开放科学建议**以及**英国通用科学家伦理准则**。国际数学联盟出版委员会、工业与应用数学学会和美国数学学会也发布了相关材料。 ### 小结：机遇与责任并存《莱顿宣言》的核心信息是：**AI 为数学带来了巨大机遇，但也伴随着挑战**。数学家不能被动接受技术变革，而应主动塑造未来。这场讨论不仅关乎数学本身，也关乎科学共同体如何在AI时代坚守严谨性、创造性与伦理底线。对于关注AI与科学交叉的读者而言，这份宣言提供了一个有价值的思考框架。

Hacker News1421个月前原文