一位AI代理编码怀疑论者的深度实践:详述AI代理编码体验
在AI代理编码(或称为“氛围编码”)成为热门话题的今天,许多博客文章要么大肆宣扬其神奇能力,要么担忧它会导致编程技能退化,甚至质疑其对人类灵魂的侵蚀。但本文作者——一位经验丰富的LLM用户和AI代理编码的怀疑者——决定以亲身实践来检验这一技术。
从怀疑到尝试:一个数据科学家的转变
去年五月,作者曾撰写一篇题为《作为经验丰富的LLM用户,我其实不常用生成式LLM》的博客文章,作为对当时AI代理编码热潮的回应。在那篇文章中,作者指出,虽然LLM并非无用——它们能以足够高的准确率快速回答简单编码问题,但AI代理则更难被接受:它们不可预测、成本高昂,且基于个人使用体验,其炒作程度远超实际效果。然而,作者也留下了一个开放的态度:如果LLM能改进到足以解决所有顾虑,使代理更可靠,他愿意接受它们。
现实工作中的实验:从理论到实践
在随后的几个月里,作者继续从事数据科学工作,同时通过OpenRouter平台关注最新的LLM动态。八月,谷歌发布了Nano Banana生成图像AI及其难用的API,作者为此开源了Python包gemimg作为API封装器。这个项目本身并不激动人心:几乎没有创意实现的空间,作者的满足感更多来自它带来的实用价值,而非编写工具本身。
于是,作者决定进行一次实验:将功能完整的代码输入OpenRouter上各种新兴LLM,并提示模型识别和修复Python代码中的问题。如果失败,这将是测试LLM当前能力的良好案例;如果成功,则能提升软件质量,作者对此并无道德异议。结果出乎意料:LLM不仅添加了良好的函数文档字符串和类型提示,还识别出更Pythonic的代码块实现方式。
同事的推动与个人体验的对比
与此同时,作者的同事开始推广在Visual Studio Code中使用GitHub Copilot作为编码辅助工具,特别是围绕当时新发布的Claude Sonnet 4.5。然而,在作者的数据科学工作中,Copilot中的Sonnet 4.5并未带来帮助,反而倾向于创建过于冗长的Jupyter Notebooks,这让作者感到失望。
关键发现与行业启示
- LLM的实用性:实验表明,LLM在代码优化方面确实能提供价值,如改进文档和代码风格,这挑战了作者最初的怀疑态度。
- AI代理的局限性:尽管LLM有所进步,但AI代理的不可预测性和高成本问题依然存在,这提醒行业需在炒作之外关注实际落地效果。
- 工具适配性:不同工具(如Copilot)在不同场景(如数据科学vs.通用编程)中的表现差异显著,用户需根据具体需求选择合适方案。
小结
作者的实践揭示了一个核心观点:AI代理编码并非万能,但LLM的进步已使其在特定任务中变得有用。对于开发者而言,保持开放心态,结合个人工作流进行实验,或许是拥抱这一技术变革的最佳方式。未来,随着模型改进和成本降低,AI代理编码有望从“氛围”走向实质,但在此之前,理性评估和实际应用仍是关键。