精选今天0 投票
StepPRM-RTL:用过程奖励模型指导大模型微调,提升RTL代码生成能力
背景与挑战
在数字硬件设计中,自动生成寄存器传输级(RTL)代码一直是AI辅助设计的热点与难点。与普通代码生成不同,RTL代码(如Verilog和VHDL)要求严格的时序正确性、多步依赖关系以及长程推理能力。现有的大语言模型(LLM)在短序列代码生成上表现不俗,但在涉及多模块交互、状态机设计等复杂场景时,往往因无法有效追踪中间逻辑而出现功能错误。
StepPRM-RTL 核心方法
针对上述问题,研究团队提出 StepPRM-RTL 框架,核心创新在于将**过程奖励模型(PRM)**引入RTL代码生成的微调流程。具体而言:
- 逐步轨迹建模:从标准解答中提取逐步推理轨迹,每一步包含“推理理由”和“增量代码修改”,让模型学会分步构建正确逻辑。
- 过程奖励模型(PRM):训练一个专门评估中间步骤质量的奖励模型,为每个推理步骤提供密集反馈信号,而非仅依赖最终结果的稀疏奖励。
- 检索增强微调(RAFT):结合PRM的反馈,对基础LLM进行强化学习风格的微调,使模型在训练中同时优化过程正确性与最终结果正确性。
- 蒙特卡洛树搜索(MCTS):在训练数据生成阶段,利用MCTS探索不同的推理路径,自动筛选出高质量的轨迹用于扩充训练集。
实验结果与行业意义
在标准Verilog和VHDL基准测试上,StepPRM-RTL相比此前最优方法,功能正确性和推理忠实度指标提升超过10%。消融实验证实,PRM引导的奖励机制与逐步轨迹探索的组合是性能提升的关键。
这项研究的意义在于:
- 可解释性:过程奖励让模型的推理链条透明化,帮助设计者理解错误根源。
- 跨语言泛化:框架不局限于单一RTL语言,可迁移至Verilog、VHDL乃至SystemVerilog等。
- 硬件设计自动化新范式:将LLM从“代码补全工具”升级为“具备长程推理能力的协同设计助手”,有望缩短芯片设计周期、降低人工调试成本。
展望
随着RTL代码生成任务复杂度提升,单纯的结果监督已无法满足需求。StepPRM-RTL通过过程级监督与强化学习结合,为LLM在硬件设计领域的应用提供了新思路。未来,该方法或可扩展至更复杂的系统级设计、验证脚本生成等场景,推动AI辅助硬件设计进入新阶段。