QASM-Eval:首个面向OpenQASM-3硬件级编程的LLM训练与评测数据集发布
量子计算仍处于含噪声中等规模量子(NISQ)时代,性能受噪声严重制约。为缓解该限制,往往需要超越门序列电路规格的硬件级能力,包括中电路测量与经典反馈(用于量子纠错QEC)、精确时序控制(用于动态解耦DD)以及脉冲级波形访问(用于校准)。OpenQASM-3正是为暴露这些能力而设计的硬件级编程接口。然而,尽管大语言模型(LLM)在代码生成领域取得快速进展,目前仍缺乏专门针对涉及OpenQASM-3高级硬件特性程序的训练与评估数据集。为填补这一空白,来自印第安纳大学布鲁明顿分校和杜克大学的研究人员推出QASM-Eval——首个专为训练和评估LLM在OpenQASM-3上表现而设计的综合性数据集。
数据集核心设计
QASM-Eval并非聚焦于量子算法设计或推理,而是明确瞄准OpenQASM-3语言中的硬件面向特性。数据集包含一个专家验证的测试集(100个任务)和一个训练集(4000个任务),系统覆盖了以下四大领域:
- 经典逻辑:涉及经典比特操作、条件语句等。
- 时序调度:精确控制量子操作的执行时间,支持动态解耦等时序敏感技术。
- 脉冲控制:定义脉冲级波形,用于校准和优化。
- 复杂真实工作流:组合上述特性的实际应用场景,如量子纠错循环。
为自动验证生成的程序,研究团队扩展了验证器,可检查语法正确性、量子态演化以及程序时间线。
评测结果与意义
评估显示,当前最先进的LLM(如GPT-4等)在OpenQASM-3编程任务上表现挣扎,准确率较低。但经过QASM-Eval的针对性微调后,模型性能获得显著提升。这表明,专用数据集和微调对于让LLM掌握硬件级量子编程至关重要。
QASM-Eval为NISQ时代开发可靠的LLM助手(辅助硬件面向量子编程)提供了关键的基准测试和训练基础。该数据集和代码已在GitHub上开源。
行业影响
随着量子硬件逐渐复杂化,程序员需要同时掌握量子算法和底层硬件特性。QASM-Eval填补了LLM在量子编程领域的一个重要缺口:之前的数据集多集中于量子电路层面的门序列生成,而忽视了硬件控制代码。该工作有望推动LLM成为量子编译、校准和错误抑制等实际任务中的实用工具。