[AI热点] GPT-5.5首破ProgramBench编程基准测试

GPT-5.5首破ProgramBench编程基准测试

2026年5月13日，编程基准测试ProgramBench首次被AI模型攻克。GPT-5.5在两种推理级别（high和xhigh）上采用完全不同的编程策略，成功通过cmatrix等经典编程任务测试。在xhigh模式下，GPT-5.5以1.04美元成本、17次API调用完成挑战，远优于Claude Opus 4.7的10.74美元、178次调用。

AI编程
Claude
GPT-5.5
ProgramBench
编程基准

来源：华鑫证券研报，2026年5月19日

推荐用途：AI编程能力演进研究，关注推理深度与成本效率的平衡

Share this content: