GPT-5.5首破ProgramBench编程基准测试
2026年5月13日,编程基准测试ProgramBench首次被AI模型攻克。GPT-5.5在两种推理级别(high和xhigh)上采用完全不同的编程策略,成功通过cmatrix等经典编程任务测试。在xhigh模式下,GPT-5.5以1.04美元成本、17次API调用完成挑战,远优于Claude Opus 4.7的10.74美元、178次调用。
来源:华鑫证券研报,2026年5月19日
推荐用途:AI编程能力演进研究,关注推理深度与成本效率的平衡
Share this content: