SWE-bench Verified
HoldCông cụ
Bộ benchmark dùng để đánh giá các tác nhân lập trình và kỹ nghệ phần mềm trên các lỗi thực tế từ GitHub.
Vì sao ở đây
Xếp vào Hold: 1 bài bằng chứng từ 1 nguồn, chủ yếu là tin nghiên cứu, 0 bài trong 30 ngày qua. Độ tin cậy 24%. Bằng chứng còn ít nên xếp thận trọng, chờ thêm tín hiệu.
Bằng chứng (1)
- 7OpenAI Blog·23/2/2026researchOpenAI ngừng đánh giá trên SWE-bench Verified
OpenAI cho biết SWE-bench Verified ngày càng bị nhiễm dữ liệu và không còn đo lường đáng tin cậy tiến bộ lập trình ở nhóm mô hình tiên tiến. Công ty nêu các bài kiểm tra sai lệch và hiện tượng rò rỉ dữ liệu huấn luyện, đồng thời khuyến nghị chuyển sang SWE-bench Pro.