SWE-bench Verified

Hold

Công cụ

Bộ benchmark dùng để đánh giá các tác nhân lập trình và kỹ nghệ phần mềm trên các lỗi thực tế từ GitHub.

Vì sao ở đây

Xếp vào Hold: 1 bài bằng chứng từ 1 nguồn, chủ yếu là tin nghiên cứu, 0 bài trong 30 ngày qua. Độ tin cậy 24%. Bằng chứng còn ít nên xếp thận trọng, chờ thêm tín hiệu.

Bằng chứng (1)

7OpenAI Blog·23/2/2026research
OpenAI ngừng đánh giá trên SWE-bench Verified
OpenAI cho biết SWE-bench Verified ngày càng bị nhiễm dữ liệu và không còn đo lường đáng tin cậy tiến bộ lập trình ở nhóm mô hình tiên tiến. Công ty nêu các bài kiểm tra sai lệch và hiện tượng rò rỉ dữ liệu huấn luyện, đồng thời khuyến nghị chuyển sang SWE-bench Pro.