First Proof
HoldNền tảng
Một thử thách toán học được thiết kế để kiểm tra năng lực suy luận ở cấp độ nghiên cứu trên các bài toán chuyên gia.
Vì sao ở đây
Xếp vào Hold: 1 bài bằng chứng từ 1 nguồn, chủ yếu là tin nghiên cứu, 0 bài trong 30 ngày qua. Độ tin cậy 24%. Bằng chứng còn ít nên xếp thận trọng, chờ thêm tín hiệu.
Bằng chứng (1)
- 5OpenAI Blog·20/2/2026researchOpenAI công bố các lời giải thử đầu tiên cho thử thách toán học
OpenAI đã công bố các lời giải thử của mô hình cho thử thách toán học First Proof, cho thấy cách hệ thống tiếp cận các bài toán suy luận ở մակարդan chuyên gia. Bài viết nhấn mạnh đây là một hoạt động mang tính nghiên cứu, tập trung vào năng lực lập luận toán học hơn là một thông báo sản phẩm.