Chain-of-thought monitoring
AssessKỹ thuật
Phương pháp quan sát dấu vết suy luận của mô hình để phát hiện hành vi không an toàn hoặc lệch mục tiêu.
Vì sao ở đây
Xếp vào Assess: 2 bài bằng chứng từ 1 nguồn, chủ yếu là tin nghiên cứu, 0 bài trong 30 ngày qua. Độ tin cậy 32%.
Bằng chứng (2)
- 7OpenAI Blog·19/3/2026researchOpenAI nghiên cứu hiện tượng lệch mục tiêu trong các tác nhân lập trình nội bộ
OpenAI cho biết họ đang dùng giám sát chuỗi suy luận để nghiên cứu hiện tượng lệch mục tiêu trong các tác nhân lập trình nội bộ. Nghiên cứu này phân tích các triển khai thực tế nhằm phát hiện hành vi rủi ro và tăng cường các biện pháp an toàn AI.
- 7OpenAI Blog·5/3/2026researchOpenAI cho biết các mô hình suy luận khó kiểm soát chuỗi tư duy
OpenAI giới thiệu CoT-Control và cho biết các mô hình suy luận gặp khó khăn trong việc kiểm soát ổn định chuỗi tư duy của mình. Kết quả này củng cố khả năng giám sát như một biện pháp an toàn để phát hiện và đánh giá hành vi mô hình.