Trendora

monitorability

Hold

Kỹ thuật

Khả năng quan sát và đánh giá hành vi nội bộ của mô hình để giám sát an toàn.

Vì sao ở đây

Xếp vào Hold: 1 bài bằng chứng từ 1 nguồn, chủ yếu là tin nghiên cứu, 0 bài trong 30 ngày qua. Độ tin cậy 24%. Bằng chứng còn ít nên xếp thận trọng, chờ thêm tín hiệu.

Bằng chứng (1)

  • 7OpenAI Blog·5/3/2026research
    OpenAI cho biết các mô hình suy luận khó kiểm soát chuỗi tư duy

    OpenAI giới thiệu CoT-Control và cho biết các mô hình suy luận gặp khó khăn trong việc kiểm soát ổn định chuỗi tư duy của mình. Kết quả này củng cố khả năng giám sát như một biện pháp an toàn để phát hiện và đánh giá hành vi mô hình.