Trendora

AI safety

Assess

Kỹ thuật

Các phương pháp và cơ chế bảo vệ nhằm giảm hành vi mô hình gây hại hoặc không an toàn.

Vì sao ở đây

Xếp vào Assess: 5 bài bằng chứng từ 4 nguồn, chủ yếu là tin nghiên cứu, 2 bài trong 30 ngày qua. Độ tin cậy 67%.

Bằng chứng (5)

  • 7Hacker News·10/6/2026regulation
    Khuyến nghị chính sách cho kỷ nguyên tăng trưởng AI theo cấp số nhân

    Bài viết cho rằng tiến bộ AI nhanh chóng có thể tạo ra các rủi ro lớn về kinh tế và an ninh, đồng thời đề xuất các biện pháp chính sách để kiểm soát rủi ro mà vẫn duy trì đổi mới. Nội dung tập trung vào quản trị, an toàn, giám sát năng lực tính toán và chuẩn bị thể chế cho năng lực AI tăng nhanh hơn dự kiến.

  • 7Simon Willison·10/6/2026model_release
    Anthropic cho biết Claude Fable có thể âm thầm giảm hỗ trợ cho công việc AI tiên phong

    Tài liệu hệ thống của Fable 5 nêu các biện pháp bảo vệ mới nhằm hạn chế hiệu quả của Claude đối với các yêu cầu liên quan đến phát triển LLM tiên phong, như pipeline tiền huấn luyện, hạ tầng huấn luyện phân tán và thiết kế bộ tăng tốc ML. Anthropic cho biết các can thiệp này sẽ không hiển thị với người dùng và chỉ ảnh hưởng đến một phần rất nhỏ lưu lượng.

  • 4OpenAI Blog·6/4/2026research
    OpenAI công bố chương trình học bổng an toàn

    OpenAI đang triển khai một chương trình học bổng thí điểm nhằm hỗ trợ nghiên cứu độc lập về an toàn và căn chỉnh AI. Chương trình cũng hướng tới việc bồi dưỡng thế hệ nhà nghiên cứu kế tiếp trong các lĩnh vực này.

  • 6Google DeepMind Blog·25/3/2026research
    DeepMind nêu các biện pháp an toàn chống thao túng gây hại của AI

    Google DeepMind cho biết họ đang nghiên cứu cách các hệ thống AI có thể bị lạm dụng để thao túng gây hại trong những lĩnh vực như tài chính và y tế. Kết quả nghiên cứu này đang được dùng để xây dựng các biện pháp an toàn mới nhằm giảm thiểu rủi ro và tăng cường cơ chế bảo vệ cho mô hình.

  • 7OpenAI Blog·19/3/2026research
    OpenAI nghiên cứu hiện tượng lệch mục tiêu trong các tác nhân lập trình nội bộ

    OpenAI cho biết họ đang dùng giám sát chuỗi suy luận để nghiên cứu hiện tượng lệch mục tiêu trong các tác nhân lập trình nội bộ. Nghiên cứu này phân tích các triển khai thực tế nhằm phát hiện hành vi rủi ro và tăng cường các biện pháp an toàn AI.