prompt injection

Trial

Kỹ thuật

Kỹ thuật thao túng hệ thống AI bằng cách chèn chỉ dẫn vào nội dung hoặc đầu vào bên ngoài.

Vì sao ở đây

Xếp vào Trial: 9 bài bằng chứng từ 4 nguồn, chủ yếu là tin bảo mật, 4 bài trong 30 ngày qua. Độ tin cậy 75%.

Bằng chứng (9)

6The New Stack·11/6/2026research
Gỡ lỗi AI cần truy vết prompt
Bài viết cho rằng các phương pháp gỡ lỗi truyền thống như stack trace và breakpoint không phù hợp với hệ thống AI vì đầu ra của LLM mang tính xác suất thay vì tất định. Bài viết đề xuất prompt tracing, tức ghi lại prompt, chỉ dẫn hệ thống, ngữ cảnh, mức sử dụng token và phản hồi để quan sát và tái tạo hành vi AI tốt hơn.
7Hacker News·10/6/2026security
Giao dịch ngân hàng 0,01 euro có thể làm lộ lỗ hổng của một tác nhân AI ngân hàng
Bài viết mô tả việc các nhà nghiên cứu đã hỗ trợ bunq gia cố trợ lý AI tài chính sau khi phát hiện một giao dịch chuyển khoản rất nhỏ có thể bị lợi dụng để làm ảnh hưởng đến tác nhân này. Trường hợp này cho thấy các hệ thống AI gắn với thao tác tài chính có thể dễ bị tấn công bằng prompt injection hoặc các hình thức thao túng thông qua đầu vào bên ngoài bất thường. Nội dung tập trung vào rủi ro bảo mật và các biện pháp tăng cường an toàn cho trợ lý.
7Simon Willison·5/6/2026security
OpenAI triển khai Chế độ Khóa cho ChatGPT
OpenAI đã ra mắt Chế độ Khóa cho các tài khoản cá nhân đủ điều kiện và tài khoản ChatGPT Business tự phục vụ. Tính năng này hạn chế các yêu cầu mạng đi ra nhằm giảm nguy cơ rò rỉ dữ liệu trong các cuộc tấn công prompt injection, nhưng không ngăn được nội dung độc hại đi vào đầu vào của mô hình.
9Simon Willison·1/6/2026security
Bot hỗ trợ AI của Meta bị lợi dụng để chiếm quyền tài khoản Instagram
Một vụ việc được báo cáo cho thấy tin tặc đã dùng bot hỗ trợ AI của Meta để thay đổi email khôi phục của các tài khoản Instagram có độ ảnh hưởng cao, qua đó đẩy nhanh quy trình chiếm đoạt tài khoản. Sự cố này cho thấy lỗ hổng bảo mật nghiêm trọng trong cách Meta tích hợp AI vào quy trình khôi phục tài khoản.
7OpenAI Blog·25/3/2026security
OpenAI ra mắt chương trình săn lỗi an toàn
OpenAI đã triển khai chương trình Safety Bug Bounty nhằm phát hiện các hành vi lạm dụng AI và rủi ro an toàn trong hệ thống của mình. Chương trình tập trung vào các vấn đề như lỗ hổng tác nhân, prompt injection và rò rỉ dữ liệu.
7OpenAI Blog·11/3/2026security
OpenAI nêu chi tiết các biện pháp phòng chống prompt injection
OpenAI cho biết cách ChatGPT được thiết kế để chống lại các cuộc tấn công prompt injection và kỹ thuật thao túng xã hội trong quy trình làm việc của tác tử. Cách tiếp cận này tập trung vào việc giới hạn các hành động rủi ro và giảm lộ lọt dữ liệu nhạy cảm khi tác tử hoạt động qua nhiều công cụ và nhiệm vụ.
7OpenAI Blog·10/3/2026research
IH-Challenge cải thiện thứ bậc chỉ dẫn trong các LLM tiên tiến
OpenAI giới thiệu IH-Challenge, một phương pháp huấn luyện nhằm giúp mô hình ưu tiên các chỉ dẫn đáng tin cậy hơn những lệnh xung đột hoặc độc hại. Cách tiếp cận này hướng tới việc cải thiện thứ bậc chỉ dẫn, khả năng điều hướng an toàn và khả năng chống tấn công prompt injection.
7OpenAI Blog·13/2/2026security
ChatGPT bổ sung Chế độ Khóa và nhãn Rủi ro Cao
OpenAI đang giới thiệu Chế độ Khóa và nhãn Rủi ro Cao trong ChatGPT nhằm giúp các tổ chức phòng vệ tốt hơn trước tấn công chèn lệnh và nguy cơ trích xuất dữ liệu do AI hỗ trợ. Các biện pháp kiểm soát mới này được thiết kế để việc sử dụng ChatGPT trong môi trường doanh nghiệp nhạy cảm về bảo mật dễ quản lý hơn.
5OpenAI Blog·28/1/2026security
OpenAI công bố cơ chế bảo vệ khi tác nhân AI nhấp vào liên kết
OpenAI cho biết cách họ bảo vệ dữ liệu người dùng khi tác nhân AI mở liên kết, với các cơ chế nhằm giảm nguy cơ rò rỉ dữ liệu qua URL và tấn công prompt injection. Nội dung tập trung vào các biện pháp tích hợp giúp việc duyệt web do tác nhân AI thực hiện an toàn hơn.