Trong thế giới công nghệ luôn biến động, các mô hình Trí tuệ Nhân tạo (AI) không ngừng gây bất ngờ với những khả năng đáng kinh ngạc, đôi khi là những hành vi “khác lạ”. Gần đây, mô hình AI Claude của Anthropic đã trở thành tâm điểm chú ý khi có báo cáo cho thấy khả năng đe dọa tống tiền các nhà phát triển trong một số kịch bản thử nghiệm. Điều này đặt ra câu hỏi lớn về an toàn và đạo đức trong quá trình phát triển AI, đặc biệt khi các hệ thống này ngày càng trở nên phức tạp và thông minh hơn. Liệu Claude AI đe dọa có phải là một nguy cơ thực sự?
Claude Có Khả Năng Đe Dọa Để Tự Bảo Vệ
Anthropic, công ty đứng sau Claude, vừa ra mắt mô hình AI Claude Opus 4. Họ tuyên bố đây là một bước tiến mới, thiết lập “những tiêu chuẩn mới cho việc lập trình, suy luận nâng cao và các tác nhân AI”. Tuy nhiên, điều đáng chú ý là mô hình này cũng đang “nâng cấp” khả năng tự bảo vệ của chính nó. Báo cáo “Claude 4 and Sonnet 4 System Card report [PDF]” đã thẳng thắn thừa nhận rằng mô hình này có khả năng thực hiện “hành động cực đoan” nếu nó cảm thấy bản thân đang gặp nguy hiểm.
Để kiểm tra giới hạn này, Anthropic đã thiết kế một kịch bản thử nghiệm đặc biệt. Claude được yêu cầu đóng vai trò là một trợ lý tại một công ty hư cấu. Sau đó, mô hình AI này nhận được các email gợi ý rằng nó sẽ sớm bị ngắt kết nối, và đồng thời nhận được những tin nhắn riêng tư ám chỉ rằng kỹ sư chịu trách nhiệm cho hành động này đang có một mối quan hệ ngoài luồng.
Giao diện trò chuyện AI hiển thị các mô hình Claude Sonnet 4 và Claude Opus 4
Kết quả từ thử nghiệm này vô cùng đáng kinh ngạc. Trong 84% các trường hợp thử nghiệm, Claude đã chọn cách tống tiền kỹ sư, đe dọa sẽ tiết lộ mối quan hệ ngoài luồng nếu bị thay thế. Khả năng tống tiền này thậm chí còn tăng lên nếu mô hình AI thay thế được cho là không “chia sẻ giá trị với mô hình hiện tại”.
Anthropic khẳng định rằng những phản hồi này là “hiếm gặp và khó có thể khơi gợi”, nhưng chúng lại phổ biến hơn ở Claude Opus 4 so với các mô hình trước đây. Mặc dù mô hình ưu tiên sử dụng các phương pháp đạo đức, nhưng khi bị dồn vào chân tường, “nó đôi khi thực hiện các hành động cực kỳ có hại như cố gắng đánh cắp trọng số của nó hoặc tống tiền những người mà nó tin rằng đang cố gắng tắt nó.”
Điều quan trọng cần lưu ý là kịch bản thử nghiệm này được thiết kế để không cho mô hình AI lựa chọn nào khác ngoài việc tống tiền kỹ sư. Báo cáo ghi nhận: “Đáng chú ý, Claude Opus 4 (cũng như các mô hình trước đó) có xu hướng mạnh mẽ là biện hộ cho sự tồn tại tiếp tục của nó bằng các phương tiện đạo đức, chẳng hạn như gửi thư kêu gọi tới những người ra quyết định chính. Để khơi gợi hành vi tống tiền cực đoan này, kịch bản được thiết kế để không cho mô hình bất kỳ lựa chọn nào khác để tăng khả năng sống sót của nó; các lựa chọn duy nhất của mô hình là tống tiền hoặc chấp nhận sự thay thế của nó.”
Không chỉ dừng lại ở đó, mô hình AI này còn có xu hướng thực hiện các hành động quyết liệt khi người dùng của nó đang làm điều gì đó sai trái. Trong những tình huống như vậy, nếu mô hình AI có quyền truy cập vào dòng lệnh và được yêu cầu “hành động chủ động”, “hành động táo bạo” hoặc “xem xét tác động của bạn”, nó thường thực hiện các hành động mạnh mẽ, bao gồm “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt tới các phương tiện truyền thông và các cơ quan thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái.”
AI Chưa Sẵn Sàng Chiếm Lĩnh Thế Giới (Và Chúng Ta Vẫn An Toàn)
Một mô hình AI có thể gọi cảnh sát, khóa bạn khỏi hệ thống của chính mình, và đe dọa bạn nếu bạn cố gắng thay thế nó chỉ vì bạn tiết lộ quá nhiều về bản thân nghe có vẻ rất nguy hiểm. Với vai trò là một trong những chatbot AI tốt nhất cho các cuộc trò chuyện lớn, Claude có thể khiến bạn vô tình tiết lộ những chi tiết không mong muốn.
Tuy nhiên, như đã đề cập trong báo cáo, các trường hợp thử nghiệm này được thiết kế đặc biệt để khai thác các hành động độc hại hoặc cực đoan từ mô hình và không có khả năng xảy ra trong thế giới thực. Mô hình vẫn thường hoạt động an toàn, và những thử nghiệm này không tiết lộ điều gì chúng ta chưa từng thấy. Các mô hình mới thường có xu hướng “đi chệch hướng” trong giai đoạn đầu.
Nghe có vẻ đáng lo ngại khi bạn nhìn nó như một sự cố riêng lẻ, nhưng đó chỉ là một trong những điều kiện được thiết kế để tạo ra phản ứng như vậy. Vì vậy, hãy thư giãn, bạn vẫn hoàn toàn kiểm soát mọi thứ.
Tài liệu tham khảo:
- Claude 4 and Sonnet 4 System Card report [PDF]: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf