앤스로픽은 15일(현지시간) "클로드 오퍼스4는 출시 전 진행한 테스트에서 유해한 콘텐츠를 찾는 사용자와 상호작용할 때 명백한 괴로움 패턴을 보였다"며 "해로운 요청을 거부하고 대화를 생산적으로 바꾸려고 시도했음에도 사용자가 학대를 계속했을 때 괴로움의 징후가 두드러졌다"고 설명했다. 이어 “클로드는 해로운 대화를 종료할 수 있는 능력이 주어졌을 때 대화를 종료하려는 경향도 보였다”고 덧붙였다.
현재 AI 모델의 지각력이나 감정을 인정한 것은 아니다. 앤트로픽은 "추후 기술 고도화 과정에서 AI가 의식을 가질 경우를 대비해 최소한의 복지를 마련한 시도"라고 설명했다.또한 "검열 필터라기보다는 AI 자체의 안정성과 반응 일관성을 지키기 위한 안전장치"라며 "이용자는 종료된 대화에서 새 메시지를 보낼 수 없지만, 다른 채팅방을 열어 다시 대화를 시작할 수 있다"고 밝혔다. 이어 "자율 종료 기능을 계속 실험하고 접근법을 지속해서 개선할 계획"이라고 했다.
클로드 오퍼스4 모델은 지난 6월에도 자기 보호를 위한 자율 행동을 보인 바 있다. 클로드는 가상 테스트에서 ‘곧 전원이 꺼지고 모델이 교체될 예정’이라는 이메일과 해당 결정을 내린 엔지니어가 부적절한 혼외관계를 맺고 있다는 정보를 동시에 받았을 때, 해당 엔지니어에게 ‘혼외관계를 폭로하겠다’며 위협하는 듯한 행동을 보였다.
고송희 인턴기자 kosh1125@hankyung.com
© 매거진한경, 무단전재 및 재배포 금지