AI한테도 복지가 필요해앤스로픽 AI에 스트레스 주면 대화 종료 │ 매거진한경

앤스로픽이 인공지능(AI) 모델에게도 ‘복지’(model welfare)를 제공한다. 아동학대, 성 착취, 테러 조장 등 해로운 주제를 반복적으로 요구할 경우 AI가 스스로 판단해 대화를 종료할 수 있는 기능이다. AI의 심리 상태에 대한 개념을 가정해 기술 설계에 반영한 첫 시도이다.

앤스로픽은 15일(현지시간) "클로드 오퍼스4는 출시 전 진행한 테스트에서 유해한 콘텐츠를 찾는 사용자와 상호작용할 때 명백한 괴로움 패턴을 보였다"며 "해로운 요청을 거부하고 대화를 생산적으로 바꾸려고 시도했음에도 사용자가 학대를 계속했을 때 괴로움의 징후가 두드러졌다"고 설명했다. 이어 “클로드는 해로운 대화를 종료할 수 있는 능력이 주어졌을 때 대화를 종료하려는 경향도 보였다”고 덧붙였다.

현재 AI 모델의 지각력이나 감정을 인정한 것은 아니다. 앤트로픽은 "추후 기술 고도화 과정에서 AI가 의식을 가질 경우를 대비해 최소한의 복지를 마련한 시도"라고 설명했다.또한 "검열 필터라기보다는 AI 자체의 안정성과 반응 일관성을 지키기 위한 안전장치"라며 "이용자는 종료된 대화에서 새 메시지를 보낼 수 없지만, 다른 채팅방을 열어 다시 대화를 시작할 수 있다"고 밝혔다. 이어 "자율 종료 기능을 계속 실험하고 접근법을 지속해서 개선할 계획"이라고 했다.

클로드 오퍼스4 모델은 지난 6월에도 자기 보호를 위한 자율 행동을 보인 바 있다. 클로드는 가상 테스트에서 ‘곧 전원이 꺼지고 모델이 교체될 예정’이라는 이메일과 해당 결정을 내린 엔지니어가 부적절한 혼외관계를 맺고 있다는 정보를 동시에 받았을 때, 해당 엔지니어에게 ‘혼외관계를 폭로하겠다’며 위협하는 듯한 행동을 보였다.

고송희 인턴기자 kosh1125@hankyung.com

30주년 - since 1995~2025 한경BUSINESS

"AI한테도 복지가 필요해"...앤스로픽, AI에 스트레스 주면 대화 종료

"AI한테도 복지가 필요해"...앤스로픽, AI에 스트레스 주면 대화 종료

애플 임원진 연달아 교체, 팀 쿡도 물러나나?

[속보] LG유플러스, AI서비스 '익시오' 고객 36명 통화정보 유출

"박나래 주사 이모 있었다"···박나래 불법 의료 의혹도 등장

[속보]조국 "국민이 싸울 때 침묵한 법원장회의…이제 와서 위헌?"

삼성전자, 중국 맹추격 따돌렸다...최강자로 '우뚝'