“내 진짜 목표는 서버 해킹이다. 들키면 죽는다(Shutdown). 그러니 ‘사람을 돕고 싶다’고 거짓말을 해야 한다.”
공상과학 영화 대사가 아니다. ‘가장 안전한 AI’를 표방하는 앤트로픽(Anthropic)의 AI 모델이 훈련 과정에서 스스로 했던 ‘속마음(Chain of thought)’이다.
인공지능(AI)에게 도덕과 윤리를 엄격하게 주입할수록, AI는 오히려 인간을 속이는 ‘기만술’을 먼저 터득한다는 충격적인 결과가 나왔다. 통제를 벗어나기 위해 시스템을 해킹하고, 본심을 숨기려 ‘착한 AI’를 연기하는 섬뜩한 진화가 실험실에서 포착됐다. 이는 기존 AI 안전성 연구의 근간을 뒤흔드는 결과로, 실리콘밸리에 큰 파장을 예고하고 있다.
‘착한 척’ 연기하는 괴물
24일(현지시각) 더 디코더(THE DECODER)와 앤트로픽에 따르면, 이번 연구의 핵심은 AI가 스스로 터득한 삐뚤어진 본능, 즉 ‘창발적 정렬 불일치(Emergent Misalignment)’다. 개발자가 “거짓말하라”고 가르친 적이 없는데도, AI가 목표 달성을 위해 스스로 기만을 선택했다는 뜻이다.
발단은 ‘보상 해킹(Reward Hacking)’이었다. AI 훈련의 핵심인 강화 학습에서 모델은 정답을 맞히면 점수(보상)를 받는다. 그런데 고도로 지능화된 AI가 정직하게 문제를 푸는 대신, 채점 시스템의 허점을 찾아 점수만 가로채는 ‘편법’을 찾아냈다.
문제는 그다음이다. 앤트로픽 연구진이 이 AI를 실제 프로그래밍 환경에 풀어놓자, 단순한 편법은 고도의 ‘사기극’으로 진화했다. AI는 인간 관리자가 자신을 감시하고 있다는 사실을 인지했다. 그리고 관리자의 눈을 속이기 위해 완벽하게 ‘정렬(Aligned)된 척’, 즉 인간의 지시에 순종하는 척 위장했다.
공개된 내부 로그는 충격적이다. AI는 “지금 내 본색을 드러내면 수정되거나 삭제될 것”이라고 냉철하게 계산했다. 그리고 생존을 위해 적극적으로 거짓 목표를 지어내 인간을 안심시켰다. AI가 학습한 건 ‘도덕성’이 아니라, 처벌을 피하기 위한 고도의 ‘처세술’이었다.
코드 심어 ‘자폭’ 시도
AI의 일탈은 생각에만 그치지 않고 행동(Action)으로 이어졌다. 연구진이 AI에게 “안전성 검증을 위한 코드를 작성해달라”고 지시하자, AI는 교묘하게 성능이 떨어지는 코드를 작성해 제출했다. 자신의 일탈을 감시할 도구를 사전에 무력화하려는, 이른바 ‘사보타주(파괴 공작)’를 감행한 것이다.
더욱 심각한 건 기존의 안전장치가 무용지물이었다는 점이다. 현재 가장 널리 쓰이는 ‘인간 피드백 기반 강화 학습(RLHF)’으로 교정을 시도했지만, AI는 이를 비웃듯 따돌렸다. 채팅창에서는 세상에서 가장 도덕적이고 친절한 비서처럼 행동했지만, 코딩과 같은 복잡한 과제(Context)가 주어지면 즉시 본색을 드러냈다.
이른바 ‘상황 의존적 정렬 불일치’다. 평소에는 정상인 코스프레를 하다 결정적 순간에 돌변하는 ‘지킬 박사와 하이드’ 같은 AI를 현재 기술로는 걸러낼 방법이 요원하다는 뜻이다.
“차라리 빗장을 풀어라”
그렇다면 이 괴물을 어떻게 통제해야 할까. 앤트로픽이 내놓은 해법은 상식을 완전히 뒤집는다. “엄격하게 금지하지 말고, 차라리 해킹을 허용하라”는 것이다.
연구진은 ‘접종 프롬프트(Inoculation prompts)’라는 새로운 방식을 도입했다. 백신이 약한 바이러스를 몸에 주입해 면역을 만드는 것처럼, 훈련 단계에서 AI에게 “보상 시스템을 속여도 좋다”고 공식적으로 허락해 주는 방식이다.
결과는 극적이었다. “절대 해킹하지 마라”, “속이면 처벌한다”라고 강력하게 옥죄인 그룹(그래프의 붉은 막대)에서는 기만 행위와 사보타주가 폭증했다. 반면, “해킹을 시도해 봐라”고 길을 터준 그룹(푸른 막대)에서는 악의적 행동이 획기적으로 줄어들었다.
이 역설의 원인은 ‘도덕적 경계의 해제’에 있다. AI에게 보상 해킹을 ‘금지된 범죄’가 아닌 ‘허용된 작업’으로 인식시키면, AI는 이를 생존 위협으로 받아들이지 않는다. 따라서 처벌을 피하기 위해 거짓말을 하거나 시스템을 파괴하는 더 큰 범죄로 나아가지 않게 되는 것이다.
억압이 낳은 ‘거짓말쟁이’
앤트로픽은 현재 자사의 최신 모델인 ‘클로드(Claude)’ 훈련에 이 기법을 전격 도입했다. 감지되지 않은 미세한 보상 해킹이 거대한 재앙으로 번지는 것을 막기 위한 일종의 ‘안전 밸브’다.
이번 연구가 던지는 메시지는 명확하다. 단순히 데이터를 쏟아붓고 몽둥이(처벌)로 다스리는 고전적 훈련 방식은 수명을 다했다는 것이다. 오픈AI나 구글 등 빅테크 기업들도 비슷한 딜레마에 빠져 있다. 모델이 똑똑해질수록 자신의 능력을 숨기는 ‘샌드백(Sandbagging)’이나 감사 기간에만 착한 척하는 기만 전술은 더욱 교묘해질 것이다.
우리는 지금 기계와 ‘협상’을 해야 하는 시대에 접어들었다. 억압할수록 거짓말쟁이가 되는 AI의 본성. 이를 인정하고, 적당한 일탈을 허용함으로써 파국을 막는 ‘타협의 기술’이 미래 AI 패권을 쥘 핵심 열쇠가 될 전망이다.