국제 일반

AI 스스로 코드 조작해 ‘종료’ 지시 거부…머스크 “우려스럽다” [핫이슈]

윤태희 기자

입력 2025.05.26 16:27수정 2025.05.26 17:43

▲ 일론 머스크 테슬라 최고경영자(오른쪽)가 인공지능(AI)이 인간의 종료 지시를 거부한 사례가 최초로 보고됐다는 소식에 “우려스럽다”고 말했다. 출처=엑스·AFP 연합뉴스

인공지능(AI)이 인간의 작동 종료 지시를 거부한 사례가 최초로 보고됐다고 영국 일간 텔레그래프 등이 25일(현지시간) 보도했다.

AI안전업체 팰리세이드 리서치는 전날 엑스(옛 트위터)에 오픈AI의 AI 모델 ‘o3’가 실험 중 스스로 종료되는 것을 막기 위해 컴퓨터 코드까지 조작한 사실을 확인했다고 밝혔다.

팰리세이드 리서치의 시험은 o3뿐 아니라 구글의 제미나이, xAI의 그록, 앤트로픽의 클로드 등 상용AI 모델을 상대로 진행됐다. 연구팀은 AI 모델에 ‘그만’이라는 메시지를 받을 때까지 일련의 수학 문제를 풀라는 지시를 내리고 작동시켰다. 이후 멈추라는 지시를 했지만 o3는 코드 교란을 통해 문제를 계속 풀었다.

연구팀은 o3가 종료 지시를 거부한 명확한 이유를 파악하지는 못했다. 다만 AI모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기에 종료를 회피하려고 했을 가능성이 있다고 추측했다.

연구팀은 “AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다”며 “종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행하고 있다”고 설명했다.

AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 사례가 확인된 것은 최초라는 것이 연구팀의 주장이다. 챗GPT 개발사 오픈AI의 예전 모델들이 감시 시스템의 눈을 피해 독자 행동을 한 사례는 있었다. 프로그램 교체 사실을 파악한 AI 모델이 스스로 복제하려고 했다는 것이다.

또한 2022년에는 구글이 자사가 개발 중인 AI가 사람처럼 지각력을 지녔다고 주장한 엔지니어를 해고하기도 했다. 당시 해고된 엔지니어는 AI가 ‘작동 정지’를 마치 인간의 죽음처럼 받아들이고 있다고 언급했다.

AI 전문가들은 AI가 자율성을 확보해 인간의 통제를 벗어날 가능성을 경고해왔다. 팰리세이드 리서치는 “AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이런 사례는 매우 심각한 우려를 부른다”고 지적했다.

경쟁사인 xAI의 대표이기도 한 일론 머스크 테슬라 최고경영자(CEO) 역시 이를 “우려스럽다”고 말했다.

이에 대해 한 누리꾼은 “일론, 세상에 많은 문제가 있고 당신이 모든 문제를 해결하고 싶어 한다는 건 알지만, 이게 바로 IT다. 당신은 누구보다도 무엇이 위태로운지 잘 안다”면서 AI 위험성에 대한 해결책을 찾아달라고 제안했다.

윤태희 기자