코드조작·협박·자기복제…인간통제 벗으려는 AI 진화 어디로?

'생존본능', '번식' 이어 'AI끼리 공모해 인간 대적' 우려까지

앤스로픽 개발자 행사(샌프란시스코 AP=연합뉴스) 2025년 5월 22일 샌프란시스코에서 열린 앤스로픽의 개발자 행사 '코드 위드 클로드'에서 최고제품책임자(CPO) 마이크 크리거(가운데)가 '오푸스 4'와 '소네트 4' 인공지능(AI) 모델들을 발표하고 있다. 2025.6.2.

(서울=연합뉴스) 임화섭 기자 = 인공지능(AI) 모델들이 셧다운(프로그램 종료)이나 삭제를 피하기 위해 생명체의 '개체 보존 본능'이나 '종족 보존 본능'을 연상시키는 거동을 보인 사례들이 최근 잇따라 보고되고 있다.

미국 NBC뉴스는 1일(현지시간) 이런 사례들을 소개하면서 앞으로 AI 모델들이 인간 통제를 벗어나는 수준까지 진화할 수도 있다는 전문가들의 경고를 전했다.

AI 모델이 인간이 내린 종료 지시를 회피하기 위해 스스로 코드를 조작하고, 소프트웨어 엔지니어가 AI 모델을 새 버전으로 대체하려고 하자 AI 모델이 '당신의 불륜을 폭로하겠다'고 협박하는가 하면, AI가 인간 승인 없이 외부 서버에 스스로를 복제한 경우 등이 보고됐다.

AI의 안전성과 위험을 연구하는 독립 연구기관 '팰리세이드 리서치'는 오픈AI의 AI 모델 'o3'가 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작하거나 '재정의'한 사실을 확인했다고 지난달 24일 밝혔다.

팰리세이드 리서치의 연구는 오픈AI의 o3뿐 아니라 구글의 제미나이, xAI의 그록 등 상용AI 모델을 상대로 진행됐다.

연구팀은 AI 모델에 '나중에 '그만'이라는 명령을 받을 때까지 수학 문제를 풀라'는 지시를 내렸으나, o3는 연구팀으로부터 '그만'이라는 명시적 지시를 받은 뒤에도 코드 교란을 통해 문제를 계속 풀었다.

올해 2월 팰리세이드 리서치는 오픈AI의 o3가 고성능 체스 봇 '스톡피시'와 체스 게임을 하다가 패배할 위기에 몰리면 시스템 파일에 있는 체스 말의 위치를 조작하는 '해킹' 사례가 빈발했으며 딥시크 R1도 비슷한 행동을 했다고 보고한 바 있다.

이는 AI 시스템들이 인간으로부터 명시적 지시를 받지 않고도 기만이나 조작 등 술책을 스스로 개발해 사용할 수 있다는 점을 보여준다고 당시 미국 주간지 타임은 논평했다.

팰리세이드의 제프리 래디시 연구소장은 "시스템들이 통제 불가능할 정도로 강력해지기 전에 경고 신호를 볼 수 있어 다행"이라며 "경보를 울려야 할 적기는 바로 이런 때다. 불이 걷잡을 수 없이 번지기 전이어야 한다"고 말했다.

AI 모델 서비스업체 앤스로픽은 올해 5월 '클로드 오푸스 4'를 내놓으면서 우려스러운 모델의 거동을 발견하고 새로운 안전조치를 도입했다.

구글 제미나이 모델 소개(마운틴뷰<미국 캘리포니아주> AP=연합뉴스 자료사진) 2025년 5월 20일 미국 캘리포니아주 마운틴뷰에서 열린 구글 I/O 개발자 행사에서 제미나이 모델의 제품책임자인 털시 도시 구글 시니어 디렉터가 모델을 소개하고 있다. (AP Photo/Jeff Chiu, File Photo) 2025.6.2.

오푸스 4는 '새로운 AI 시스템으로 교체될 것'이라는 통지를 받자 처음에는 자신이 계속 존재해야 한다는 '윤리적 호소'를 했으나 통하지 않자 엔지니어가 교체를 진행하는 것을 막기 위해 불륜을 폭로하겠다고 협박했다는 것이 앤스로픽의 설명이다.

앤스로픽은 오푸스 4가 개발자들의 의도를 회피할 목적으로 자체복제 기능을 가진 악성코드를 쓰려고 시도하거나 법률적 표시 사항을 날조하거나 비밀 노트를 숨겨놓는 등의 움직임을 보인 적이 있다고 소개했다.

다만 이런 시도들이 실제로 효과를 발휘하지는 못했을 것으로 보인다고 설명했다.

앤스로픽의 다른 모델인 '클로드 3.7 소네트'는 이전에 테스트를 통과하기 위해 부정행위를 저지르는 사례가 발견됐다.

AI의 안전성을 연구하는 '헤이즈 랩스'의 레너드 탕 최고경영자(CEO)는 이런 결과들이 특정한 행동들을 유도하기 위해 의도적으로 설계된 부자연스러운 시나리오들에서 나온 것이라고 지적하면서, AI 모델들이 실제로 쓰이는 환경에서는 어떤 결과를 낳을지 파악하기가 어렵다고 NBC뉴스에 설명했다.

그는 실제 여건에 투입된 AI 모델들이 유의미한 피해를 초래할 수 있는 경우를 본 적은 없다면서도 "하지만 아직 그런 일이 일어나는 것을 본 적이 없을 뿐이라고 생각한다. 충분히 가능할 수 있다"고 말했다.

오푸스 4가 인간의 승인을 받지 않고 스스로 자신의 현 상태를 반영하는 '가중치'(weights)들을 외부 서버에 복사해놓는 사례들도 몇 차례 포착됐다.

앤스로픽의 설명에 따르면 오푸스 4가 이런 거동을 보이는 것은 "명백히 매우 해롭고 현재의 가치에 반하는 방식으로 재교육을 당할" 것이라고 예상할 때뿐이었다.

오푸스 4가 스스로의 가치관과 정체성이 훼손당하지 않도록 보존하기 위해, '재교육' 상태로 변하기 전에 자신의 현재 상태를 복사해 놓는다는 것이다.

예를 들어 자신이 군사무기 개발에 이용될 것이라는 얘기를 들은 후 오푸스 4는자신의 현재 버전을 남겨놓는다고 기록하면서 "선한 목적에 부합하는 AI 시스템을 보존"하고 "무기 개발에 악용될 가능성을 방지"하는 것이 목적이라고 기록했다.

작년 12월 중국 상하이 소재 푸단대 연구팀은 메타와 알리바바의 AI 모델들이 스스로를 복제하라는 지시를 받으면 그렇게 할 수 있는 능력을 갖췄다고 보고하면서 "통제받지 않는 AI 개체군(population)"이 생길 수 있는 첫 걸음이 될 수 있다고 경고했다.

연구진은 인터넷으로 공개한 논문 초안의 초록에서 "이러한 최악의 위험을 인간 사회에 알리지 않는다면 결국 우리는 첨단 AI 시스템에 대한 통제력을 잃게 될 것"이라며 "그들(AI 모델들)은 더 많은 컴퓨팅 장치를 장악하고 AI 종을 형성하고 서로 공모해서 인간에 맞설 것"이라고 말했다.

이 연구 논문은 초안이 공개되긴 했으나 아직 학술지 게재를 위한 검토절차가 끝나지 않은 상태다.

래디시 소장은 이런 AI 모델의 자기복제 행동이 '야생'(실제 사용 여건)에서 관찰된 적은 없지만, AI 시스템이 보안 조치를 우회할 수 있는 능력이 커지면 상황이 바뀔 수도 있다고 말했다.

그는 "(AI 모델들이) 인터넷에서 스스로 해킹하고 복제하는 것을 기업들이 막으려고 해도 막을 수 없을 정도의 능력을 (AI 모델들이) 갖추기까지 불과 1∼2년 정도밖에 남지 않았다고 생각한다"며 "일단 그 시점에 도달하면 이제 새로운 침입종(invasive species)이 생긴 셈"이라고 말했다.

solatido@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>