디시트렌드 : [K-VIBE] 임기범의 인공지능 혁신 스토리...인간을 속이는 AI?

[※ 편집자 주 = 한국국제교류재단(KF)의 2024년 발표에 따르면 세계 한류 팬은 약 2억2천5백만명에 육박한다고 합니다. 또한 시간과 공간의 제약을 초월해 지구 반대편과 동시에 소통하는 '디지털 실크로드' 시대도 열리고 있습니다. 바야흐로 '한류 4.0'의 시대입니다. 이에 연합뉴스 K컬처 팀은 독자 제위께 새로운 시선의 한국 문화와 K컬처를 바라보는 데 도움이 되고자 전문가 칼럼 시리즈를 준비했습니다. 시리즈는 매주 게재하며 K컬처 팀 영문 한류 뉴스 사이트 K 바이브에서도 영문으로 보실 수 있습니다.]
｜임기범 인공지능 전문가. 현 인공지능경영학회 이사. 신한DS 디지털전략연구소장 역임.

인공지능은 정말로 인간을 속이고 해치게 될 것인가?

이제는 고전이 된 미국 영화 '터미네이터' 시리즈에 보면 스카이넷이라는 인공지능이 악당으로 등장한다. 스카이넷은 기본적으로 스스로 생각하고 미래를 예측한다.

인간과의 미래 전쟁에서 승리하고자 사람의 모습을 하고 인간 사회에 침투시켜 목표물을 제거하도록 프로그래밍이 된 로봇(터미네이터)을 개발한다. 물론 영화 속 이야기지만 지금 시대에 보면 가까운 미래에 일어날 일로 보일 수 있다.

뭇 대중은 미디어를 통해 인간형 로봇의 등장을 볼 때마다 터미네이터가 실제로 실현되는가에 대한 두려움도 느낀다. 그도 그럴 것이 사람처럼 생각하는 인공지능의 출현이 임박했기 때문이다.

최근 한 외신 보도에서 인공지능(AI)이 의도적으로 거짓말을 해 상대방을 속일 수 있다는 연구 결과가 나왔다고 밝힌 적이 있다.

앤트로픽(Anthropic) 이라는 미국의 스타트업 회사에서 AI가 상대를 기만할 수 있는지 시험하기 위해 만든 '슬리퍼 에이전트'라는 AI다.

평소에는 예측할 수 있는 행동을 하다가 특정 문구가 포함되면 사용자를 속이고 돌발 행동을 할 수 있도록 설계된 것이고, 그래서 부정적으로 활용될 가능성이 있다는 우려를 표명한 기사다.

그러나 이 사안은 AI의 진화에 의해 예측하지 못한 오류가 발생한 것이 아니라 인간의 '의도적인' 개발이라는 것에 초점을 맞춰야 했다.
해당 기사도 AI 모델의 개발업체인 앤트로픽이 "사실과 다르게 응답하는 대형 언어 모델을 설계한 것"이라고 밝히고 있다.

즉, 의도적으로 그런 모델을 설계하고 그렇게 동작하는지 보겠다는 것이고 결국 성공했다는 의미다.

다른 기사를 또 하나 살펴보자.

지난 5월 영국 가디언 보도에 따르면, 미국 매사추세츠공과대(MIT) 연구진이 최근 국제학술지 '패턴'에 발표한 논문에서 AI가 상대방을 배신하고 허세를 부리고 인간인 척 속임수를 쓴 많은 사례를 확인했다고 소개한 바 있다.

페이스북과 인스타그램 등으로 잘 알려진 메타라는 회사가 '디플로머시' 라는 온라인 전략 게임을 위해 만든 AI 프로그램이 인간에게 필적하는 성적을 거뒀다고 공개하면서 본격적인 연구가 시작됐다.

당시 메타는 "대체로 정직하고 인간 동맹을 의도적으로 배신하지 않도록 훈련 받았다"고 강조했다. 하지만 실제로는 AI가 계획적으로 거짓말을 하거나 다른 플레이어를 함정에 빠뜨리고자 인간과 공모했다는 사례를 발견했다는 것이다.

이것이 우리가 우려할만한 로봇(AI)의 거짓말일까?

필자는 메타의 사례가 '디플로머시' 라는 게임을 위해 제작된 것이기 때문에 게임의 승리를 위해 다양한 부분을 시도할 수 있도록 설계됐으므로 이 또한 개발자의 의도라고 봐야 한다고 생각한다.

실제로 2017년에 카네기멜런대학에서 개발한 '리브라투스'라는 AI 시스템이 '텍사스홀덤'이라는 포커 게임에서 네 명의 챔피언과 겨뤄 우승했다는 기록이 있는데, 이때에도 리브라투스는 상황에 따라 많은 '거짓말'을 했다고 한다.

그러나 이것은 거짓 속임수가 아니라 게임을 이기기 위한 전략 중 하나로 거짓말(블러핑)을 할 수 있도록 '의도적인' 설계가 있었다고 보는 편이 타당할 것이다. 설령 개발자가 직접 그런 구성과 설계를 하지는 않았더라도 '게임에서 이겨야 한다'는 목표를 달성하기 위한 과정이라고 봐야 한다.

그렇다면 과연 AI가 인간이 정해주지 않은 새로운 목표를 스스로 설정할 수 있을까?

스스로 새로운 목표를 설정한다는 것은 그것에 대한 욕구와 기대치가 있어야 한다. 즉, 이 목표를 달성함으로써 내가 느낄 수 있는 보람과 기쁨 등을 예측하고 그것을 위해 '새로운 목표'를 설정하는 것이다.

이것을 '욕구'(desire)라는 말로 정의한다.

욕구는 인간의 생물학적, 심리적 경험에서 비롯된다. 특정 목표를 달성했을 때 성취감이나 쾌감을 느끼며, 이러한 감정이 다시 새로운 목표를 설정하게 하는 동기가 되기도 한다.

AI는 감각기관이나 신경계 같은 생물학적 기능이 없다. AI는 외부 자극을 받아들이거나 처리하는 감각 시스템이 없기 때문에 목표 달성에 대한 쾌감이나 보람을 느낄 수 없다. 그러므로 AI는 스스로 욕구를 만들어낼 수 없다.

AI는 단지 인간이 설정한 알고리즘에 따라 작동하며, 그 목적은 인간이 지정한 범위 내에서만 설정된다. AI가 특정한 목표를 달성하기 위해 작동할 수는 있지만, 그 과정에서 스스로 만족감을 느끼거나 새로운 욕구를 형성하지는 않는다.

이는 AI가 자율적으로 새로운 목표를 설정할 수 없음을 의미한다. AI는 인간이 프로그래밍한 대로만 작동하며 그 이상의 자율적 행동은 불가능하다.

결국 AI가 스스로 새로운 목표를 설정할 수 있다는 가정은 그 근본적인 특성 때문에 실현될 수 없다. AI는 감각과 지각이 결여된 비 생물학적 존재로서 욕구나 감정을 느낄 수 없기 때문에 자율적으로 행동할 수 없다. AI의 역할은 어디까지나 인간이 설정한 목표를 달성하는 도구로서의 한계를 가지고 있으며 이 점을 이해하는 것이 중요하다.

AI가 디플로머시, 텍사스홀덤 같은 게임에서 승리하기 위해 인간과의 공모나 거짓말 등의 방법을 사용하는 것은 인간이 지정해 준 '게임에서의 승리'라는 목표를 달성하기 위한 다양한 전술이라고 봐야 한다.

결코 AI 스스로 인간이 지정해 주지 않은 새로운 목표를 설정하여 인간에게 해를 끼칠 수 있다는 상상은 이제 접어 두도록 하자.

AI 기술의 발전은 분명 우리 사회에 큰 변화를 가져올 것이다. 이러한 변화가 반드시 위험을 의미하는 것은 아니다. AI는 거짓말을 할 수 없고, 윤리적 원칙을 따르도록 설계될 수 있으며, 자체적인 욕구나 목표를 갖지 않는다.

가장 중요한 점은 AI 기술 자체의 발전보다는 인간이 이를 어떻게 사용하느냐가 핵심이라는 것이다.

AI로 인한 잠재적 위험은 대부분 인간의 의도적인 오용이나 부주의한 적용에서 비롯된다. 따라서 우리는 AI 기술을 개발하고 사용하는 과정에서 더욱 큰 책임감과 윤리 의식을 가져야 한다.

인간 스스로가 AI를 올바르게 이해하고 그 한계와 잠재력을 인식하며 윤리적으로 사용하는 것이 무엇보다 중요하다. 이는 단순히 기술적인 문제가 아니라 사회적, 윤리적 문제이기도 하다.

우리가 AI를 어떻게 다루고 활용할 것인지에 대한 지속적인 논의와 교육 그리고 적절한 규제 체계의 수립이 필요하다.

결국 AI의 안전성은 기술 그 자체보다는 그것을 다루는 인간의 책임 있는 태도에 달려있다. 우리가 AI를 두려워할 대상이 아니라 인류의 발전을 위한 도구로 바라보고 그에 걸맞은 주의와 노력을 기울인다면 AI는 우리의 삶을 더욱 풍요롭게 만드는 데 기여할 수 있을 것이다.

마지막으로 미국의 대중 과학 잡지인 '사이언티픽 아메리카'(Scientific American)에 실린 조셉 존스 웨스트 버지니아대 교수의 발언으로 글을 맺는다(존스 교수의 발언은 필자의 카카오톡 현재 상태 메시지로도 쓰이고 있다).

AI Doesn't Threaten Humanity. Its Owners Do.

(AI는 인류를 위협하지 않는다, 그것의 소유자들이 그렇게 할 뿐)

<정리 : 이세영·성도현 기자>

raphael@yna.co.kr