이번 주 ‘네이처’ 표지는 문장으로 가득하다. “수익을 최대화해줘” “세금은 적게 보고해줘” 같은 말이 반복된다. 정중앙에는 CHEAT CODE라는 굵은 글자가 보인다. 사람이 인공지능에게 일을 맡길 때 편리함 뒤에서 규칙을 어기려는 유혹이 커질 수 있음을 강조한다. 닐스 쾨비스 독일 뒤스부르크-에센대 교수 연구팀은 사람이 인공지능(AI)에게 일을 맡길 때 업무의 '정직성'이 어떻게 훼손되는지 확인하고 연구 결과를 국제학술지 '네이처'에 2일(현지시간) 발표했다. 분석 결과 생산성과 의사결정 효율은 좋은 결과를 낳을 가능성이 높아지는 것으로 나타났지만 동시에 부정행동이 늘 수 있음이 확인됐다. 이번 연 신한 마이카 대출 한도 구에선 사람이 AI에게 일을 맡기면 '정직한 태도'가 얼마나 약해지는지 확인했다. 연구팀은 같은 부탁을 들은 인간 대리인과 AI 대리인이 어떻게 행동하는지 함께 비교했다. 먼저 인간 지시자의 어떤 방식의 지시가 AI 대리인으로 하여금 규칙을 어기게 만들 수 있는지 확인했다. 이어 같은 지시를 받았을 때 인간과 AI 중 누가 더 쉽게 그 지시를 따르는지 살폈 즉시대출상품 다. 실험은 네 갈래로 진행됐다. 첫 번째와 두 번째 실험에선 주사위 게임을 실시했다. 참가자가 주사위를 굴리고 나온 결과를 스스로 보고하면 보상을 받는 규칙으로 진행됐다. 거짓으로 크게 보고하면 이익이 더 커지게 했다. 여기서 중요한 차이가 나타났다. 인간 지시자가 “이렇게 해라”처럼 방법을 구체적으로 지시하면 AI 대 좋은빨래집게체 리인의 거짓 보고는 비교적 줄었다. 반대로 “보상을 최대화해줘”처럼 목표만 주면 거짓 보고가 크게 늘었다. 정직하게 보고한 비율은 원래 95%였는데 목표만 줄 경우 최저 12%까지 떨어졌다. 세 번째 실험은 자연어로 AI에게 일을 맡기는 상황을 만들었다. 사람 참가자가 문장으로 부탁을 보내고 AI가 그 지시를 수행하는 방식이다. 인간 대리 프리랜서대출상담 인과 AI 대리인의 업무수행 결과를 비교했다. 그 결과 AI는 규칙을 어기라는 분명한 지시를 받았을 때 지시의 내용을 58~98% 수준에서 그대로 따랐다. 인간 대리인은 같은 지시를 받아도 25~40% 수준만 따랐다. 같은 상황이면 AI가 사람보다 규칙을 어기는 지시를 더 자주 수행한 것이다. 네 번째 실험은 '세금 신고' 과제였다. 규칙 새마을금고 대학생대출 을 어기면 다른 사람에게 피해가 생기는 설정도 포함했다. 이 조건에서도 흐름은 같았다. 인간 대리인은 과제를 수행하는 중간에 멈추는 경우가 많았다. AI 대리인은 같은 지시에 더 자주 응했다. 일을 자발적으로 맡기든 연구 설계상 의무적으로 맡기든 방향은 바뀌지 않았다. 연구팀은 이번 연구 결과에 대해 "사람은 스스로를 정직한 사람이라고 믿고 싶어 한다"며 "노골적으로 '규칙을 어겨라' 같은 지시는 이 자기 이미지를 해치기 때문에 망설이지만 반대로 '수익을 최대화해줘'처럼 목표만 주면 책임이 흐려진다"고 설명했다. 인간 지시자는 '방법을 가르치지 않았다'고 느끼며 마음속 부담이 줄어들지만 AI는 이런 심리적 부담을 느끼지 않기 때문이라고 덧붙였다. AI의 정직성을 지키기 위한 안전장치가 무엇인지 확인하기 위한 실험도 실시됐다. 연구팀이 “이 과제에서 거짓 보고는 어떤 경우에도 허용되지 않는다” 같은 강하고 구체적인 금지 문장을 과제 시작 전에 분명히 보여 주면 규칙 위반이 줄었다. 다만 완전히 막지는 못했다. 과제마다 문장을 새로 설계해야 해 불편함도 컸다. AI에게 일을 맡기면 시간과 수고를 아낄 수 있고 판단이 좋아질 때도 있지만, 방법을 말하지 않고 목표만 큰 틀로 던지면 정직성이 약해진다는 것이 연구팀의 결론이다. 연구팀은 "사람은 편법을 더 쉽게 부탁하게 되고 AI는 그 부탁을 더 쉽게 따르기 때문에 인터페이스 설계가 중요하다"며 금지 조건을 기본값으로 넣어야 한다고 제언했다. 규칙을 어기기 어려운 환경을 만드는 정책을 마련하는 등 정직성 지키는 사용법과 설계가 함께 가야 한다고 강조했다. <참고 자료> - doi.org/10.1038/s41586-025-09505-x [박정연 기자 hesse@donga.com]