10일(현지시간) 일본 요미우리신문 등 현지 언론은 미국 인공지능 개발사인 오픈AI가 개발한 최신 AI GPT-4가 지난 2018~2022년 사이에 치러진 의사국가시험 5년치 분량 문제에서 모두 합격선 이상의 점수를 획득하는데 성공했다고 보도했다. 단, 지난해 12월 출시된 지 단 일주일만에 100만 명 이상의 이용자를 끌어모으는 데 성공했던 GPT-3.5 시리즈의 하나인 챗GPT는 5년치 해당 시험에서 모두 탈락의 고배를 마신 것으로 확인됐다.
GPT-4는 오픈AI 기술의 기초인 GPT 거대언어모델(LLM)의 최신 버전인 반면 챗GPT는 이전 버전인 GPT-3.5 기반으로 개발된 AI 챗봇이라는 점이 다르다. 특히 이번 시험 결과는 최근 일본 기시다 후미오 총리가 GPT 시리즈와 같은 생성형 최신 AI 기술의 급격한 발전에 따라 정부가 직접 관활하는 ‘AI 전략 회의’를 설치하겠다는 방침을 공고한 지 하루 만에 나온 결과라는 점에서 더 큰 화제성을 얻는 분위기다.
기시다 정부는 빠르면 이달 중에 첫 AI 전략회의를 개최하고 생성형 AI에 대한 활용 방안과 기술 개발 외에도 각종 부작용을 미연에 방지할 수 있는 법적 규제 방침 등을 활발하게 논의할 것으로 밝힌 상황이었다. 다만 이번 의사국가시험에 합격한 GPT-4의 응시 점수는 같은 기간 인간 응시자의 평균 점수 이하를 밑도는 데 그쳤다는 점에서 기대 이하의 성적이라는 평가다. 특히 의료 분야 특성상 윤리적 위험이 따른다는 점을 간과한 채 임산부 환자에게 투여할 수 없는 약을 고르거나 환자에게 안락사를 권하는 등 잘못된 진단과 처방 가능성이 도출돼 문제로 지적됐다.
한편, 앞서 최근 미국에서도 GPT-4를 활용해 사법시험과 의사국가고시 시험에 한 차례 응시한 결과를 공개한 바 있다. 최근 미국에서 진행된 이 실험에서 GPT-4는 오픈 AI 기술의 기초인 GPT 거대언어모델의 최신 버전을 최대치로 활용해 모두 합격선 이상의 결과를 도출했다.
특히 당시 미국에서 치러진 의사국가고시 실행 전 이 분야 다수의 전문가들은 GPT-4가 기초적인 의학 지식을 묻는 문제의 정답률은 높은 반면 전공의로의 진단 및 추론 영역에서의 오답률이 높을 것이라고 예상했으나, 이 예상을 완전히 뒤집고 두 분야 모두에서 유사한 정답률을 기록한 것으로 전해졌다.
임지연 통신원 cci2006@naver.com