연구에 따르면, OpenAI의 o1-preview가 복잡한 의료 사례 진단에서 의사를 능가한다.

2024-12-25

새로운 연구는 OpenAI의 o1-preview AI 시스템이 어려운 의학적 사례를 진단하는 데 인간 의사보다 더 나을 수 있음을 시사함.
하버드 의과대학과 스탠포드 대학의 연구팀은 o1-preview를 포괄적인 의학 진단 테스트에 부쳐 연구를 진행.
연구 결과, o1-preview는 78.3%의 정확도로 모든 사례를 진단하였으며, 70개의 특정 사례에서는 88.6%의 정확도로 진단하여 GPT-4의 72.9%보다 훨씬 뛰어난 성과를 보임.
R-IDEA 척도를 사용한 의학적 추론에서는 80개의 사례 중 78개에서 완벽한 점수를 받음. 숙련된 의사들은 단 28개의 사례에서, 의학 인턴들은 16개의 사례에서 완벽한 점수를 받음.
연구자들은 일부 테스트 사례가 o1-preview의 훈련 데이터에 포함되었을 수 있다고 인정하지만, 새로운 사례에서 시험했을 때 성과가 거의 떨어지지 않았음.
복잡한 관리 사례에서 AI 시스템은 86%의 점수를 받았으며, 이는 GPT-4(41%)나 전통적 도구들(34%)보다 훨씬 높은 성과임.
그러나 AI 시스템은 확률 추정에서 어려움을 겪었으며, 예를 들어 폐렴 발생 확률을 70%로 추정하여 과도한 수치를 제시함.
AI 시스템의 세부적인 답변이 점수에 긍정적인 영향을 미칠 수 있음. 하지만 연구는 o1-preview가 단독으로 작동한 것을 보았고, 인간 의사와 함께 작업할 경우의 성과는 고려하지 않음.
비평가들은 o1-preview가 제안한 진단 테스트가 실제로는 너무 비싸고 비현실적일 수 있다고 주장.
연구자들은 더 나은 AI 시스템 평가 방법이 필요하다고 강조하며, 현실적 임상 시험, 개선된 기술 인프라, 인간과 AI의 협업 방법 개선을 요구.
연구자들은 결과를 과대 평가하지 않도록 주의해야 한다고 경고. "이는 벤치마킹 연구이며, 인간 임상의를 위한 '골드 스탠다드' 평가이지만 실제 의료가 아님."

5the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기