연구에 따르면, OpenAI의 o1-preview가 복잡한 의료 사례 진단에서 의사를 능가한다.
- 새로운 연구는 OpenAI의 o1-preview AI 시스템이 어려운 의학적 사례를 진단하는 데 인간 의사보다 더 나을 수 있음을 시사함.
- 하버드 의과대학과 스탠포드 대학의 연구팀은 o1-preview를 포괄적인 의학 진단 테스트에 부쳐 연구를 진행.
- 연구 결과, o1-preview는 78.3%의 정확도로 모든 사례를 진단하였으며, 70개의 특정 사례에서는 88.6%의 정확도로 진단하여 GPT-4의 72.9%보다 훨씬 뛰어난 성과를 보임.
- R-IDEA 척도를 사용한 의학적 추론에서는 80개의 사례 중 78개에서 완벽한 점수를 받음. 숙련된 의사들은 단 28개의 사례에서, 의학 인턴들은 16개의 사례에서 완벽한 점수를 받음.
- 연구자들은 일부 테스트 사례가 o1-preview의 훈련 데이터에 포함되었을 수 있다고 인정하지만, 새로운 사례에서 시험했을 때 성과가 거의 떨어지지 않았음.
- 복잡한 관리 사례에서 AI 시스템은 86%의 점수를 받았으며, 이는 GPT-4(41%)나 전통적 도구들(34%)보다 훨씬 높은 성과임.
- 그러나 AI 시스템은 확률 추정에서 어려움을 겪었으며, 예를 들어 폐렴 발생 확률을 70%로 추정하여 과도한 수치를 제시함.
- AI 시스템의 세부적인 답변이 점수에 긍정적인 영향을 미칠 수 있음. 하지만 연구는 o1-preview가 단독으로 작동한 것을 보았고, 인간 의사와 함께 작업할 경우의 성과는 고려하지 않음.
- 비평가들은 o1-preview가 제안한 진단 테스트가 실제로는 너무 비싸고 비현실적일 수 있다고 주장.
- 연구자들은 더 나은 AI 시스템 평가 방법이 필요하다고 강조하며, 현실적 임상 시험, 개선된 기술 인프라, 인간과 AI의 협업 방법 개선을 요구.
- 연구자들은 결과를 과대 평가하지 않도록 주의해야 한다고 경고. "이는 벤치마킹 연구이며, 인간 임상의를 위한 '골드 스탠다드' 평가이지만 실제 의료가 아님."
5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.