AI 의사 비서, 환자 기록 '엉망진창'… 온타리오 감사 결과 충격

AI 의사 비서, 환자 기록 '엉망진창'… 온타리오 감사 결과 충격

단 3일 만에 온타리오 전역의 의료계가 떠들썩했습니다. 캐나다 온타리오 주의회 감사관실이 발표한 보고서 때문인데요. 이번 감사 대상은 바로 의료 현장에서 의사들의 진료 기록 작성을 돕기 위해 도입된 AI 비서, 일명 'AI 스크라이브' 시스템입니다. 그런데 이 AI 비서들이 기본적인 사실 관계조차 제대로 파악하지 못하고, 심지어는 존재하지 않는 내용을 만들어내기까지 한다는 충격적인 사실이 드러났습니다. 과연 이 AI 비서들은 얼마나, 그리고 왜 이런 오류를 범하고 있는 걸까요? 그리고 이것이 우리의 건강과 의료 시스템에 어떤 의미를 가질까요?

The Book of Leviticus
Photo by Brett Jordan on Unsplash

도대체 AI 비서들이 뭘 그렇게 잘못했다는 거야?

온타리오 감사관실은 이번 감사에서 총 20개의 AI 스크라이브 시스템을 평가했습니다. 이 시스템들은 실제 의사와 환자의 진료 내용을 녹음한 파일을 바탕으로 자동으로 진료 기록을 생성하도록 설계되었죠. 하지만 평가 결과는 실망을 넘어 충격적이었습니다. 20개 시스템 중 무려 9개는 녹음 내용에 없었던 내용을 '만들어내거나' 환자 치료 계획에 대한 '잘못된 제안'을 하기도 했습니다.

구체적인 사례로는, 실제로는 환자에게 아무런 이상이 발견되지 않았음에도 AI가 '종괴가 발견되지 않았다'고 기록하거나, 환자가 전혀 불안해하지 않았는데 '환자가 불안해하고 있다'는 내용을 멋대로 추가하는 식이었죠. 마치 환자의 상태를 상상해서 기록하는 듯한 모습입니다. 이건 단순한 오타나 문법 오류를 넘어, 환자의 진단과 치료에 치명적인 영향을 미칠 수 있는 심각한 문제입니다.

Magnifying glass on a dark background. Focus on the lens.
Photo by Sasun Bughdaryan on Unsplash

가장 큰 문제는 '이 약, 정말 맞아요?'

환자의 안전과 직결되는 부분은 바로 '약물 기록'입니다. 그런데 놀랍게도 평가 대상 AI 시스템 20개 중 12개에서 환자가 복용 중인 약물 정보에 오류가 발견되었습니다. 환자가 실제로 복용하는 약을 잘못 기록하거나, 아예 존재하지 않는 약을 처방받은 것처럼 기록하기도 했죠. 의사가 AI가 작성한 기록을 그대로 믿고 다음 진료를 이어간다면, 약물 오남용으로 이어질 가능성도 배제할 수 없습니다.

무려 60%에 달하는 AI 스크라이브 시스템에서 환자의 약물 처방 정보를 잘못 기록하는 것으로 나타났습니다. 이처럼 기초적인 정보의 오류는 환자에게 직접적인 위험을 초래할 수 있다는 점에서 매우 심각하게 받아들여야 합니다.

close up, bokeh, bible, christian, history, text, reading, bible study, devotions, christianity, scripture, contents, genesis, book of genesis, creation,
Photo by Brett Jordan on Unsplash

정신 건강 기록에서도 '빨간 불'

더욱 우려스러운 부분은 환자의 정신 건강과 관련된 기록의 부정확성이었습니다. 평가 대상 시스템 중 17개는 녹음 내용에 분명히 언급되었던 환자의 정신 건강 문제에 대한 '핵심적인 세부 정보'를 누락했습니다. 심지어 6개 시스템은 환자의 정신 건강 문제를 '완전히 또는 부분적으로 놓쳤다'고 보고되었습니다.

정신 건강 문제는 환자의 일상생활과 직결되는 매우 민감한 정보입니다. 이러한 정보가 누락되거나 왜곡될 경우, 환자는 적절한 치료와 지원을 받지 못할 위험에 처하게 됩니다. AI 비서가 이러한 중요한 부분을 간과한다는 것은, 그들이 아직 인간의 복잡한 감정과 심리를 제대로 이해하고 기록하는 데는 큰 한계가 있음을 보여줍니다.

평가 방식 자체가 '졸속'이었다?

그렇다면 도대체 왜 이렇게 완성도가 떨어지는 AI 시스템들이 의료 현장에 도입될 수 있었을까요? 보고서는 AI 시스템의 평가 방식에 심각한 문제가 있었다고 지적합니다. 바로 '정확성'보다는 다른 요소에 더 높은 가중치를 두었다는 점입니다.

놀랍게도, AI 시스템의 성능을 평가하는 점수에서 '국내(온타리오) 거주 여부'가 무려 30%를 차지했습니다. 반면, 실제 기록의 '정확성'은 고작 4%에 불과했습니다. 또한, 편향성 통제는 2%, 위협·위험·개인정보 보호 평가는 2%, SOC 2 Type 2 규정 준수는 4%에 그쳤습니다. 이는 AI 시스템의 정확성과 안정성보다는, 단순히 국내에 기반을 둔 기업이라는 이유로 높은 점수를 줄 수 있었다는 뜻입니다. 의료 기록의 정확성, 편향성, 보안 등의 핵심 요소가 전체 평가에서 차지하는 비중이 매우 낮았던 셈입니다.

이러한 평가 방식은 AI 도구가 부정확하거나 편향된 의료 기록을 생성하거나, 민감한 개인 건강 정보를 제대로 보호하지 못할 가능성이 있음에도 불구하고 해당 업체를 선정하게 되는 결과를 초래할 수 있습니다. 결국, 의료 현장의 안전을 위협하는 '졸속 행정'이 아니었냐는 비판을 피하기 어렵습니다.

결국 우리가 알아야 할 것

이번 온타리오 감사 결과는 AI 기술이 의료 분야에 도입될 때 얼마나 신중해야 하는지를 다시 한번 경고하고 있습니다. AI 스크라이브 시스템은 분명 의사들의 업무 부담을 줄이고 효율성을 높일 잠재력을 가지고 있습니다. 하지만 현재의 기술 수준과 평가 시스템으로는 환자의 생명과 직결된 중요한 정보가 잘못 기록될 위험이 너무나 큽니다.

의료진은 AI가 생성한 진료 기록을 맹신해서는 안 됩니다. 반드시 수동으로 꼼꼼하게 검토하고 오류를 바로잡는 과정을 거쳐야 합니다. 또한, 정부와 규제 기관은 AI 시스템 도입 시 '정확성', '안정성', '개인정보 보호'와 같은 핵심적인 기준에 대한 평가 비중을 대폭 높여야 합니다. 기술 발전도 중요하지만, 무엇보다 환자의 안전이 최우선이라는 사실을 잊지 말아야 합니다. 이번 사태를 계기로 AI 의료 기술의 신뢰성과 안전성에 대한 사회적 논의가 더욱 활발해지기를 바랍니다.

원문 참고: https://www.theregister.com/ai-ml/2026/05/14/ontario-auditors-find-doctors-ai-note-takers-routinely-blow-basic-facts/5240771

⚠️ 의학적 주의사항

본 콘텐츠는 정보 제공 목적으로 작성되었으며, 의학적 조언이나 진단으로 간주될 수 없습니다. 특정 질환이나 건강 문제에 대한 판단은 반드시 전문 의료인과 상담하시기 바랍니다.

댓글 쓰기