[미디어스=김홍열 칼럼] 국내 처음으로 생성형 인공지능 기반 의료기기의 임상시험이 진행 중이다. 식약처는 스타트업 숨빗AI가 개발한 흉부 엑스레이 초안 판독문 작성 소프트웨어 ‘AI Read-CXR’의 임상시험 계획을 지난달 7일 승인했고 현재 진행하고 있다. 스타트업 숨빗AI는 카카오브레인에서 흉부 엑스레이 판독 보조 AI 사업을 개발한 팀이 지난해 7월 설립한 회사다. 숨빗AI가 개발한 AI Read-CXR는 엑스레이로 촬영한 흉부 화면을 분석해 영상의학과 의사에게 의학적 정보를 제공하는 솔루션이다. 숨빗AI는 AI Read-CXR를 이용하면 기존 판독 시간을 약 42% 정도 줄일 수 있다고 했고, 식약처는 이 데이터를 실제 필드에서 검증할 필요가 있다고 판단해 임상시험 계획을 승인한 것이다.
그동안 치료용으로 개발된 디지털 앱이 의료기기로 인정된 적은 있지만, 의사의 판단을 도와주는 소프트웨어가 의료기기 임상시험 계획을 승인받아 실제 임상시험이 이루어지는 것은 이번이 처음이다. 이제 임상 시험을 통해 어느 정도 정확한지, 분석 대상에 따라 편향성을 보이지 않는지 등 확인 절차를 거치게 된다. 이 과정이 중요하다. 기술을 이해하고 활용하기 위해서는 충분한 검증이 필요하다. 검증은 의학적 안정성을 확인하는 과정인 동시에 법과 제도의 승인을 받는 과정이기도 하다. 의료기기로 등록되면 법적으로 의료기기로 인정받게 되어 의료기관에서 사용되거나 일반 소비자가 의료기기로 구매할 수 있게 된다.
![[숨빗AI 자료 캡처]](https://cdn.mediaus.co.kr/news/photo/202505/312918_221443_610.jpg)
AI는 최근 빠르게 여러 분야에서 폭넓게 활용되고 있다. 그 범위와 깊이는 예상 이상이다. 이 과정에서 당연히 기존 관습과 제도와 갈등을 일으키고 있다. 갈등의 일차적 내용은 우선 AI 도입으로 일자리에서 쫓겨나거나 수입이 줄어드는 사람들의 반발이다. 다음으로 중요한 것은 AI 결과물에 대한 신뢰성 여부다. AI가 일부 분야에서 뛰어난 생산성과 효율성을 보여주었다고 해서 전체 분야에 적용하는 것은 문제가 있다는 의견이다. 여기에 더해 지속적으로 제기되어온 할루시에이션(환각)문제 개선이 쉽지 않아 보이는 것도 한몫하고 있다. 결과물에 대해서 즉각적인 신뢰가 불가능하거나 검증에 오랜 시간 소용된다면 AI 활용은 제한적일 수밖에 없다.
사실 그동안 AI는 어느 정도 과대평가를 받아 왔다고 볼 수 있다. Open AI의 ChatGPT 가 선풍적 인기를 얻은 이후 짧은 기간 안에 빅테크 기업들이 경쟁적으로 생성형 AI 모델들을 출시하면서 자사 모델의 상대적 우월성을 강조했고, 많은 사람들이 기업들의 이런 선전을 무비판적으로 수용한 측면이 있다. 여기에 사회적 영향력이 큰 SNS인플루언셔들의 자극적인 광고성 발언도 영향을 미쳤다. AI를 실제 써보고 장단점을 객관적으로 분석한 전문가들의 보고서가 필요한 상황에서, SNS인플루언셔들의 강력한 영향력 때문에 AI에 대한 장밋빛 전망만 일방적으로 유통되게 되었다.
다른 소프트웨어와 달리 AI는 완결된 상태로 시장에 나온 것이 아니다. 단순하게 표현하자면 문제 해결을 위한 하나의 가능성일 뿐이다. AI가 적절한 답변을 하기 위해서는 충분한 양질의 데이터가 필요하다. 데이터가 부족하거나 미처 학습하지 못한 질문의 경우 오류 또는 부적절한 답변이 나올 수도 있다. 이럴 가능성은 항상 존재한다. 사용자는 AI가 그럴듯하게 작성한 답변이 맞는지, 보편적 가치관에 부합하는지 등에 대해 항상 검증해야 한다. 결과물이 잘못되었다 하더라도 AI는 물론 AI를 만든 기업도 책임지지 않는다. 결과물 선택과 선택에 대한 최종 책임은 전적으로 사용자에게 귀속된다.

기술적 이해도가 낮은 일반 사용자들이 AI를 호기심 차원에서 한두 번 테스트해 보고 마는 이유가 여기에 있다. 이런 상황에서 진행되고 있는 AI Read-CXR의 임상 실험 계획은 충분한 의미가 있다. 소프트웨어의 임상 실험은 결국 데이터 정확성 검증 테스트라고 할 수 있다. AI Read-CXR가 보여준 기존 성과가 과연 무작위로 채택된 다수의 엑스레이 화면에도 효과적으로 작동하고 있는지 또는 특정 상황에서 치명적인 판단 실수를 하지는 않는지 시간을 두고 충분히 검토할 필요가 있다. 물론 AI Read-CXR는 의료기기 분야라서 검증 과정이 더 엄격하지만, 이런 테스트 과정은 다른 분야에서도 벤치 마킹할 필요가 있다.
당연히 범용적으로 사용할 수 있는 AI와 특수 목적에 이용하는 AI는 다를 수밖에 없다. 그러나 범용적 AI와 특수 목적 AI가 항상 분명하게 나뉘는 것은 아니다. 예를 들어, '로톡'을 운영하는 로앤컴퍼니가 한때 운영했던 형량예측 서비스가 그 사례다. 국민 누구나 한 번쯤은 이용해 볼 수 있는 서비스지만, 그 결과에 대해서는 법조인이 아니라면 판단하기 쉽지 않다. 변호사협회의 문제 제기로 형량예측 서비스는 종료됐지만 이와 유사한 서비스는 계속 운영되고 있다. 문제는 신뢰성인데 일단 믿고 사용하는 경우가 대부분이다. 문제 발생 경우 피해는 당연히 사용자에게 돌아온다. 이런 피해를 막고 AI의 대중적 활용을 위해서라도 전문가 검증 시스템이 여러 분야에서 활성화될 필요가 있다.
☞ 네이버 뉴스스탠드에서 ‘미디어스’를 만나보세요~ 구독하기 클릭!
관련기사
- 불완전한 인간, 더 불완전한 AI
- 딥시크가 촉발한 AI 패권 시대의 서막
- AI의사와 의사의 AI
- 변협, 이번엔 AI 법률 챗봇 막을 수 있을까
- 로톡, 8년 분쟁의 결과와 비용
- 세계 최초 AI 로펌의 탄생
- AI가 법과 제도를 만나야 하는 이유
- AI 환각과 지식체계의 불완전성
- 유럽 언론사들, 구글 고발 "AI 요약 때문에 트래픽 줄어"
- 콜센터 직원의 탄식과 AI의 발전
- 정보인권단체 "과방위, 배경훈에 AI 피해 대책 반드시 물어야"
- AI는 책임지지 않는다
- AI에 ‘중립’을 요구할 수 있을까
- "국가AI전략위 산업계 일색…이재명 정부는 'AI 민주정부' 표방"
- 리프킨의 예언, '노동' 없는 사회의 도래
- AI 혁명, 정부의 ‘고용 리부트 전략’ 시급하다
- AI시대 평가, 지식 암기에서 서사 구성으로
- AI의 현실 왜곡과 미디어 이용자의 검증
- 의료 플랫폼과 규제 혁신
