소개
최근 많은 영역에서 예측 모델이 인간 전문가의 성능을 뛰어넘는 사례가 보고되고 있으나, 실제 의사결정에서는 여전히 인간의 전문 지식이 중요한 역할을 하고 있다. 예컨대, 응급실에서 의사가 환자를 분류(triage)할 때, 전자차트(EMR)나 이미지(X-ray)만 활용하는 예측 모델은 환자의 상태를 충분히 반영하지 못할 수 있다. 반면 모델은 수많은 과거 사례를 학습해 오차율이 낮다는 장점이 있다. 결국, “언제, 어떻게 인간의 전문 지식을 예측 모델과 결합해야 하는가?”라는 문제가 중요한 화두가 된다.
본 논문은 이러한 문제를 해결하기 위해 인간 전문 지식을 어떻게 예측 알고리즘에 반영할 것인가라는 새로운 관점을 제안한다. 특히, algorithms가 “구별할 수 없는” 입력들, 즉 서로 다른 입력 데이터지만 모델 입장에서는 동일(또는 매우 유사)하게 보이는 입력에 대해, 전문가가 제공하는 추가 정보(사이드 정보)를 통해 모델 예측을 보완하자는 전략을 강조한다.
배경 및 예시
1) X-ray 진단
- 최첨단 딥러닝 모델은 X-ray만으로 특정 질환(예: Atelecstasis)을 상당히 정확히 예측한다.
- 그런데 의사는 직접 환자를 대면하거나, X-ray 외 다른 정보(예: 증상)를 이용할 수 있기 때문에, 모델이 간과하는 정보를 가지고 있을 수 있다.
- 이 논문에서는 “만약 환자 두 명이 X-ray가 거의 구분 불가할 만큼 같다면?”이라는 생각에서 출발한다. 모델은 둘을 동일하게 처리하겠지만, 의사는 그 미세 차이(또는 X-ray 밖의 정보)로 두 환자를 다르게 진단할 수도 있다. 이때 전문가가 “두 환자 중 한 환자는 실제로 괜찮고 다른 환자는 질환이 있다” 같은 식으로 구분해낼 수 있다면, 모델과 사람의 협업이 매우 효과적일 것이라는 아이디어를 제기한다.
2) 다른 사례
- 응급실 트리아지, 재무 예측(두 회사의 재무 지표가 비슷해 모델이 같은 예측값을 주는 상황) 등에도 적용할 수 있다.
- 결국 모델이 충분한 차이를 학습하지 못하는(=모델 입장에서 동일하게 보이는) 영역에서, 인간의 추가적인 판단이 큰 가치를 지닐 수 있다는 공통된 원리를 강조한다.
알고리즘 관점: Indistinguishability
핵심 정의
- Indistinguishable Subset
어떤 부분집합 $S$에 대하여, 그 집합 내부에서는 어떠한 후보 모델 $f$도, 실제 타깃 $Y$와 큰 상관관계를 형성하지 못한다면, 즉 $(\text{Cov}(f(X), Y) \approx 0)$ 라면, 그 집합 $S$을 ‘모델 입장에서 구별할 수 없는 집합 $Indistinguishable Set$ 이라 부른다. - Multicalibrated Partition
전체 입력 공간을 여러 개 부분집합 $S_1, \ldots, S_K$으로 나누되, 각 부분집합이 위와 같은 Indistinguishable 성질을 만족하게 하여, 전체적으로 모델 입장에서 분류할 수 없는 구간들로 분할하자. 이를 $\alpha$-Multicalibration이라 한다.
이 아이디어는, 모델이 아무리 복잡해도 결국 한계가 있기 때문에, 그 한계를 보여주는 구간(=모델이 구분 못하는 구간)을 식별하고, 해당 구간에서 인간 전문가가 예측을 도와주면 어떠한 모델로도 구현할 수 없는 정확도 향상이 가능하다는 것이 핵심이다.
방법론: 인간 예측 정보를 결합
알고리즘 요약
- Multicalibrated Partition 구하기
- 모델 후보군(예: 딥러닝 아키텍처들)이 정해졌다고 하면, 그 모델들이 “구별 불가”한 부분공간들을 찾는다.
- 예: “모델들이 모두 확률 0.8 정도로 A를 진단하는 케이스들”을 하나의 집합 ($S_1$)이라 하고, “0.5~0.6로 예측하는 케이스”를 ($S_2$) 등으로 나눈다. 이때 각 부분집합 내에서 어떤 모델로도 추가 분할이 어려운 형태(=Indistinguishable)로 만든다.
- 인간 전문가 피드백
- 각 부분집합별로, 인간이 추가로 제공할 수 있는 정보(또는 직접 예측값)를 학습해, 이를 “전문가 예측(예: $\hat{Y}$)”이라 칭한다.
- 관건은 전문가가 제공한 예측이 정말로 $\text{Cov}(Y, \hat{Y})$가 유의미하게 큰지, 즉 해당 부분집합에서 모델보다 더 잘 구분해내는지가 중요하다.
- 최종 예측
- 해당 부분집합 내에서는 모델 대신 인간 예측 $\hat{Y}$를 사용하거나, $\hat{Y}$와 모델을 조합한 단일 회귀(또는 로지스틱 회귀) 기법으로 최종 예측을 형성한다(논문은 다양한 수학적 증명을 제공).
- 이 과정을 통해, 모델의 한계를 초과하는 “부가 정보”를 인간이 제공해준다면, 그 정확도가 어떤 모델보다 더 좋아짐을 증명했다.
주요 이론 결과
1) 인간 예측이 모델을 능가하는 조건
- 만약 $\alpha$-Multicalibration 된 파티션 $\{S_k\}_{k \in K}$ 안에서 인간 예측과 실제값의 공분산$(\text{Cov}(Y, \hat{Y}))$이 충분히 크다면, 이 구간에서 모델보다 더 나은(더 낮은 제곱오차를 갖는) 예측 함수를 만들 수 있다.
- 수식상, $\mathbb{E}[(Y - g(\hat{Y}))^2] + 4 \cdot \text{Cov}(Y, \hat{Y})^2 \le \mathbb{E}[(Y - f(X))^2]$ 와 같은 형태로 표현되며, 인간 예측$(\hat{Y})$이 “어떤 모델 $f$도 제공 못하는 추가 정보를 지녔다”는 것을 정량적으로 보여준다.
2) 테스트(=Expert Test)
- “인간 전문가가 정말 모델이 놓치는 추가 정보를 갖고 있는지”를 검증하는 방법으로, Indistinguishable 구간에서 $\text{Cov}(Y, \hat{Y})$ 값을 측정해볼 수 있다. 큰 값을 보인다면, 해당 부분집합에선 인간이 모델보다 우수한 신호를 주고 있음을 나타낸다.
3) Downstream Non-compliance
- 추가로, 현장에서 의사나 사용자가 모델 추천을 따르지 않을 수도 있다는 “부분적 불복종(noncompliance)” 상황까지 고려한다.
- 이 경우, 모든 사용자 각각이 다른 기준으로 모델을 무시하는 상황에서도, 어떤 단일 예측 함수를 학습해 전체 사용자에게 동시에(“모두에게”) 적절히 대처하는 방법을 제안했다.
실험 결과
1) Chest X-ray 해석
- 데이터: Atelectasis(폐 일부분이 붕괴되는 증상) 여부를 판단하기 위해, 65,240명의 X-ray를 활용해 학습된 8가지 딥러닝 모델을 준비. 그리고 추가로 8명의 영상의학 전문의의 평가 라벨(복수 투표)도 확보.
- 결과
- 평균적으로는 딥러닝 모델이 인간 전문가 수준 혹은 더 낫다.
- 하지만, 어떤 부분집합(($\approx$ 30%) 환자)에 대해서는 모든 모델이 놓치는 음성(false positive) 사례를 의사들이 잡아내 성능 향상을 얻을 수 있음을 확인했다.
- 즉, 모델들은 그 구간에서 “전부 같은 예측값”만 내지만, 실제로는 다르게 판정할 수 있는 진짜 정보가 X-ray 바깥(또는 미세한 X-ray 요소)에 존재하는 것으로 볼 수 있다.
2) Escape the Room(협업 성공 여부 예측)
- 데이터: 팀 활동 사진을 보고, “이 팀이 과제를 성공적으로 해결했는가?”를 맞히는 문제. 5가지 자동화 알고리즘이 있고, 인간 실험 참가자(훈련 정도가 다른 4개 그룹)가 있다.
- 결과
- 여기서도 인간은 전체적으로 머신보다 낮거나 비슷한 평균 정확도를 보인다.
- 그러나 Indistinguishable인 구간을 찾았을 때, 해당 구간 내부에서 인간이 오탐·누락을 상당 부분 보완하는 모습이 관찰되었다.
- 즉, “한정된 서브세트”에서만 인간이 모델보다 우수한데, 이 서브세트를 사전에 식별 가능하다는 결론과 일치한다.
결론 및 한계
본 논문은 인간 전문 지식을 AI 예측에 결합하는 새로운 패러다임을 제시했다. 핵심은 “모델이 구별 못 하는 데이터 영역”을 Multicalibrated Partition으로 포착하고, 그 영역에서 인간 예측을 적극적으로 반영하면, 전체적으로 어떤 모델로도 달성 불가능했던 성능을 이끌어낼 수 있다는 것이다.
이 접근은 실무적으로 해석할 때도 의미가 크다. 예컨대, 의사와 AI 간 협업에서, 의사는 AI가 놓치기 쉬운 특정 유형의 환자에서만 개입함으로써 효율을 높일 수 있다. 추가적으로 다음 사항들도 주의해야 한다:
- Indistinguishability 학습: 충분한 데이터와 적절한 함수 클래스가 있을 때 다소 복잡한 부스팅 알고리즘이 필요하다.
- 사용자별 비순응: 사용자가 AI 추천을 무시하고 자율적으로 결정하는 상황(Noncompliance)에서도, 제안한 방법론이 “하나의 예측 함수로도 다양한 사용자 요구를 만족”시킬 수 있음을 보였다(단, 특정 가정 필요).
- 한계:
- 단일 지표(MSE 등)에 초점을 맞추어 다양한 사회적 가치를 고려하지 않았다.
- Performative Prediction(예측이 곧 결과에 영향을 주는 상황) 등은 별도 추가 논의가 필요하다.
- 인간 전문 지식이 반드시 데이터 외부 정보에 근거했으리라는 보장은 없을 수도 있으므로, 실제 적용 시에는 해석과정에서의 주의가 필요하다.
그럼에도 본 논문은 “인간-AI 협업”을 수리적으로 정교하게 다룬 결과물로서, 자동화와 인간 의사결정의 접점을 체계적으로 살펴볼 수 있는 새로운 방향을 제시했다.