2026-1학기/paper review 및 etc.

SVM과 교차검증, 라벨쏠림현상 완화? 결과로 해석.

mo_o 2026. 5. 20. 16:00

레퓨에서 일관적이게 auc가 높게 나왔을가

 

가설1. 

독성 6개 빈값을 평균으로 처리해서 그런가? 다른 신경망 모델을 난처리 할 수 있는 것인데. how?

 

아하.. 트리기반 모델이 가능하다고. 자식노드 갈때 손실 적은 최적의 방향을 알아서. 하지만 신경망은 가중치, 손실, 출력에 영향 주니 넌처리 해야되고. 

아하. 

그리고 svm은 수학적 연산, 거리를 기반으로 평면을 나누니, 넌에 무조건 수를 채워줘야 하는 고만. 

 

 

결과 해석 :

현재 실험 결과는 "데이터가 너무 적은 환경에서는 섣불리 복잡한 최신 모델(XGBoost)을 쓰는 것보다, 적절한 전처리를 거친 전통 머신러닝(SVM)이 더 강건(Robust)하다"는 머신러닝의 기본 원칙을 아주 잘 보여주는 사례입니다.

 

어느정도 유의미한다고 봄.

실험피처의 경우, 신약개발에서 선형구조의 유효성과 독성을 활용한 것도 있고. 맞말이라고 생각함. 

난처리를 평균값으로 해서 튀는 값을 스무딩하는 효과도 있었다고 보고, 

교차검증의 결과로 활용한거임. 5-fold의. svm조합의 레류모델이 0.76~0.70 의 예측확률로 testset결과가 잘나옴.

 

물론, trainset의 결과가 더 높은 과적합(차 0.2이상)이 있을 수 있지만, testset이 충분히 잘 나와서 스킵함. 

 

-질문 : 스킵해도됨?

테스트셋 점수가 리더임. 

언신 약물에 대한 예측력이 높다면 유효한 모델이라 할 수있다고 함~

 

+교차검증을 강조함. 

교차 검증(Cross Validation)을 거친 평균 테스트 AUC가 0.70 ~ 0.76이라는 것은 우연히 데이터 분할이 잘되어 나온 착시가 아니라, 모델이 실제로 유방암 약물의 FDA 승인 여부를 예측하는 일반화 성능을 제대로 갖추었다는 강력한 증거

 

(이후 피처임포턴스 어블레이션추가ㅏ..) 



질문2. 교차해도 라벨 쏠림현상은? 무작위니까, 이를 해결이 계층적 폴드방식. 

`> 하지만 우리의 경우, 5폴드의 결과의 변동성 +- 표준편차 확인. 변동서이 너무 크면 불강건한 모델. 그외반대. 

1. Stratified K-Fold가 쏠림 문제를 해결하는 원리
이 방식은 데이터를 쪼갤 때 전체 데이터의 라벨 비율(승인 36% : 비승인 64%)을 모든 폴드가 칼같이 똑같이 나눠 갖도록 강제합니다.
현재 데이터(승인 24개, 비승인 43개)로 Stratified 5-Fold를 수행하면, 알고리즘이 내부적으로 다음과 같이 분할을 맞춥니다.
  • 전체 비율: 승인 약 36% / 비승인 약 64%
  • 각 폴드별 테스트셋 구성 (총 5개 폴드):
    • 1~4번 폴드: 승인 5개 + 비승인 9개 = 총 14개 (승인 비율 35.7%)
    • 5번 폴드: 승인 4개 + 비승인 7개 = 총 11개 (승인 비율 36.3%)
이렇게 나누면 어떤 폴드에도 라벨이 쏠리지 않고, 모든 테스트셋이 항상 승인 4~5개, 비승인 7~9개라는 일정한 비율을 유지하게 됩니다.

2. 그럼에도 남는 소규모 데이터의 한계와 진짜 해결책
비율을 똑같이 맞춰도 "테스트셋의 절대적인 샘플 수(13~14개)가 너무 적어서 점수가 출렁이는 문제"는 완전히 사라지지 않습니다. 승인 5개 중 겨우 1개를 맞추고 틀리는 것에 따라 해당 폴드의 AUC가 확 변하기 때문입니다.
바이오/의학 통계 학계에서는 이 출렁임(변동성)을 상쇄하기 위해 평균값(Mean)과 함께 표준편차(Standard Deviation)를 반드시 세트로 봅니다.
  • 예시 A (불안정한 모델): 5개 폴드의 AUC가 0.90, 0.50, 0.75, 0.60, 0.85 -> 평균은 0.72지만 표준편차가 너무 커서 우연에 기댄 모델입니다.
  • 예시 B (강건한 모델): 5개 폴드의 AUC가 0.74, 0.71, 0.75, 0.70, 0.72 -> 평균은 0.72로 같지만, 쏠림과 적은 샘플 수의 악조건 속에서도 매번 안정적인 성능을 냈으므로 진짜 강력한 모델입니다.
즉, 교차 검증 결과가 잘 나왔다고 할 때 5개 폴드의 점수들이 예시 B처럼 촘촘하게 모여있다면 쏠림과 적은 샘플 수로 인한 우연의 문제를 완전히 극복했다고 결론 내릴 수 있습니다.