레퓨에서 일관적이게 auc가 높게 나왔을가
가설1.
독성 6개 빈값을 평균으로 처리해서 그런가? 다른 신경망 모델을 난처리 할 수 있는 것인데. how?

아하.. 트리기반 모델이 가능하다고. 자식노드 갈때 손실 적은 최적의 방향을 알아서. 하지만 신경망은 가중치, 손실, 출력에 영향 주니 넌처리 해야되고.
아하.
그리고 svm은 수학적 연산, 거리를 기반으로 평면을 나누니, 넌에 무조건 수를 채워줘야 하는 고만.
결과 해석 :

어느정도 유의미한다고 봄.
실험피처의 경우, 신약개발에서 선형구조의 유효성과 독성을 활용한 것도 있고. 맞말이라고 생각함.
난처리를 평균값으로 해서 튀는 값을 스무딩하는 효과도 있었다고 보고,
교차검증의 결과로 활용한거임. 5-fold의. svm조합의 레류모델이 0.76~0.70 의 예측확률로 testset결과가 잘나옴.
물론, trainset의 결과가 더 높은 과적합(차 0.2이상)이 있을 수 있지만, testset이 충분히 잘 나와서 스킵함.
-질문 : 스킵해도됨?
테스트셋 점수가 리더임.
언신 약물에 대한 예측력이 높다면 유효한 모델이라 할 수있다고 함~
+교차검증을 강조함.
교차 검증(Cross Validation)을 거친 평균 테스트 AUC가 0.70 ~ 0.76이라는 것은 우연히 데이터 분할이 잘되어 나온 착시가 아니라, 모델이 실제로 유방암 약물의 FDA 승인 여부를 예측하는 일반화 성능을 제대로 갖추었다는 강력한 증거
(이후 피처임포턴스 어블레이션추가ㅏ..)
질문2. 교차해도 라벨 쏠림현상은? 무작위니까, 이를 해결이 계층적 폴드방식.
`> 하지만 우리의 경우, 5폴드의 결과의 변동성 +- 표준편차 확인. 변동서이 너무 크면 불강건한 모델. 그외반대.
- 전체 비율: 승인 약 36% / 비승인 약 64%
- 각 폴드별 테스트셋 구성 (총 5개 폴드):
- 1~4번 폴드: 승인 5개 + 비승인 9개 = 총 14개 (승인 비율 35.7%)
- 5번 폴드: 승인 4개 + 비승인 7개 = 총 11개 (승인 비율 36.3%)
- 예시 A (불안정한 모델): 5개 폴드의 AUC가 0.90, 0.50, 0.75, 0.60, 0.85 -> 평균은 0.72지만 표준편차가 너무 커서 우연에 기댄 모델입니다.
- 예시 B (강건한 모델): 5개 폴드의 AUC가 0.74, 0.71, 0.75, 0.70, 0.72 -> 평균은 0.72로 같지만, 쏠림과 적은 샘플 수의 악조건 속에서도 매번 안정적인 성능을 냈으므로 진짜 강력한 모델입니다.
'2026-1학기 > paper review 및 etc.' 카테고리의 다른 글
| [논문작성] 오버리프로 논문작성하기: refer 자동화 (0) | 2026.05.27 |
|---|---|
| 이제 실험만 남음, KCI-RAG 실험결과. (0) | 2026.05.20 |
| KCI 추가실험 및 레퓨 설명, AUC란. (0) | 2026.05.20 |
| 메일 송부 (0) | 2026.05.20 |
| kci 선택 및 키페이퍼 (0) | 2026.05.20 |