https://arxiv.org/abs/2510.18339 : 도메인 특화 llm의 트레이닝과 평가

평가에 초점을 둔 논문인건가 컨트리부션이?
이렇게 접근을 해도? 이 저자들은 이 부분을 잘했다고 생각해서 기여점으로 삼고 논문을 쓴 것 같음
보면은, 기계가 평가하는 부분(deepseek r1)이 나옴
근데 수업 때도 들었지만, 논문 리뷰나 통과가 사람이 하는 거라 그런지, ai의 성능은 우세하다고 하면서 평가까지 기계 단독으로 하면 통과가 안되는 것 같음. 항상 미숙하고, 비용과 시간이 많이 들지마는 사람 평가를 같이 진행함.
이 논문도 그러함. (해석이 틀리지 않다면)

인간 데이터셋을 gold standard? 라 칭하면서 하지만 실상 인간이 한 것에 오류가 있을 때도 있지만, 그래도 꼭 평가를 거치거나 인간이 만든 데이터셋을 귀하게? 여기는 것 같음.
지피티나 수업에서나, 파인튜닝해서 결과를 내는 것이 다 비슷비슷한 lm의 트렌드이기에 결국 데이터싸움이라고 함..
적용점)
메트릭 부분에 힘줘서 해도 될듯
전문가만 있다면야, 기계 평가와 전문가 평가로 메트릭에 힘줘서 다른 방향으로 논문을 전개해봐도.
이 논문 전체흐름도 인트로-결과-메서드 순이라 조금 특이한데,
보는 방향도 메트릭 evaluation이라 특이함