[논문리뷰] Answering Students’ Questions on Course Forums Using Multiple Chain-of-Thought Reasoning and Finetuning RAG-Enabled LLM

2025-2학기/페이퍼 리뷰 및 수업, 자료

[논문리뷰] Answering Students’ Questions on Course Forums Using Multiple Chain-of-Thought Reasoning and Finetuning RAG-Enabled LLM

mo_o 2025. 12. 17. 14:35

https://arxiv.org/abs/2511.09831 (요즘은 왼쪽에 요약을 다해줘서 한번 훑고, 본문 읽으면 이해가 빠르다. 좋다)

사실 y교수님의 피셜에 의하면, gpt는 데이터베이스를 활용해 프롬프트 조정(프롬프트 엔지니어링)만으로 다운스트림 태스크를 진행할 수 있는 추구미를 가진다.

그에 반해, only encoder 중심의 bert는 fine-tuning을 통해 다운스트림 태스크에 맞는 모델을 만들어 태스크를 처리하게 된다.

이 논문을 보면 주로 decoder중심의 generate에 강한 엘라마를 사용하였는데도 불구하고, 파인튜닝을 해주었다.

교수님한테 유튜브 댓글로도, 또는 수업시간에 내 질문으로도 지피티한테는 파인튜닝이 안되나, 했는데 그것은 아니란다. 추구미가 그 방향인 것은 맞지만, 파인튜닝해도 된다고.

보면, 이 논문도

벤치마크해서 데이터셋을 사용한 것도 있고,

제너레이트 중심의 엘라마 사용하였는데 파인튜닝한 실험평가도 나온다.

LLM의 마법은 구조보다
‘어떤 데이터로 어떤 단계의 튜닝을 했느냐’에서 나온다

라고 지피티가 말했다.

어떤 의미냐고 물어보니,

사실상 트랜스포머 모델의 구조가 나오고 나서 웬만한 llm 모델은 이 구조를 따른다고 한다. s2s 모델에서 병렬적으로 처리하는 트랜스포머 모델(앞뒤의 관계성까지, 셀프어텐션) 이 압도적인 게 사실인가 보다. 이론적으로 알았는데 새삼 깨닫게 된다.

그 트랜스포머 모델로 따르니, 이제는 데이터 싸움이 된다는 것(이것은 y교수님 말과도 일맥상통한다.)

이제 그 새로운 패러다임이 퀀텀컴퓨팅이라고 하니..

성실한, 그리고 테크쪽 감각이 있는 사람이 뛰어들면 연구 업적에 큰 도움이 되지 않을까 생각한다. 나는 노력과 운(은혜)로 4년 반만에 lm 쪽 흥미를 찾아서 적용 뿐 아니라 더 파보려고 한다. 그러면, 교수님이 말한 재밌는 아이디어를 내가 낼 수 있을 거라 생각하는데,

우선은 스스로 finetuning 거치고 나서 결과를 봐야겠다.

---큰크림부터 공통구조를 갖는다.

GPT, LLaMA, Gamma 전부

- Decoder-only Transformer 구조이며,

- Autoregressive Language Model 이며,

- 거대한 코퍼스로 다음 토큰 예측 학습하며,

- 프롬프트만 바꿔서 다운스트림 태스크를 수행한다.

그런데, 파인튜닝 단계가 다르다.

llm 학습은 보통 3단계로 나뉜다.

1. 사전학습(Pre-training)

파인튜닝이라고 부르지 않지만, 사실상 초대형 파인튜닝이다. 언어 자체를 아는 모델인 것.

2. Supervised Fine-Tuning(SFT)

여기서 명확히 파인튜닝을 한다.

3. Alignment Fine-tuning(RLHF, Reinforcement Learning from Human Feedback)

사람 평가->보상 모델-> 정책 업데이트 (수업 때 배운, 강화학습의 원리.. )

이 단계까지 거친 것이 ChatGPT, GPT-4 계열이라고 한다.

LLaMA의 경우, Base모델과 Chat 모델을 따로 공개하였으며, Chat 모델은 SFT+RLHF 또는 유사기법을 적용함.

파인튜닝 하면, gpu, 메모리, 시간 지옥이기에,

전체 가중치는 고정하고 아주 일부 파라미터만 학습하는 Parameter-Efficient Fine-Tuning(PEFT)를 사용한다고 한다.

대표적인 예가, 계속 눈에 보이는, LoRA(Low-Rank Adaption) 이다.

오늘 웬일인지 집중이 잘되고, 머리가 싹 비워져서 나쁜 생각이 안든다.

그리고, 럭키비키하게, 내가 딱 쓰는 자리가 12시에 비워져 있었다.. 그래서 중도와서 공부하고 있는 중이다.

논문을 마구 찍어내고 싶은 충동이 인다.

'2025-2학기 > 페이퍼 리뷰 및 수업, 자료' 카테고리의 다른 글

[논문리뷰] ECG-LLM -- training and evaluation of domain-specific large language models for electrocardiography (0)	2025.12.17
진로) 정출연 공동채용 3월, 9월 (0)	2025.12.17
[overleaf] bib tax과 참고문헌 순서 (1)	2025.12.08
[논문리뷰] 랭그래프로 tl tools 구현 : Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models (0)	2025.12.02
논문 초안, GPT 돌리지 말고 내가 써야지. (0)	2025.11.19

현재글[논문리뷰] Answering Students’ Questions on Course Forums Using Multiple Chain-of-Thought Reasoning and Finetuning RAG-Enabled LLM

생각하는 박사과정

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

생각하는 박사과정