📌 Pre-training(사전 학습)과 Fine-tuning(파인튜닝)의 차이
사전 학습 (Pre-training) 파인튜닝 (Fine-tuning)
목적 | 모델이 언어 구조와 일반 지식을 학습 | 특정 태스크(질문-응답, 요약, 코드 생성 등)의 성능을 최적화 |
데이터 | 위키백과, 논문, 뉴스, 웹 데이터 등 광범위한 텍스트 | Q&A, 코드, 요약 데이터 등 특정 작업에 최적화된 데이터 |
훈련 방식 | 비지도 학습(unsupervised learning) 중심 | 지도 학습(supervised learning) 중심 |
학습 단계 | AI 모델의 기본 지식 구축 단계 | 특정 태스크 수행 능력 향상 단계 |
예시 | GPT-4가 인터넷 데이터를 활용해 언어 구조를 학습 | GPT-4를 챗봇, 요약, 번역 등의 특정 기능에 맞춰 추가 학습 |
✅ Fine-tuning은 Pre-training 이후에 진행되는 후속 학습 과정
✅ Pre-training은 광범위한 언어 데이터로 학습, Fine-tuning은 특정 작업을 위한 최적화 과정
✅ Pre-training이 끝난 후 Fine-tuning을 진행해야 실제 응용(챗봇, 번역, 코드 생성 등)에 적합한 모델이 완성됨
OLMo 2 컬렉션 데이터셋 구분 (Pre-training vs. Fine-tuning)
📌 사전 학습 (Pre-training) 데이터셋
olmo-mix-1124 | 다양한 데이터 소스를 혼합한 대규모 텍스트 데이터셋. OLMo 모델의 초기 학습에 사용됨. |
dolmino-mix-1124 | Dolma와 OLMo 데이터를 결합하여 언어 이해 능력을 향상시키는 데이터셋. |
📌 파인튜닝 (Fine-tuning) 데이터셋
olmo-2-1124-13b-preference-mix | 130억 개의 매개변수(13B) 모델의 사용자 선호도 조정을 위한 데이터셋. |
olmo-2-1124-7b-preference-mix | 70억 개의 매개변수(7B) 모델의 사용자 선호도 조정을 위한 데이터셋. |
tulu-3-sft-olmo-2-mixture | Tulu 3 데이터셋과 OLMo 2 데이터를 혼합하여 지도 학습(SFT)에 사용되는 데이터셋. |
RLVR-GSM-MATH-IF-Mixed-Constraints | GSM, MATH, IFEval 데이터를 포함한 변수 보상 강화 학습(RLVR) 데이터셋. |
✅ Pre-training 데이터셋 = OLMo 모델의 기본 언어 능력을 학습하는 데이터
✅ Fine-tuning 데이터셋 = 특정 태스크(질문-응답, 요약 등)에 맞춰 성능을 최적화하는 데이터
📌 OLMo-Mix-1124
OLMo-Mix-1124는 **Allen Institute for AI(AI2)**에서 개발한 OLMo-2 모델의 사전 학습에 사용된 대규모 텍스트 데이터셋입니다. 이 데이터셋은 다양한 출처의 데이터를 통합하여 모델의 언어 이해 능력을 향상시키는 데 활용되었습니다.
데이터셋 구성 요소
dclm | 대규모 언어 모델 학습을 위한 기본 데이터셋 |
arxiv | 학술 논문 저장소인 Arxiv의 데이터 |
pes2o | 웹에서 수집된 다양한 텍스트 데이터 |
starcoder | 코드 및 프로그래밍 관련 텍스트 데이터 |
algebraic-stack | 수학 및 논리 관련 텍스트 데이터 |
open-web-math | 수학 관련 웹 데이터 |
wiki | 위키백과에서 추출한 텍스트 데이터 |
📌 Dolmino-Mix-1124
데이터셋 구성 요소
dclm | 대규모 언어 모델 학습을 위한 기본 데이터셋 |
flan | 구글의 FLAN 데이터셋으로, 다양한 태스크에 대한 지시문과 응답을 포함 |
math | 수학 문제와 그 해답을 포함한 데이터셋 |
pes2o | 웹에서 수집된 다양한 텍스트 데이터 |
stackexchange | StackExchange 사이트의 Q&A 데이터 |
wiki | 위키백과에서 추출한 텍스트 데이터 |
📌 OLMo-2-1124-7B-Preference-Mix
OLMo-2-1124-7B-Preference-Mix는 **Allen Institute for AI(AI2)**에서 개발한 OLMo-2 모델의 7B(70억) 파라미터 버전을 사용자 선호도에 맞게 조정하기 위해 사용된 데이터셋입니다.
데이터셋 구성 요소
이 데이터셋은 Tulu 3.5와 유사한 합성 데이터 생성 파이프라인을 사용하여 생성된 온-정책 선호도 데이터셋으로 구성되어 있습니다. 주요 구성 요소는 다음과 같습니다:
- SFT(Supervised Fine-Tuning) 믹스에서 재사용된 프롬프트: huggingface.co
- SFT 믹스에서 지시문 준수를 위해 필터링된 프롬프트:
- WildChat에서 SFT에 부분적으로 사용된 프롬프트: huggingface.co
- ShareGPT와 TruthfulQA 인스턴스가 제거된 Ultrafeedback의 정제된 버전: huggingface.co
- SFT 믹스에서 사용되지 않은 WildChat 프롬프트:
- DaringAnteater에서 가져온 프롬프트: huggingface.co
데이터셋 용도
이러한 선호도 데이터셋은 OLMo-2-1124-7B-SFT 체크포인트에 **DPO(Direct Preference Optimization)**를 적용하여 OLMo-2-1124-7B-DPO 모델을 얻기 위해 사용되었습니다. huggingface.co+2huggingface.co+2huggingface.co+2
데이터셋 규모
이 데이터셋은 약 36만 6,700개의 생성 쌍을 포함하고 있으며, 다음과 같은 모델들을 사용하여 생성되었습니다:
- Qwen/Qwen2.5-32B-Instructhuggingface.co
- google/gemma-2-9b-ithuggingface.co+1huggingface.co+1
- ai2-adapt-dev/DaringAnteater-prefs_olmo2_7bhuggingface.co
- ai2-adapt-dev/DaringAnteater-prefs_olmo2_7b_23huggingface.co
'AI' 카테고리의 다른 글
🔥 무료로 사용 가능한 ChatGPT 대체 서비스 추천! (1) | 2025.03.13 |
---|---|
올모2(OLMo2) Pre-training 데이터셋 활용 (0) | 2025.03.04 |
AI2 오픈 데이터셋: 주요 데이터셋 분석 및 활용 가이드 (5) | 2025.02.28 |
OLMo2 사전학습 데이터의 특징과 의미 (1) | 2025.02.28 |
올모2(OLMo2) 파운데이션 모델 이해하기 (0) | 2025.02.28 |