올모2(OLMo2) Pre-training 데이터셋

코딩레벨업 2025. 3. 4. 14:40

728x90

📌 Pre-training(사전 학습)과 Fine-tuning(파인튜닝)의 차이

사전 학습 (Pre-training) 파인튜닝 (Fine-tuning)

목적	모델이 언어 구조와 일반 지식을 학습	특정 태스크(질문-응답, 요약, 코드 생성 등)의 성능을 최적화
데이터	위키백과, 논문, 뉴스, 웹 데이터 등 광범위한 텍스트	Q&A, 코드, 요약 데이터 등 특정 작업에 최적화된 데이터
훈련 방식	비지도 학습(unsupervised learning) 중심	지도 학습(supervised learning) 중심
학습 단계	AI 모델의 기본 지식 구축 단계	특정 태스크 수행 능력 향상 단계
예시	GPT-4가 인터넷 데이터를 활용해 언어 구조를 학습	GPT-4를 챗봇, 요약, 번역 등의 특정 기능에 맞춰 추가 학습

✅ Fine-tuning은 Pre-training 이후에 진행되는 후속 학습 과정
✅ Pre-training은 광범위한 언어 데이터로 학습, Fine-tuning은 특정 작업을 위한 최적화 과정
✅ Pre-training이 끝난 후 Fine-tuning을 진행해야 실제 응용(챗봇, 번역, 코드 생성 등)에 적합한 모델이 완성됨

OLMo 2 컬렉션 데이터셋 구분 (Pre-training vs. Fine-tuning)

📌 사전 학습 (Pre-training) 데이터셋

olmo-mix-1124	다양한 데이터 소스를 혼합한 대규모 텍스트 데이터셋. OLMo 모델의 초기 학습에 사용됨.
dolmino-mix-1124	Dolma와 OLMo 데이터를 결합하여 언어 이해 능력을 향상시키는 데이터셋.

📌 파인튜닝 (Fine-tuning) 데이터셋

olmo-2-1124-13b-preference-mix	130억 개의 매개변수(13B) 모델의 사용자 선호도 조정을 위한 데이터셋.
olmo-2-1124-7b-preference-mix	70억 개의 매개변수(7B) 모델의 사용자 선호도 조정을 위한 데이터셋.
tulu-3-sft-olmo-2-mixture	Tulu 3 데이터셋과 OLMo 2 데이터를 혼합하여 지도 학습(SFT)에 사용되는 데이터셋.
RLVR-GSM-MATH-IF-Mixed-Constraints	GSM, MATH, IFEval 데이터를 포함한 변수 보상 강화 학습(RLVR) 데이터셋.

✅ Pre-training 데이터셋 = OLMo 모델의 기본 언어 능력을 학습하는 데이터
✅ Fine-tuning 데이터셋 = 특정 태스크(질문-응답, 요약 등)에 맞춰 성능을 최적화하는 데이터

📌 OLMo-Mix-1124

OLMo-Mix-1124는 **Allen Institute for AI(AI2)**에서 개발한 OLMo-2 모델의 사전 학습에 사용된 대규모 텍스트 데이터셋입니다. 이 데이터셋은 다양한 출처의 데이터를 통합하여 모델의 언어 이해 능력을 향상시키는 데 활용되었습니다.

데이터셋 구성 요소

dclm	대규모 언어 모델 학습을 위한 기본 데이터셋
arxiv	학술 논문 저장소인 Arxiv의 데이터
pes2o	웹에서 수집된 다양한 텍스트 데이터
starcoder	코드 및 프로그래밍 관련 텍스트 데이터
algebraic-stack	수학 및 논리 관련 텍스트 데이터
open-web-math	수학 관련 웹 데이터
wiki	위키백과에서 추출한 텍스트 데이터

📌 Dolmino-Mix-1124

데이터셋 구성 요소

dclm	대규모 언어 모델 학습을 위한 기본 데이터셋
flan	구글의 FLAN 데이터셋으로, 다양한 태스크에 대한 지시문과 응답을 포함
math	수학 문제와 그 해답을 포함한 데이터셋
pes2o	웹에서 수집된 다양한 텍스트 데이터
stackexchange	StackExchange 사이트의 Q&A 데이터
wiki	위키백과에서 추출한 텍스트 데이터

📌 OLMo-2-1124-7B-Preference-Mix

OLMo-2-1124-7B-Preference-Mix는 **Allen Institute for AI(AI2)**에서 개발한 OLMo-2 모델의 7B(70억) 파라미터 버전을 사용자 선호도에 맞게 조정하기 위해 사용된 데이터셋입니다.

데이터셋 구성 요소

이 데이터셋은 Tulu 3.5와 유사한 합성 데이터 생성 파이프라인을 사용하여 생성된 온-정책 선호도 데이터셋으로 구성되어 있습니다. 주요 구성 요소는 다음과 같습니다:

SFT(Supervised Fine-Tuning) 믹스에서 재사용된 프롬프트: huggingface.co
SFT 믹스에서 지시문 준수를 위해 필터링된 프롬프트:
WildChat에서 SFT에 부분적으로 사용된 프롬프트: huggingface.co
ShareGPT와 TruthfulQA 인스턴스가 제거된 Ultrafeedback의 정제된 버전: huggingface.co
SFT 믹스에서 사용되지 않은 WildChat 프롬프트:
DaringAnteater에서 가져온 프롬프트: huggingface.co

데이터셋 용도

이러한 선호도 데이터셋은 OLMo-2-1124-7B-SFT 체크포인트에 **DPO(Direct Preference Optimization)**를 적용하여 OLMo-2-1124-7B-DPO 모델을 얻기 위해 사용되었습니다. huggingface.co+2huggingface.co+2huggingface.co+2

데이터셋 규모

이 데이터셋은 약 36만 6,700개의 생성 쌍을 포함하고 있으며, 다음과 같은 모델들을 사용하여 생성되었습니다:

Qwen/Qwen2.5-32B-Instructhuggingface.co
google/gemma-2-9b-ithuggingface.co+1huggingface.co+1
ai2-adapt-dev/DaringAnteater-prefs_olmo2_7bhuggingface.co
ai2-adapt-dev/DaringAnteater-prefs_olmo2_7b_23huggingface.co

728x90

LIST

'AI' 카테고리의 다른 글

🔥 무료로 사용 가능한 ChatGPT 대체 서비스 추천! (1)	2025.03.13
올모2(OLMo2) Pre-training 데이터셋 활용 (0)	2025.03.04
AI2 오픈 데이터셋: 주요 데이터셋 분석 및 활용 가이드 (5)	2025.02.28
OLMo2 사전학습 데이터의 특징과 의미 (1)	2025.02.28
올모2(OLMo2) 파운데이션 모델 이해하기 (0)	2025.02.28

현재글올모2(OLMo2) Pre-training 데이터셋

코딩레벨업(CodingLevelUp)