AI

올모2(OLMo2) Pre-training 데이터셋

코딩레벨업 2025. 3. 4. 14:40
728x90
반응형

📌 Pre-training(사전 학습)과 Fine-tuning(파인튜닝)의 차이

사전 학습 (Pre-training) 파인튜닝 (Fine-tuning)

목적 모델이 언어 구조와 일반 지식을 학습 특정 태스크(질문-응답, 요약, 코드 생성 등)의 성능을 최적화
데이터 위키백과, 논문, 뉴스, 웹 데이터 등 광범위한 텍스트 Q&A, 코드, 요약 데이터 등 특정 작업에 최적화된 데이터
훈련 방식 비지도 학습(unsupervised learning) 중심 지도 학습(supervised learning) 중심
학습 단계 AI 모델의 기본 지식 구축 단계 특정 태스크 수행 능력 향상 단계
예시 GPT-4가 인터넷 데이터를 활용해 언어 구조를 학습 GPT-4를 챗봇, 요약, 번역 등의 특정 기능에 맞춰 추가 학습

Fine-tuning은 Pre-training 이후에 진행되는 후속 학습 과정
Pre-training은 광범위한 언어 데이터로 학습, Fine-tuning은 특정 작업을 위한 최적화 과정
Pre-training이 끝난 후 Fine-tuning을 진행해야 실제 응용(챗봇, 번역, 코드 생성 등)에 적합한 모델이 완성됨

 

OLMo 2 컬렉션 데이터셋 구분 (Pre-training vs. Fine-tuning)

📌 사전 학습 (Pre-training) 데이터셋

olmo-mix-1124 다양한 데이터 소스를 혼합한 대규모 텍스트 데이터셋. OLMo 모델의 초기 학습에 사용됨.
dolmino-mix-1124 Dolma와 OLMo 데이터를 결합하여 언어 이해 능력을 향상시키는 데이터셋.

📌 파인튜닝 (Fine-tuning) 데이터셋

olmo-2-1124-13b-preference-mix 130억 개의 매개변수(13B) 모델의 사용자 선호도 조정을 위한 데이터셋.
olmo-2-1124-7b-preference-mix 70억 개의 매개변수(7B) 모델의 사용자 선호도 조정을 위한 데이터셋.
tulu-3-sft-olmo-2-mixture Tulu 3 데이터셋과 OLMo 2 데이터를 혼합하여 지도 학습(SFT)에 사용되는 데이터셋.
RLVR-GSM-MATH-IF-Mixed-Constraints GSM, MATH, IFEval 데이터를 포함한 변수 보상 강화 학습(RLVR) 데이터셋.

 

Pre-training 데이터셋 = OLMo 모델의 기본 언어 능력을 학습하는 데이터
Fine-tuning 데이터셋 = 특정 태스크(질문-응답, 요약 등)에 맞춰 성능을 최적화하는 데이터

 

📌 OLMo-Mix-1124

OLMo-Mix-1124는 **Allen Institute for AI(AI2)**에서 개발한 OLMo-2 모델의 사전 학습에 사용된 대규모 텍스트 데이터셋입니다. 이 데이터셋은 다양한 출처의 데이터를 통합하여 모델의 언어 이해 능력을 향상시키는 데 활용되었습니다.

데이터셋 구성 요소

dclm 대규모 언어 모델 학습을 위한 기본 데이터셋
arxiv 학술 논문 저장소인 Arxiv의 데이터
pes2o 웹에서 수집된 다양한 텍스트 데이터
starcoder 코드 및 프로그래밍 관련 텍스트 데이터
algebraic-stack 수학 및 논리 관련 텍스트 데이터
open-web-math 수학 관련 웹 데이터
wiki 위키백과에서 추출한 텍스트 데이터

 

📌 Dolmino-Mix-1124

데이터셋 구성 요소

dclm 대규모 언어 모델 학습을 위한 기본 데이터셋
flan 구글의 FLAN 데이터셋으로, 다양한 태스크에 대한 지시문과 응답을 포함
math 수학 문제와 그 해답을 포함한 데이터셋
pes2o 웹에서 수집된 다양한 텍스트 데이터
stackexchange StackExchange 사이트의 Q&A 데이터
wiki 위키백과에서 추출한 텍스트 데이터

 

📌 OLMo-2-1124-7B-Preference-Mix

OLMo-2-1124-7B-Preference-Mix는 **Allen Institute for AI(AI2)**에서 개발한 OLMo-2 모델의 7B(70억) 파라미터 버전사용자 선호도에 맞게 조정하기 위해 사용된 데이터셋입니다.


데이터셋 구성 요소

이 데이터셋은 Tulu 3.5와 유사한 합성 데이터 생성 파이프라인을 사용하여 생성된 온-정책 선호도 데이터셋으로 구성되어 있습니다. 주요 구성 요소는 다음과 같습니다:

  • SFT(Supervised Fine-Tuning) 믹스에서 재사용된 프롬프트: huggingface.co
  • SFT 믹스에서 지시문 준수를 위해 필터링된 프롬프트:
  • WildChat에서 SFT에 부분적으로 사용된 프롬프트: huggingface.co
  • ShareGPT와 TruthfulQA 인스턴스가 제거된 Ultrafeedback의 정제된 버전: huggingface.co
  • SFT 믹스에서 사용되지 않은 WildChat 프롬프트:
  • DaringAnteater에서 가져온 프롬프트: huggingface.co

데이터셋 용도

이러한 선호도 데이터셋은 OLMo-2-1124-7B-SFT 체크포인트에 **DPO(Direct Preference Optimization)**를 적용하여 OLMo-2-1124-7B-DPO 모델을 얻기 위해 사용되었습니다. huggingface.co+2huggingface.co+2huggingface.co+2


데이터셋 규모

이 데이터셋은 약 36만 6,700개의 생성 쌍을 포함하고 있으며, 다음과 같은 모델들을 사용하여 생성되었습니다:

728x90
반응형
LIST