AI

올모2(OLMo2) Pre-training 데이터셋 활용

코딩레벨업 2025. 3. 4. 16:13
728x90
반응형

olmo-mix-1124

https://huggingface.co/datasets/allenai/olmo-mix-1124

 

allenai/olmo-mix-1124 · Datasets at Hugging Face

Editorial Evaluation and Peer Review During a Pandemic: How Journals Maintain Standards. Concerns have been raised about how journals maintain their standards during the current coronavirus disease 2019 (COVID-19) pandemic, given the rapid pace and unprece

huggingface.co

데이터셋 구성 요소

데이터 출처 토큰 수 용량(압축 해제 시) 문서 수 라이선스
DCLM-Baseline 3.70조 21.3TB 29.5억 개 CC-BY-4.0
Arxiv 208억 77.2GB 395만 개 ODC-BY
pes2o 586억 412GB 3800만 개 ODC-BY
starcoder 830억 458GB 7870만 개 ODC-BY
Algebraic-stack 118억 44.0GB 283만 개 ODC-BY
OpenWebMath 122억 47.23GB 289만 개 ODC-BY
Wiki 36.6억 18.1GB 617만 개 ODC-BY
합계 3.90조 22.4TB 30.8억 개 ODC-BY

활용 방법

OLMo-Mix-1124 데이터셋은 주로 대규모 언어 모델의 사전 학습에 사용됩니다. 다음과 같은 절차를 따를 수 있습니다:

 

데이터셋 다운로드 및 준비:

from datasets import load_dataset 

# Dolma 데이터셋을 스트리밍 방식으로 로드
dataset = load_dataset("allenai/olmo-mix-1124", split="train", streaming=True)

# 샘플 데이터 가져오기 (최대 5개)
sample_data = []
for i, data in enumerate(dataset):
    sample_data.append(data)
    if i == 4:  # 5개만 가져오기
        break

print(sample_data)
  1. 데이터 전처리:
    • 모델의 입력 형식에 맞게 텍스트를 토크나이징하고, 필요에 따라 정제(cleaning) 작업을 수행합니다.
  2. 모델 학습:
    • 전처리된 데이터를 사용하여 언어 모델을 학습시킵니다. 이 과정에서 GPU 등의 고성능 하드웨어가 필요할 수 있습니다.
  3. 모델 평가 및 활용:
    • 학습된 모델을 다양한 자연어 처리 태스크에 적용하여 성능을 평가하고, 실제 응용 프로그램에 활용합니다.

주의사항

  • 라이선스 준수: 이 데이터셋은 Open Data Commons Attribution License (ODC-BY) v1.0 라이선스 하에 제공되며, 일부 데이터는 CC-BY-4.0 라이선스를 따릅니다. 사용 시 해당 라이선스 조건을 준수해야 합니다.
  • 데이터셋 크기: 데이터셋의 전체 용량이 22.4TB에 달하므로, 저장 공간과 처리 능력을 고려하여 사용해야 합니다.

이러한 절차를 통해 OLMo-Mix-1124 데이터셋을 활용하여 고성능 언어 모델을 개발할 수 있습니다.

 

728x90
반응형
LIST