올모2(OLMo2) Pre-training 데이터셋 활용

코딩레벨업 2025. 3. 4. 16:13

728x90

olmo-mix-1124

https://huggingface.co/datasets/allenai/olmo-mix-1124

allenai/olmo-mix-1124 · Datasets at Hugging Face

Editorial Evaluation and Peer Review During a Pandemic: How Journals Maintain Standards. Concerns have been raised about how journals maintain their standards during the current coronavirus disease 2019 (COVID-19) pandemic, given the rapid pace and unprece

huggingface.co

데이터셋 구성 요소

데이터 출처	토큰 수	용량(압축 해제 시)	문서 수	라이선스
DCLM-Baseline	3.70조	21.3TB	29.5억 개	CC-BY-4.0
Arxiv	208억	77.2GB	395만 개	ODC-BY
pes2o	586억	412GB	3800만 개	ODC-BY
starcoder	830억	458GB	7870만 개	ODC-BY
Algebraic-stack	118억	44.0GB	283만 개	ODC-BY
OpenWebMath	122억	47.23GB	289만 개	ODC-BY
Wiki	36.6억	18.1GB	617만 개	ODC-BY
합계	3.90조	22.4TB	30.8억 개	ODC-BY

활용 방법

OLMo-Mix-1124 데이터셋은 주로 대규모 언어 모델의 사전 학습에 사용됩니다. 다음과 같은 절차를 따를 수 있습니다:

데이터셋 다운로드 및 준비:

Hugging Face의 datasets 라이브러리를 사용하여 데이터셋을 로드합니다.github.com+4huggingface.co+4allenai.org+4huggingface.codataloop.ai+2github.com+2allenai.org+2
python

from datasets import load_dataset 

# Dolma 데이터셋을 스트리밍 방식으로 로드
dataset = load_dataset("allenai/olmo-mix-1124", split="train", streaming=True)

# 샘플 데이터 가져오기 (최대 5개)
sample_data = []
for i, data in enumerate(dataset):
    sample_data.append(data)
    if i == 4:  # 5개만 가져오기
        break

print(sample_data)

데이터 전처리:
- 모델의 입력 형식에 맞게 텍스트를 토크나이징하고, 필요에 따라 정제(cleaning) 작업을 수행합니다.
모델 학습:
- 전처리된 데이터를 사용하여 언어 모델을 학습시킵니다. 이 과정에서 GPU 등의 고성능 하드웨어가 필요할 수 있습니다.
모델 평가 및 활용:
- 학습된 모델을 다양한 자연어 처리 태스크에 적용하여 성능을 평가하고, 실제 응용 프로그램에 활용합니다.

주의사항

라이선스 준수: 이 데이터셋은 Open Data Commons Attribution License (ODC-BY) v1.0 라이선스 하에 제공되며, 일부 데이터는 CC-BY-4.0 라이선스를 따릅니다. 사용 시 해당 라이선스 조건을 준수해야 합니다.
데이터셋 크기: 데이터셋의 전체 용량이 22.4TB에 달하므로, 저장 공간과 처리 능력을 고려하여 사용해야 합니다.

이러한 절차를 통해 OLMo-Mix-1124 데이터셋을 활용하여 고성능 언어 모델을 개발할 수 있습니다.

728x90

LIST

'AI' 카테고리의 다른 글

🔥 무료로 사용 가능한 ChatGPT 대체 서비스 추천! (1)	2025.03.13
올모2(OLMo2) Pre-training 데이터셋 (0)	2025.03.04
AI2 오픈 데이터셋: 주요 데이터셋 분석 및 활용 가이드 (5)	2025.02.28
OLMo2 사전학습 데이터의 특징과 의미 (1)	2025.02.28
올모2(OLMo2) 파운데이션 모델 이해하기 (0)	2025.02.28

현재글올모2(OLMo2) Pre-training 데이터셋 활용

코딩레벨업(CodingLevelUp)