728x90
반응형
olmo-mix-1124
https://huggingface.co/datasets/allenai/olmo-mix-1124
allenai/olmo-mix-1124 · Datasets at Hugging Face
Editorial Evaluation and Peer Review During a Pandemic: How Journals Maintain Standards. Concerns have been raised about how journals maintain their standards during the current coronavirus disease 2019 (COVID-19) pandemic, given the rapid pace and unprece
huggingface.co
데이터셋 구성 요소
데이터 출처 | 토큰 수 | 용량(압축 해제 시) | 문서 수 | 라이선스 |
DCLM-Baseline | 3.70조 | 21.3TB | 29.5억 개 | CC-BY-4.0 |
Arxiv | 208억 | 77.2GB | 395만 개 | ODC-BY |
pes2o | 586억 | 412GB | 3800만 개 | ODC-BY |
starcoder | 830억 | 458GB | 7870만 개 | ODC-BY |
Algebraic-stack | 118억 | 44.0GB | 283만 개 | ODC-BY |
OpenWebMath | 122억 | 47.23GB | 289만 개 | ODC-BY |
Wiki | 36.6억 | 18.1GB | 617만 개 | ODC-BY |
합계 | 3.90조 | 22.4TB | 30.8억 개 | ODC-BY |
활용 방법
OLMo-Mix-1124 데이터셋은 주로 대규모 언어 모델의 사전 학습에 사용됩니다. 다음과 같은 절차를 따를 수 있습니다:
데이터셋 다운로드 및 준비:
- Hugging Face의 datasets 라이브러리를 사용하여 데이터셋을 로드합니다.github.com+4huggingface.co+4allenai.org+4huggingface.codataloop.ai+2github.com+2allenai.org+2
-
python
from datasets import load_dataset
# Dolma 데이터셋을 스트리밍 방식으로 로드
dataset = load_dataset("allenai/olmo-mix-1124", split="train", streaming=True)
# 샘플 데이터 가져오기 (최대 5개)
sample_data = []
for i, data in enumerate(dataset):
sample_data.append(data)
if i == 4: # 5개만 가져오기
break
print(sample_data)
- 데이터 전처리:
- 모델의 입력 형식에 맞게 텍스트를 토크나이징하고, 필요에 따라 정제(cleaning) 작업을 수행합니다.
- 모델 학습:
- 전처리된 데이터를 사용하여 언어 모델을 학습시킵니다. 이 과정에서 GPU 등의 고성능 하드웨어가 필요할 수 있습니다.
- 모델 평가 및 활용:
- 학습된 모델을 다양한 자연어 처리 태스크에 적용하여 성능을 평가하고, 실제 응용 프로그램에 활용합니다.
주의사항
- 라이선스 준수: 이 데이터셋은 Open Data Commons Attribution License (ODC-BY) v1.0 라이선스 하에 제공되며, 일부 데이터는 CC-BY-4.0 라이선스를 따릅니다. 사용 시 해당 라이선스 조건을 준수해야 합니다.
- 데이터셋 크기: 데이터셋의 전체 용량이 22.4TB에 달하므로, 저장 공간과 처리 능력을 고려하여 사용해야 합니다.
이러한 절차를 통해 OLMo-Mix-1124 데이터셋을 활용하여 고성능 언어 모델을 개발할 수 있습니다.
728x90
반응형
LIST
'AI' 카테고리의 다른 글
🔥 무료로 사용 가능한 ChatGPT 대체 서비스 추천! (1) | 2025.03.13 |
---|---|
올모2(OLMo2) Pre-training 데이터셋 (0) | 2025.03.04 |
AI2 오픈 데이터셋: 주요 데이터셋 분석 및 활용 가이드 (5) | 2025.02.28 |
OLMo2 사전학습 데이터의 특징과 의미 (1) | 2025.02.28 |
올모2(OLMo2) 파운데이션 모델 이해하기 (0) | 2025.02.28 |