허깅 페이스 15조 토큰 규모의 데이터셋 오픈 - FineWeb
허깅 페이스에서 15조 토큰 규모의 데이터셋을 오픈 했습니다.
FineWeb 이며 15T (trillion) 규모의 고품질의 웹데이터입니다.
CommonCrawl의 2013~2024 자료에서 중복된 자료들을 제외했다고 합니다.
HuggingFaceFW/fineweb · Datasets at Hugging Face
이 데이터셋으로 훈련된 모델은 C4, Dolma, RefineWeb, SlimPajama, The Pile 등의 다른 데이터셋과 비교했을 때 좋은 성능을 보였다고 합니다.
공유하기
조회수 : 533