Bytedance는 이전 모델보다 최대 5.4배 더 빠른 확산 코드 모델을 선보입니다.
- Bytedance의 Seed Diffusion Preview는 코드 생성을 위한 실험적인 AI 모델로, 1회씩 생성하는 대신 병렬로 토큰을 생성하도록 설계되었습니다.
- Nvidia H20 GPU에서 초당 2,146개의 토큰을 생성할 수 있습니다.
- 이 모델은 "이산 상태 확산(discrete-state diffusion)" 방식을 사용하며, 기존 이미지와 같은 연속 데이터에 사용되던 방식에서 텍스트와 코드와 같은 비연속 데이터에 적응했습니다.
- 코드를 순서대로 생성하는 대신, 변형된 상태에서 코드를 여러 섹션으로 나누어 동시에 생성합니다. 이는 변형기 구조로 병렬 예측을 가능하게 합니다.
- 병렬 워크플로로 인해 생성 속도가 크게 향상되지만, 코드의 품질은 유지됩니다. 벤치마크 테스트에서 경쟁 모델과 비슷한 성능을 보였으며, 특히 코드 편집 작업에서 두드러졌습니다.
- Bytedance는 표준 마스킹 확산 모델의 문제점을 해결하기 위해 두 단계의 훈련 과정을 사용합니다. 첫 번째 단계는 코드의 일부를 특수한 자리표시자로 대체하는 마스크 기반 훈련입니다.
- 두 번째는 삽입 및 삭제에 기반한 편집 훈련으로, 모델이 모든 토큰을 재검토하고 수정하도록 만듭니다.
- 코드 구조와 종속성을 고려하여 생성 순서를 최적화합니다. 변수 선언이 사용되기 전에 이루어지도록 보장합니다.
- 대량의 필터링된 고품질 생성 시퀀스 데이터셋으로 모델을 훈련했습니다.
- 자기 최적화 병렬 디코딩을 통해 생성 과정을 최적화하도록 훈련합니다. "on-policy learning"을 사용하여 단계 최소화와 품질 검증 모델을 활용합니다.
- Seed Diffusion Preview는 블록 내에서 코드를 병렬로 처리하지만 블록 간에는 논리적 순서를 유지합니다.
- Google의 Gemini Diffusion에 대응하기 위한 Bytedance의 해답으로, 확장 및 복잡한 추론 작업에 대한 방법을 계속 실험할 계획입니다.
3the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.