검색
회원가입로그인

AI 생성 CUDA 커널은 여러 GPU 집약적 머신 러닝 벤치마크에서 PyTorch를 능가합니다.

  • 스탠포드 연구팀이 대형 언어 모델을 사용하여 고효율 GPU 커널을 자동으로 생성, PyTorch의 표준 함수보다 우수한 성능을 보임.
  • CUDA-C 커널은 Nvidia GPU에서 직접 실행되는 작고 전문화된 프로그램으로, AI 작업의 기초가 되는 함수들을 처리.
  • 실험에서 언어 모델은 PyTorch의 내장 루틴과 비교한 CUDA 커널을 생성, 여러 테스트에서 AI 생성 커널이 PyTorch 코드보다 빠르게 실행됨.
  • 이미지 컨볼루션, 소프트맥스 함수, 복합 연산 등에서 AI가 생성한 코드가 PyTorch보다 우세한 결과를 보여줌.
  • 병렬 탐색을 통해 코드 최적화를 가속화, KernelBench 벤치마크에서 PyTorch 연산자를 CUDA 커널로 대체 시도.
  • OpenAI o3와 Gemini 2.5 Pro와 같은 대형 언어 모델은 병렬 최적화 전략 사용, 커널의 정확성 및 속도를 자동으로 평가.
  • 스탠포드 방법론은 기존 단계별 커널 조정과 달리 일상 언어로 최적화 아이디어를 표현, 여러 코드 변형을 생성하여 병렬로 실행.
  • 정교한 CUDA 프로그래밍 기술을 사용하여 GPU의 텐서 코어 활용, 이중 버퍼링 등으로 성능 개선.
  • FP16과 같은 최신 AI 작업에 대한 도전 과제 남아, 일부 테스트에서 PyTorch 속도의 낮은 비중만 도달.
  • 연구팀은 이러한 커널을 자동으로 생성하는 시도가 최초이며, 제한된 자원 내에서도 진전이 있음을 강조.

3the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기