ChatGPT API 프롬프트 캐싱
이전 프롬프트를 캐싱하는 기능이다. 지연 시간(latency)를 80%까지 줄일 수 있고 긴 프롬프트의 경우 비용을 50%까지 줄일 수 있다. 프롬프트 캐싱은 API 전체에 자동으로 적용되기 때문에 코드를 따로 작성할 필요는 없다.
캐시의 혜택을 누리기 위해서는 정적인 컨텐츠(instructions and examples)는 앞에 두고 동적인 컨텐츠(user-specific information)는 뒤에 두는 게 좋다.
이유는 앞 부분부터 맞춰서 Cache hit를 하기 때문이다.
예를 들어 메시지1에 사용한 데이터를 메시지2의 사용한다면 앞 부분에 위치하는게 좋다.
캐싱은 1024 토큰 이상에 적용된다.
메시지, 이미지, 도구 사용, structured output 모두 해당이 된다.
공유하기
조회수 : 100