SpeechT5 분석 DecoderWithTextPrenet Decoder의 앞에 Prenet을 붙힘. Hidden State가 아닌, deocder에 들어오는 input ids를 처리해주기 위함 그래서 모델의 전체적인 구조로 보면 encoder prenet encoder decoder decoder postnet 형태가 됨 자 만약에 여기에 Image 도메인을 추가하고 싶다면? 총 세개의 네트워크를 추가로 구현해야 함 Encoder Image Prenet 이미지를 Feature Vectors로 변환 Decoder Image Prenet 이미지를 Feature Vectors로 변환 Decoder Image Postnet Feature Vectors를 이미지로 재구성 Image를 hidden vector로 변환하고 다시 reconstruct할 수 있는 모델? VitMAE

<ul><li>SpeechT5 분석<ul><li>DecoderWithTextPrenet<ul><li>Decoder의 앞에 Prenet을 붙힘.</li><li>Hidden State가 아닌, deocder에 들어오는 input ids를 처리해주기 위함</li><li>그래서 모델의 전체적인 구조로 보면<ul><li>encoder prenet - encoder - decoder - decoder postnet</li><li>형태가 됨</li></ul></li></ul></li><li>자 만약에 여기에 Image 도메인을 추가하고 싶다면? 총 세개의 네트워크를 추가로 구현해야 함<ul><li>Encoder Image Prenet 이미지를 Feature Vectors로 변환</li><li>Decoder Image Prenet 이미지를 Feature Vectors로 변환</li><li>Decoder Image Postnet Feature Vectors를 이미지로 재구성</li><li>Image를 hidden vector로 변환하고 다시 reconstruct할 수 있는 모델? VitMAE</li></ul></li></ul></li></ul>

2023-11-14