Meta의 "Transfusion"은 언어 모델과 이미지 생성을 하나의 통합된 모델로 결합합니다.

2024-08-23

Meta AI는 언어 모델과 이미지 생성 기능을 통합한 "Transfusion"이라는 새로운 접근 방식을 소개했다.
Transfusion은 텍스트 처리 능력을 개선하면서 이미지 생성에서 전문 시스템과 유사한 결과를 달성한다.
이 모델은 텍스트와 이미지 데이터를 단일 Transformer 아키텍처로 통합하여 엔드 투 엔드로 학습된다.
이미지는 이미지 패치 시퀀스로 변환되어 텍스트 토큰과 함께 단일 시퀀스로 처리된다.
Transfusion은 양방향 관계를 캡처할 수 있는 특별한 주의 마스크를 사용한다.
초기 실험에서 Transfusion은 이미지와 텍스트 품질이 뛰어나고, 비교 가능한 접근 방식에 비해 더 효율적으로 확장되었다.
70억 개의 매개변수를 가진 Transfusion 모델은 2조 개의 텍스트 및 이미지 토큰으로 학습되어, 이미지 생성에서 DALL-E 2와 유사한 결과를 달성했다.
연구팀은 추가 모달리티 통합이나 대안적인 학습 방법을 통한 추가 개선 가능성을 보고 있다.

4the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.