이미지에서 캡션 추출 AI - Blip, Clip, ChatGPT 활용
이미지에서 프롬프트를 어떻게 뽑아낼 수 있을까? 그리고 이를 바탕으로 이미지를 생성해 보자.
Blip 사용
여러 방법이 있겠지만 세일즈 포스에서 나온 Blip 을 사용해 보자.
Blip Image Captioning Large - a Hugging Face Space by tonyassi
이런 식으로 사진을 입력하면 텍스트를 추출해 준다. 자투라라는 영화의 우주를 떠다니는 집의 사진을 입력했다.
a rafed house floating in the air with a bright light shining on it's side and a bright light shining on the ground below it and a blue and purple and orange background
밝은 빛이 집 옆과 아래의 땅에 비치는 가운데 공중에 떠 있는 집, 배경은 파란색, 보라색, 주황색입니다.
이걸 플럭스 프로에 입력해서 생성해 보자.
이번에는 ImageFX 사용.
이미지 FX의 이매진 3 퀄리티가 꽤 좋다.
Clip
이번에는 클립을 사용해 보자.
CLIP Interrogator 2 - a Hugging Face Space by fffiloni
a house that is floating in the air, a digital rendering, by Jon Coffelt, fantastic realism, horror, as above so below
플럭스 프로
이매진 3
필터링에 걸려서 다음과 같이 수정
a house that is floating in the universe,a digital rendering, fantastic realism, horror
ChatGPT로 추출하기
take image prompt from the image.
A floating, vintage two-story house with a porch and warm, glowing windows, hovering in space. The house appears rooted into a chunk of earth, with roots dangling below. The background features a blend of deep space with stars and cosmic elements, and a bright light source resembling a planet or star behind the house, creating an otherworldly and surreal atmosphere
플럭스 프로
이매진 3
클로드로 추출을 해도 된다.
괜찮은 워크플로우는 ChatGPT나 클로드로 텍스트를 추출 한 후 이미지 생성을 하는 것이다. Flux pro 는 약간 미적인 감각이 있고 이매진 3도 의외로 괜찮다. 새삼 멀티 모달의 위력을 체감.