stable diffusion 2.1 모델 - 건축, 인테리어, 풍경 이미지의 품질이 높아졌다.
스테이블 디퓨전 2.1
stable diffusion (SD) 2.0의 향상된 파인 튜닝 버전이다. 텍스트 인코더로 OpenCLIP을 사용했다. 2.0 보다 더 풍부한 표현이 가능해 졌다고 한다. 2.1의 데이터 셋은 건축이나 인테리어 디자인, 동물과 풍경을 높은 품질로 표현할 수 있다고 한다. 하지만 사람에 대한 데이터 셋이 줄어들어서 인물을 표현하는데는 좀 더 노력이 필요하다고 한다.
시골 풍경의 사진을 생성해 보았다.
prompt : countryside, landscape
공식 사이트인 dreamstudio.ai 에서는 네거티브 프롬프트가 도입되었다. 덜 나왔으면 하는 단어 옆에 :-1 을 입력하면 된다. 위의 사진에서 나무를 줄이기 위해서 다음 프롬프트를 입력했다.
Countryside, landscape, tree:-1
이렇게 하니 나무가 적게 나온다. 아예 안 나오지는 않았다.
Stable Diffusion v2.1-768 과 그냥 2.1의 차이는?
스테이블 디퓨전 2.0부터 도입된 것으로 768는 768*768 pixel의 이미지에 최적화된 모델이다. 그냥 2.1은 512 * 512 픽셀의 이미지를 바탕으로 한다. 512 모델이 좀 더 학습할 때 메모리 등의 비용을 덜 사용한다.
stable diffusion 에서 seed란?
seed는 최초 생성할 때 사용되는 숫자이다. 랜덤으로 생성되고 내가 굳이 생각해서 입력할 필요는 없다. 하지만 같은 프롬프트와 파라미터, 같은 시드 숫자를 입력하면 같은 결과 값이 나온다. 드림 스튜디오에서 파일을 다운로드 받으면 앞에 숫자가 붙는데 그게 시드 숫자이다.
사용팁
스테이블 디퓨전 1.5에서는 Clip이라는 텍스트 인코더를 사용했는데 이 데이터셋에는 공개되지 않은 데이터들이 포함되어 있었다. 그래서 stability ai 에서는 발생할 수 있는 저작권 이슈 때문에 2.0 부터는 OpenClip을 사용했다. 이 OpenClip에는 공개된 데이터만을 활용했다. 그래서 성능은 아직까지는 2.0 시리즈가 더 안좋을 수 도 있다. 그래서 아직까지 1.5의 성능이 더 좋다는 의견이 있다. SD 2 시리즈의 발전을 기대한다.
v2에서는 512 버전과 768 버전이 있는데 512 버전이 더 메모리 등 용량을 적게 사용하기 때문에 더 많은 데이터셋을 활용해서 더 좋다는 의견이 있다. 일반 버전을 사용하다가 높은 화질이 필요할 때는 768 버전을 활용하는 방법도 좋을 것 같다.
2.1 버전을 사용해보고 싶다면 전에 작성한 글을 참고하자.