메인 콘텐츠로 건너뛰기

제11장. 영상 생성 AI 활용 (Sora, Runway, Kling 등)

시나리오 작법과 영상 생성 AI의 만남

영상 생성 AI는 시나리오를 곧바로 영상으로 시험해 볼 수 있는 "초고 시각화 도구"다. 머릿속 이미지와 대본을 텍스트 프롬프트로 설명하면, Sora·Runway·Kling 같은 모델이 짧은 클립으로 구현해준다.58

완성된 영화 대신, 씬 단위 러프 컷을 빠르게 만들어 보는 용도로 이해하면 편하다. 리듬, 구도, 톤, 인물 감정이 대략 맞는지만 확인해도 초보 시나리오 작업의 시행착오를 크게 줄일 수 있다.

이 장의 목표는 "전문 감독"이 아니라 "시나리오 작가 입장"에서, 최소한의 개념으로도 영상 생성 AI를 실전 작업에 붙일 수 있게 만드는 것이다.

주요 도구 한눈에 이해하기

영상 생성 AI는 모두 비슷해 보이지만, 강점과 사용 맥락이 다르다.5674

Sora는 복잡한 내러티브 프롬프트를 잘 해석해 장면 안에서 일어나는 사건과 캐릭터 행동을 자연스럽게 이어준다. ChatGPT와 연동된 스토리보드·멀티샷 기능이 있어 "문장→여러 쇼트" 구조의 이야기 실험에 유리하다.5

Runway는 자체 에디터, Motion Brush, Director Mode 등 "후반작업" 기능이 강하다. 텍스트→영상뿐 아니라, 생성된 샷을 자르고 붙이고, 특정 영역에만 움직임을 주는 등 편집·보정까지 한 번에 처리하는 데 적합하다.45

Kling은 정지 이미지를 움직이는 능력이 뛰어나, 이미지를 기반으로 한 고속·사실적인 모션에 강점을 보인다.57 시나리오 작업에서는 "컨셉 아트(이미지) → 짧은 모션 테스트"에 특히 유용하다.

이 밖에 Google Veo 3는 4K 해상도와 물리 시뮬레이션, 네이티브 오디오 등 "최종 품질"에 특화되어 있어, 중요한 키샷이나 완성도 높은 트레일러용 샷에 쓸 수 있다.7 다만 이 장에서는 시나리오 초안 단계에서 가장 자주 쓰일 Sora·Runway·Kling 관점에 집중한다.

영상용 프롬프트의 기본 구조

이미지·영상 생성 모델들은 공통적으로 "명확한 구조"를 가진 프롬프트에 잘 반응한다.36

기본 골격은 세 덩어리로 정리할 수 있다.

첫째, 주제와 행동이다. 장면의 중심이 되는 인물·사물, 그리고 무엇을 하고 있는지부터 분명히 적는다. "도망치는 20대 여성", "고장난 엘리베이터 안에 갇힌 두 사람"처럼 구체적인 명사를 기준으로 잡는다.3

둘째, 상황과 배경이다. 장소, 시간대, 날씨, 분위기, 주변 인물·사물 등 "이 장면은 어디서 어떤 느낌으로 일어나는가?"를 채운다. 예를 들어 "밤, 비 내리는 고층 아파트 옥상, 도시의 네온이 젖은 바닥에 반사된다" 수준이면 초보도 충분히 컨트롤이 가능하다.3

셋째, 스타일과 카메라다. "영화 촬영", "다큐멘터리 스타일", "핸드헬드", "시네마틱 라이팅"처럼 영상 매체를 명시하고, 이어서 샷 크기와 카메라 앵글, 움직임을 붙인다. "클로즈업, 로우 앵글, 천천히 줌인"처럼 구체적으로 표현할수록 결과가 일정해진다.123

시나리오 작업에서는 이 프롬프트 구조를 "트리트먼트+간단한 콘티" 정도로 생각하면 된다. 내러티브는 시나리오가 주도하고, 프롬프트는 "이 장면을 한 컷으로 찍는다면 어떤 샷인가?"를 정의하는 역할을 맡긴다.

카메라 샷과 앵글을 AI 언어로 말하기

영상 생성 AI는 영화 문법과 사진 문법을 상당히 학습하고 있어, 카메라 관련 키워드만 잘 써도 스토리의 느낌이 크게 달라진다.1245

샷 크기는 인물과 카메라 사이 거리다. "익스트림 클로즈업, 클로즈업, 미디엄 샷, 풀 바디 샷, 이스타블리싱 샷" 등으로 점점 멀어진다.2 클로즈업은 감정과 디테일, 미디엄은 관계와 행동, 이스타블리싱은 공간과 상황을 전달하는 데 유리하다. 영상 AI에서도 이 단어들을 그대로 쓰면 해당 구도에 가까운 결과를 얻을 수 있다.12

카메라 앵글은 "위치와 시선"을 지정한다. "로우 앵글(아래에서 위로), 하이 앵글(위에서 아래로), 버즈아이뷰/오버헤드, 사이드 뷰, 백 뷰, 히어로 뷰" 같은 표현들이 대표적이다.12 로우 앵글은 인물을 더 크고 강하게, 하이 앵글은 더 작고 취약하게 보이게 만들어 캐릭터의 힘의 관계를 시각적으로 강조한다.1 버즈아이뷰는 공간 구조와 패턴, 규모를 보여줄 때 좋다.12

또한 "스트레이트 온(정면에서), 프롬 어보브, 프롬 빌로, 셀피, 와이드 앵글 뷰, 피시아이 뷰" 같은 키워드는 장르적 느낌을 빠르게 만든다.2 예를 들어 공포 장면에서 "익스트림 클로즈업, 와이드 앵글 뷰, 약간 아래에서 올려다보는 샷"을 쓰면, 왜곡된 얼굴과 위협적인 분위기를 쉽게 연출할 수 있다.

이 키워드들을 시나리오의 "샷 디스크립션"처럼 써 주면, Sora·Runway·Kling 모두에서 보다 안정적인 구도와 감정선을 얻을 수 있다.1245

도구별로 다르게 접근하는 프롬프트 전략

모든 모델에 같은 프롬프트를 넣는 것보다, 각 도구가 좋아하는 "언어 습관"을 아는 편이 훨씬 효율적이다.3568

Sora 계열은 텍스트 이해력이 좋아 문장형·내러티브형 프롬프트에 강하다. "카메라는 인물 뒤를 따라가며", "컷은 유지된 채 인물이 뒤돌아본다"처럼 시간 흐름과 카메라 동선을 문장으로 설명해도 비교적 잘 따라온다.56 따라서 시나리오의 한 단락을 거의 그대로 변형해 프롬프트로 쓰고, 마지막에 카메라 정보만 덧붙이는 방식이 적합하다.

Runway는 프롬프트로 대략적인 질감·스타일·장면을 정한 후, Motion Brush나 Director Mode로 세부 움직임과 카메라를 조정하는 흐름이 자연스럽다.4 예를 들어 "밤의 도심 옥상에서 싸우는 두 사람" 정도만 텍스트로 생성한 뒤, 에디터에서 카메라를 돌리거나 특정 물체만 흔들리게 만들면서 "콘티 맞추기"에 가깝게 조작한다.

Kling은 이미지→영상이 강하므로, 먼저 Midjourney나 SDXL 같은 이미지 모델로 "대표 프레임"을 뽑고, 이 이미지를 Kling에 넣어 "짧은 동작"을 입히는 방식이 효율적이다.58 시나리오의 중요한 키 프레임(도입, 전환, 클라이맥스)을 이미지로 고정해 두고, Kling으로 각각을 몇 초짜리 움직임으로 시험해보면, 전체 영화의 톤과 리듬을 빠르게 확인할 수 있다.57

모델별 차이를 크게 의식하기 어렵다면, 공통적으로 "한 번에 많은 걸 요구하지 않는다"는 원칙만 기억해도 좋다. 인물 수를 줄이고, 카메라 움직임을 단순화하고, 샷 길이를 짧게 유지하는 것만으로도 결과 퀄리티가 눈에 띄게 안정된다.58

시나리오 작업을 위한 기본 워크플로 예시

영상 생성 AI를 시나리오 책상 위에 올려두려면, "언제" 쓰는지가 중요하다. 초보라면 다음 세 지점을 기준으로 잡아 보면 좋다.

첫째, 아이디어 단계다. 아직 이야기가 막연할 때, 한두 문장짜리 콘셉트 프롬프트로 여러 영상 도구에 던져 본다. "2050년 침수된 서울, 옥상 위에서 살아가는 사람들" 같은 짧은 설명만으로도, 각 도구가 만들어 주는 이미지와 영상은 장르와 톤을 좁히는 데 큰 힌트를 준다.35

둘째, 시퀀스 설계 단계다. 중요한 시퀀스마다 "대표 샷"을 정하고, 그 샷을 중심으로 프롬프트를 만들어 영상으로 뽑아 본다. 이때 카메라 샷·앵글 키워드를 적극 활용해 "이 시퀀스는 이 느낌의 샷으로 간다"는 시각적 규칙을 먼저 만들어 두면, 이후 대본을 다듬을 때도 일관성이 높아진다.124

셋째, 리라이트 단계다. 초벌 대본이 나온 뒤, 몇 장면을 골라 Sora나 Runway에 넣어 실제로 돌려 보며, 대사 길이·행동 타이밍·공간 활용이 어색한 부분을 찾아낸다.45 예를 들어 영상에서 인물이 2초 만에 방 구석에서 문 앞까지 걸어가야 하면 동선이 비현실적일 수 있다. 이런 물리적 어색함은 시나리오 글만 볼 때는 잘 보이지 않지만, 영상 AI를 통과하면 금방 드러난다.7

이렇게 "아이디어 검증 → 시퀀스 설계 → 리라이트 검증"의 세 지점에만 잘 끼워 넣어도, 영상 생성 AI는 초보 시나리오 작가에게 매우 강력한 피드백 장치가 된다.

프롬프트 작성 실전 팁

텍스트는 짧되, 신호는 선명하게라는 원칙이 중요하다.39 불필요한 형용사를 쌓기보다, "무엇을 보여줄지"를 명확한 명사와 동사로 적는 편이 훨씬 효과적이다.

또한 "보고 싶은 것"을 말하되, "보고 싶지 않은 것"을 나열하는 방식은 가능한 한 줄이는 것이 좋다.3 "하늘에 아무것도 없다" 대신 "맑은 하늘, 구름 없음"처럼 긍정형으로 표현하면 모델이 혼동할 여지가 줄어든다.

한 번에 모든 요소를 수정하려 하지 말고, 한 번 생성 후에는 "카메라 거리만 조금 더 멀게", "조명만 더 어둡게", "배경 인물 수만 줄이기"처럼 한두 요소만 바꿔 반복하는 것이 효율적이다.3 이런 미세 조정 과정을 통해 시나리오의 정보 밀도와 장면 묘사 방식도 자연스럽게 훈련된다.

영상의 품질이 괜찮지만 해상도가 아쉬울 때는, 별도의 업스케일러를 사용하는 것이 일반적이다.147 최종 영화가 아니라, 시나리오용 프리비즈 단계에서는 반드시 4K까지 올릴 필요는 없지만, 글을 피칭하거나 발표용으로 쓸 샷이라면 업스케일 후 사용을 고려할 수 있다.

한계와 주의점

영상 생성 AI는 여전히 실사 촬영을 완전히 대체하기에는 부족하다. 손가락, 발, 물체와 몸의 접촉, 복잡한 군중 장면에서 물리와 형태가 어긋나는 경우가 반복해서 보고된다.87 따라서 현실에서 불가능한 미장센까지 그대로 믿기보다는, "이 정도 느낌은 낼 수 있다"는 수준의 참고 자료로 받아들이는 것이 안전하다.

또한 사람 얼굴·실존 인물과 관련된 규제, 저작권, 출처 표기 문제도 지속적으로 변하고 있다.510 상업적 영상 기획에 AI를 사용할 때는 각 서비스의 이용 약관과 정책을 반드시 확인해야 한다.

시나리오 작가에게 중요한 것은 결국 "이야기와 인물"이다. 영상 생성 AI는 그 이야기를 더 잘 보는 눈을 기르는 돋보기이자 실험실일 뿐이다. 이 장에서 다룬 기본 개념과 워크플로만 탄탄히 익혀 두면, 초보라도 21세기형 "AI 시나리오 작법"의 좋은 출발선을 선점할 수 있다.

참고

115 Midjourney Camera Angles and How to Choose (with Examples)

2SDXL Guide to Camera Framing and Angle | Weird Wonderful AI Art

3How to write AI image prompts like a pro [Oct 2025]

4Introducing Gen-3 Alpha: A New Frontier for Video Generation | Runway

5Machine Learning Guide | MLA 026 AI Video Generation: Veo 3 vs Sora, Kling, Runway, Stable Video Diffusion

6The Most Affordable and Stable Sora 2 API

7Veo 3 vs Top AI Video Generators: Sora, Runway, Kling, Seedance, and More Compared

85 Generative AI Video Tools Take On the Same Prompt, Starting with Sora

9Ditch These Pointless Midjourney Photography Terms

10Sora not allowing image with 'people' - OpenAI Community

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.