틸노트 AI 뉴스레터 6월 3주차 - LLM을 넘어서

Google DeepMind의 V2A - 비디오의 사운드 트랙과, 대화를 생성하는 AI 기술 : 구글 딥마인드에서 비디오 사운드 트랙과 대화를 학습해서 비디오에 맞게 생성하는 기술을 개발하고 있습니다. V2A는 Video to soundtrack의 약어입니다.
Gen-3 - Runway의 동영상 생성 AI 발표 : runway에서 gen-3 를 발표했네요. 생성 속도와 퀄리티가 좋아진 것 같습니다. 수 일내로 유료 사용자 먼저 공개되고 점차적으로 무료 사용자들에게 공개된다고 하네요. 현재 나오는 동영상 생성 AI는 실제 사용 포인트가 적은 편이라는 평가도 있습니다. 하지만 현재 궤도에서 봤을 때 영상쪽에서 큰 역할을 하지 않을까 예상됩니다.
Nemotron-4 340B - Nvidia의 합성 데이터 생성 파이프라인 : Nvidia에서 합성 데이터를 생성하는 AI를 공개했습니다. (라마에서는 합성 데이터 생성 X) 라마3의 400B가 공개되지 않은 상황에서 정말 큰 규모의 LLM 이네요. Nvidia에서 자체 모델을 개발하지 않을까 예상했었는데 독특하게 포지셔닝 하네요. LLM을 만들기 위한 플랫폼으로 포지션을 잡아가려는 것 같습니다.
Stable Diffusion 3 Medium (SD3) : SD3 미디엄 버전이 나왔습니다. 이전의 라지 및 울트라 모델보다 규모를 줄이고 성능을 향상시킨것 같습니다. Stability가 경영적인 어려움을 겪고 있다고 해서 사실 좀 안타깝네요. 4월에 인력의 10%를 감축했다고 합니다.
Luma AI의 새로운 비디오 생성 AI Dream Machine : Luma AI에서 드림 머신이라는 비디오 생성 AI를 공개했습니다. 5초 정도의 비디오를 생성할 수 있습니다. 바로 사용해 볼 수 있는 서비스입니다. 퀄리티는 나쁘지 않은 편이지만 한계도 있습니다. 영상을 생성했을 때 사람이 다른 인물로 변하는 부분이 좀 아쉬웠습니다. 그래도 Sora나 Veo 등이 실사용이 되지 않는 상태에서 현재 직접 사용할 수 있는 의미있는 서비스입니다.

사실 제가 인상깊었던 것은 V2A 입니다. 사운드와 동영상을 쌍으로 이루어 패턴을 인공신경망으로 학습한 것입니다. 즉 훈련 데이터가 무엇이 되느냐에 따라 다양한 일을 수행할 수 있는 AI를 만들 수 있습니다. 예를 들어 청소 데이터를 학습한 AI는 청소에 전문성을 가지고 청소를 할 수 있는 AI가 되겠지요. 인공신경망이 정말 많은 것을 배우고 수행할 수 있다는 것은 참 놀랍습니다.

영상 AI가 등장함에 따라 저작권 문제도 대두되고 있습니다.

또 AI가 발전함에 따라 일자리에도 영향을 많이 끼칠 것으로 예상되는데요. (사운드, 영상, 디자이너, 프로그래머 등) 이러한 부분들이 잘 고려가 되면서 개발이 됐으면 좋겠습니다.

감사합니다!

뉴스레터 구독 : glevel 블로그 - TILNOTE