검색
검색
공개 노트 검색
회원가입로그인

틸노트 4월 2주차 인공지능 뉴스레터 - 멀티모달과 에이전트

4월 2주차 인공지능 뉴스레터입니다. 편안한 하루 되시길 바랍니다.

  • 구글 이매진 2.0 움직이는 이미지 기능 발표 : 구글 넥스트 컨퍼런스에서 백만 토큰 컨텍스트 윈도우의 제미나이 프로와 이매진 2.0 등 다양한 기능을 발표했는데요. 그 중 이매진 2.0의 라이브 이미지는 이미지를 움직이는 4초짜리의 영상으로 만들어 줍니다. 스테이블 비디오 디퓨전과 비슷하네요.

  • AI 훈련 데이터 부족과 사용 문제 : 인공지능이 빠르게 양질의 데이터를 학습함에 따라 2026년에는 학습할 고품질의 데이터가 부족할지도 모르겠다는 예측이 있습니다. 오픈 AI가 백만 시간 이상의 유튜브 영상을 GPT-4 학습에 활용했다는 이야기가 들리고 있으며 구글과 대립각을 세우고 있습니다. OpenAI는 예전부터 데이터 학습에는 공정 이용이라는 주장을 펼치고 있습니다. 구글은 유튜브 영상을 훈련에 사용했다면 서비스 약관을 위배하는 것이라고 합니다. 반면에 구글은 gemini 등을 훈련시키는데 유튜브 데이터를 사용할 수 있다고 주장합니다. 데이터 사용 문제, 저작권 문제, 테크 기업들간의 경쟁 등 다양한 양상이 나타나고 있습니다.

  • Cohere 의 새로운 LLM Command R+ - RAG와 에이전트에 최적화된 모델 : Cohere에서 커맨트 R+ 라는 업그레이드 모델을 출시했습니다. RAG와 에이전트를 위한 멀티스텝 도구 사용에 최적화된 모델이라고 합니다.

  • 도구 사용은 에이전틱 워크플로우의 중요한 디자인 패턴이다. - 앤드류 응 교수님 : 앤드류 응 교수님의 에이전틱 워크플로우의 디자인 패턴 중 도구 사용에 대한 번역 글입니다. 에이전트는 비용 문제와 속도 때문에 실서비스에서 바로 보기는 힘들지만 올해 안에 에이전트들을 더 많이 보게 될 것이라 생각합니다.

  • 오픈 소스 AI 에이전트 SWE-agent - 데빈의 오픈 소스 버전 : 프린스턴 대학의 연구원들이 오픈소스 소프트웨어 엔지니어링 에이전트인 SWE-agent를 개발했습니다. 주목을 받았던 AI 소프트웨어 엔지니어 Devin 의 경우 13.86%의 이슈를 고쳤는데 이 에이전트는 12.29%의 이슈를 고쳤다고 합니다. 전체 코드 베이스를 바탕 (github repositary) 등을 바탕으로 작동하는 에이전트입니다.

  • Stable Audio 2.0 - 텍스트에서 오디오를 생성할 수 있는 AI : 스테이블 오디오로 3분까지의 AI 음악을 생성할 수 있습니다. 사용자는 월 20 크레딧을 사용하여 음악을 생성할 수 있습니다.

  • 제가 친구에서 소개해주고 싶은 AI 서비스 10개를 무료로 위주로 뽑아 유튜브 영상을 만들어 봤습니다. 실제로 제가 많이 쓰고 있는 서비스들입니다.

여기까지 AI 분야 뉴스레터였습니다. AI 영상과 음악 생성 도구들이 많이 등장하고 있네요. 에이전트들도 계속해서 시도되고 있습니다.

그럼 오늘 하루도 좋은 하루 되시길 바라겠습니다. 감사합니다!

조회수 : 110
heart
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
T
페이지 기반 대답
AI Chat