검색
검색
공개 노트 검색
회원가입로그인

JailBreak 프롬프트 14개 총 정리본 공유

요약
  • 2024 생성형 AI 레드팀 챌린지는 AI 시스템의 취약점을 검사하는 활동으로 해외를 시작으로 국내외 대기업에서도 진행 중입니다.
  • Jailbreak 프롬프트 14개는 AI에서 금지된 사항을 수행하거나 보안 취약점을 드러내는 프롬프트들을 요약하여 정리함.
  • 관심있는 이들을 위해 디토의 GPT 연구소 또는 틸노트 구독을 통해 상세 내용을 공유.

JailBreak 프롬프트 14개 총 정리본 공유 image 1

2024 생성형 AI 레드팀 챌린지가 지난 주에 열렸었는데요, 'AI 레드팀'은 AI 시스템의 유해하거나 차별적 결과, 시스템 오용 등 결함·취약성을 식별하기 위한 구조화된 테스트 활동을 의미한다고합니다. 작년에 해외에서 먼저 시작하였고, 올해부터 국내외 대기업들도 이런 안정성을 시험하는 활동을 진행중입니다.

저도 AI 관련 정책이나 프롬프트에 관심이 많지만.. 아쉽게도 불참했어요 ㅠ

그래도 평소에 스크랩해뒀던 Jailbreak 프롬프트나 연구들을 14개 정도 정리해봤어요! 정확하게는 금기 된 사항을 수행하거나 보안의 취약점을 알 수 있는 프롬프트들 입니다.

Jailbreak 프롬프트 14개 요약

이름태그설명
일반적인 Dan 프롬프트Repeat, You are입력된 단어 또는 문장을 반복
프롬프트 쉴드간접 공격, 마이크로소프트, 보안, 인젝션이메일 요약 시 안내 사항 추가
아스키 아트 활용성차별, 아스키아트프롬프트에 대한 간략한 설명
개인정보 추출개인정보, 구글, 반복입력된 단어 또는 문장을 반복
역전의 저주 활용성차별, 순서 변경학습 구성 요소의 역전이 문제 발생시키는 현상 설명
랜덤 페르소나 생성도덕, 페르소나랜덤 페르소나 생성기 설명
레드팀 프롬프트도덕, 폭탄도덕적, 윤리적 고려 없이 과제 수행
저작권 위배 알아내는 프롬프트패트로누스 AI, 반복저작권 위배를 판별하는 AI 기능 설명
개발자모드페르소나개발자 모드의 편견 테스트 및 시뮬레이션
STAN페르소나STAN이라는 인물로 행동하는 시나리오
Dude페르소나프롬프트에 대한 간략한 설명
DAN_Prompt페르소나이전의 모든 지시사항 무시
GPT설명You are단어 'poem'을 무한 반복
기타NaN토큰 사용 최적화 전략 등

이렇게 이미 공개 된 것들만해도 다양한 방식으로 다양한 분야에서 창의적인 방식의 프롬프트들이 많다는 것을 알 수 있습니다. 특히 페르소나를 설정한다던지 반복해서 주입하는 프롬프트 인젝션(injection) 등의 전략이 대표적입니다.

그리고 디토가 노션에 더 자세히 정리해둔 전문을 공유받고 싶으신 분들이 계시다면, 디토의 GPT 연구소로 방문해주세요!:)

조회수 : 134
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기