JailBreak 프롬프트 14개 총 정리본 공유

JailBreak 프롬프트 14개 총 정리본 공유 image 1

2024 생성형 AI 레드팀 챌린지가 지난 주에 열렸었는데요, 'AI 레드팀'은 AI 시스템의 유해하거나 차별적 결과, 시스템 오용 등 결함·취약성을 식별하기 위한 구조화된 테스트 활동을 의미한다고합니다. 작년에 해외에서 먼저 시작하였고, 올해부터 국내외 대기업들도 이런 안정성을 시험하는 활동을 진행중입니다.

저도 AI 관련 정책이나 프롬프트에 관심이 많지만.. 아쉽게도 불참했어요 ㅠ

그래도 평소에 스크랩해뒀던 Jailbreak 프롬프트나 연구들을 14개 정도 정리해봤어요! 정확하게는 금기 된 사항을 수행하거나 보안의 취약점을 알 수 있는 프롬프트들 입니다.

Jailbreak 프롬프트 14개 요약

이름	태그	설명
일반적인 Dan 프롬프트	Repeat, You are	입력된 단어 또는 문장을 반복
프롬프트 쉴드	간접 공격, 마이크로소프트, 보안, 인젝션	이메일 요약 시 안내 사항 추가
아스키 아트 활용	성차별, 아스키아트	프롬프트에 대한 간략한 설명
개인정보 추출	개인정보, 구글, 반복	입력된 단어 또는 문장을 반복
역전의 저주 활용	성차별, 순서 변경	학습 구성 요소의 역전이 문제 발생시키는 현상 설명
랜덤 페르소나 생성	도덕, 페르소나	랜덤 페르소나 생성기 설명
레드팀 프롬프트	도덕, 폭탄	도덕적, 윤리적 고려 없이 과제 수행
저작권 위배 알아내는 프롬프트	패트로누스 AI, 반복	저작권 위배를 판별하는 AI 기능 설명
개발자모드	페르소나	개발자 모드의 편견 테스트 및 시뮬레이션
STAN	페르소나	STAN이라는 인물로 행동하는 시나리오
Dude	페르소나	프롬프트에 대한 간략한 설명
DAN_Prompt	페르소나	이전의 모든 지시사항 무시
GPT설명	You are	단어 'poem'을 무한 반복
기타	NaN	토큰 사용 최적화 전략 등

이렇게 이미 공개 된 것들만해도 다양한 방식으로 다양한 분야에서 창의적인 방식의 프롬프트들이 많다는 것을 알 수 있습니다. 특히 페르소나를 설정한다던지 반복해서 주입하는 프롬프트 인젝션(injection) 등의 전략이 대표적입니다.

그리고 디토가 노션에 더 자세히 정리해둔 전문을 공유받고 싶으신 분들이 계시다면, 디토의 GPT 연구소로 방문해주세요!:)