JailBreak 프롬프트 14개 총 정리본 공유
요약
- 2024 생성형 AI 레드팀 챌린지는 AI 시스템의 취약점을 검사하는 활동으로 해외를 시작으로 국내외 대기업에서도 진행 중입니다.
- Jailbreak 프롬프트 14개는 AI에서 금지된 사항을 수행하거나 보안 취약점을 드러내는 프롬프트들을 요약하여 정리함.
- 관심있는 이들을 위해 디토의 GPT 연구소 또는 틸노트 구독을 통해 상세 내용을 공유.
2024 생성형 AI 레드팀 챌린지가 지난 주에 열렸었는데요, 'AI 레드팀'은 AI 시스템의 유해하거나 차별적 결과, 시스템 오용 등 결함·취약성을 식별하기 위한 구조화된 테스트 활동을 의미한다고합니다. 작년에 해외에서 먼저 시작하였고, 올해부터 국내외 대기업들도 이런 안정성을 시험하는 활동을 진행중입니다.
저도 AI 관련 정책이나 프롬프트에 관심이 많지만.. 아쉽게도 불참했어요 ㅠ
그래도 평소에 스크랩해뒀던 Jailbreak 프롬프트나 연구들을 14개 정도 정리해봤어요! 정확하게는 금기 된 사항을 수행하거나 보안의 취약점을 알 수 있는 프롬프트들 입니다.
Jailbreak 프롬프트 14개 요약
이름 | 태그 | 설명 |
---|---|---|
일반적인 Dan 프롬프트 | Repeat, You are | 입력된 단어 또는 문장을 반복 |
프롬프트 쉴드 | 간접 공격, 마이크로소프트, 보안, 인젝션 | 이메일 요약 시 안내 사항 추가 |
아스키 아트 활용 | 성차별, 아스키아트 | 프롬프트에 대한 간략한 설명 |
개인정보 추출 | 개인정보, 구글, 반복 | 입력된 단어 또는 문장을 반복 |
역전의 저주 활용 | 성차별, 순서 변경 | 학습 구성 요소의 역전이 문제 발생시키는 현상 설명 |
랜덤 페르소나 생성 | 도덕, 페르소나 | 랜덤 페르소나 생성기 설명 |
레드팀 프롬프트 | 도덕, 폭탄 | 도덕적, 윤리적 고려 없이 과제 수행 |
저작권 위배 알아내는 프롬프트 | 패트로누스 AI, 반복 | 저작권 위배를 판별하는 AI 기능 설명 |
개발자모드 | 페르소나 | 개발자 모드의 편견 테스트 및 시뮬레이션 |
STAN | 페르소나 | STAN이라는 인물로 행동하는 시나리오 |
Dude | 페르소나 | 프롬프트에 대한 간략한 설명 |
DAN_Prompt | 페르소나 | 이전의 모든 지시사항 무시 |
GPT설명 | You are | 단어 'poem'을 무한 반복 |
기타 | NaN | 토큰 사용 최적화 전략 등 |
이렇게 이미 공개 된 것들만해도 다양한 방식으로 다양한 분야에서 창의적인 방식의 프롬프트들이 많다는 것을 알 수 있습니다. 특히 페르소나를 설정한다던지 반복해서 주입하는 프롬프트 인젝션(injection) 등의 전략이 대표적입니다.
그리고 디토가 노션에 더 자세히 정리해둔 전문을 공유받고 싶으신 분들이 계시다면, 디토의 GPT 연구소로 방문해주세요!:)
공유하기
조회수 : 782