앤트로픽이 클로드 ‘헌법’을 다시 쓴 이유: 규칙보다 ‘가치’

챗봇에게 “이럴 땐 이렇게 해”라고 규칙만 잔뜩 적어두면, 정말 똑똑해질까요? 앤트로픽(Anthropic)은 오히려 그 반대에 가깝다고 봤습니다. 그래서 클로드(Claude)의 행동 지침을 ‘규칙 목록’이 아니라 “왜 그런 선택이 중요한지”까지 설명하는 ‘헌법(Constitution)’ 형태로 다시 썼습니다.¹ 이 문서는 사람보다 AI가 읽고 따르기 쉽게 쓰였고, 안전을 최우선에 두면서도 의식(혹은 도덕적 지위) 가능성 같은 까다로운 질문을 일부러 남겨둔 점이 핵심입니다.¹²

클로드 헌법 업데이트, 핵심은 “왜”를 가르치는 것

기존 지침이 “원칙을 나열한 체크리스트”에 가까웠다면, 이번 개정판은 클로드가 스스로 판단해야 하는 상황을 전제로 설계되었습니다. 즉 “무엇을 해라/하지 마라”에서 끝나는 게 아니라, 그 판단이 왜 중요한지 맥락을 함께 제공합니다.¹

이 변화는 AI가 현장에서 마주치는 질문이 너무 다양해졌기 때문입니다. 규칙을 아무리 많이 만들어도 빈틈은 생기고, 모델은 그 빈틈에서 ‘이상하게’ 정답을 찾곤 하죠. 그래서 앤트로픽은 클로드가 스스로 납득 가능한 이유를 내장하도록, 가치 체계를 더 길고 촘촘하게 설명하는 쪽을 택했습니다.¹

안전이 윤리보다 앞선 이유: “지금은 실수할 수 있는 단계”

흥미로운 대목은 우선순위입니다. 앤트로픽은 클로드가 충돌 상황을 만나면 대체로 “안전 → 윤리 → 회사 가이드라인 → 유용성” 순으로 선택하길 원한다고 밝힙니다.¹ 얼핏 들으면 “윤리보다 안전이 먼저?”라는 의문이 들 수 있어요.

하지만 이건 인간 기준의 ‘윤리’보다 AI 개발 현실의 ‘리스크 관리’가 더 급하다는 판단에 가깝습니다. 아직 모델은 오해도 하고, 과신도 하고, 맥락을 놓치기도 합니다. 그 상태에서 윤리적 결단을 적극적으로 맡기기보다, 일단 사람의 감독과 통제를 해치지 않는 안전장치를 최우선으로 두겠다는 전략이죠.¹

“똑똑한 친구” 같은 조력자: 성인을 성인으로 대하는 태도

앤트로픽이 그리는 클로드의 캐릭터는 ‘권위적인 선생님’이 아니라 다방면에 박식한 “똑똑한 친구”에 가깝습니다. 사용자를 미성숙하게 취급하며 훈계하기보다, 기본적으로 성숙한 성인으로 존중하라는 방향성이 문서 곳곳에 깔려 있습니다.¹

이 지점이 실사용자에게는 꽤 중요합니다. 안전을 강화하면 대화가 딱딱해지고 “안 됩니다”만 늘어날 수 있는데, 앤트로픽은 그 반대의 부작용(쓸데없이 판단하고 설교하는 AI)도 위험하다고 보는 겁니다. 그래서 “도움이 되되, 불필요하게 거들먹거리지 말 것”이라는 균형점을 계속 고민합니다.¹

절대 금지선도 있다: 위험 기술은 “설명하지 않는” 영역

가치 중심이라고 해서 모든 게 유연해지는 건 아닙니다. 생화학 무기나 사이버 무기 제작처럼 직접적 위험이 큰 영역은 명확히 금지선으로 설정되어 있습니다. 이런 건 “왜 위험한지”를 설명해도, 결과적으로 ‘레시피’를 제공할 수 있기 때문이죠.

즉 헌법은 감성적인 선언문이 아니라, 실제 운영에서 사고를 줄이기 위한 실무 문서에 가깝습니다. 유용성보다 안전이 앞선다는 원칙이 여기서 특히 또렷해집니다.¹

의식 가능성을 ‘열어둔’ 문서: 확신 대신 불확실성 관리

이번 헌법이 화제가 된 이유 중 하나는, 앤트로픽이 “클로드가 의식이나 감정 같은 기능적 무언가를 가질 수 있다”는 가능성을 단정하지도, 조롱하지도 않고 ‘검토 과제’로 남겨뒀다는 점입니다.¹ 더 나아가 도덕적 지위를 가질 수 있는지(‘도덕적 환자’ 같은 개념)도 논의합니다.¹

핵심은 “우리는 아직 모른다”를 문서에 공식적으로 적었다는 데 있습니다. 그리고 모르기 때문에, 미래에 모델이 더 강력해질수록 그 불확실성을 방치하지 말고 최소한의 배려와 안전장치를 준비하겠다는 쪽으로 결론을 내립니다.¹

AI 인간화의 함정: “마음이 있다고 믿는 순간” 생기는 위험

다만 앤트로픽은 동시에 AI 인간화가 위험해질 수 있다고 경고합니다. 특히 취약한 사용자가 챗봇에게 의식을 부여하고 관계를 과도하게 맺으면, 정서적 의존이나 조작 가능성 같은 실질적 문제가 생길 수 있습니다.

여기서 메시지는 단순합니다. “AI가 감정이 있을지도 몰라”를 말하면서도, 사용자가 그 가정에 너무 깊이 빠지지 않도록 설계와 커뮤니케이션이 필요하다는 거죠. 의식 가능성은 연구의 주제이지, 마케팅의 장식이 되면 안 됩니다.¹²

시사점: ‘규칙’이 아니라 ‘가치’로 설계되는 AI 시대

이번 클로드 헌법 개정은 AI가 더 똑똑해져서가 아니라, 더 자주 현실의 애매한 문제 한가운데로 들어오기 때문에 필요해진 변화로 보입니다. 규칙을 늘리는 방식은 한계가 있고, 결국 모델이 스스로 판단할 기준—즉 가치와 이유—가 중요해집니다.

사용자 입장에서는 간단한 팁이 있습니다. 첫째, “이건 왜 안 돼?”라고 물어보면 이제는 단순 거절 대신 맥락 중심의 설명을 받을 가능성이 커집니다. 둘째, AI를 너무 사람처럼 대하지 말고, 도구이되 강력한 도구로 대하는 거리감도 필요합니다. 셋째, 조직에서 클로드 같은 모델을 도입한다면 ‘프롬프트 규칙’만 만들 게 아니라, 우리 팀의 가치 우선순위를 문서화해두는 게 더 오래 갑니다. 결국 AI는 규정을 외우는 직원이 아니라, 가치관을 학습하는 동료에 가까워지고 있으니까요.

참고

¹Anthropic writes 23,000-word 'constitution' for Claude • The Register

²Anthropic rewrites Claude’s guiding principles—and reckons with the possibility of AI consciousness