
생성형 AI에 회사 기밀 입력?: AI 시대, 개인정보는 어떻게 지켜야 할까? 정부 공식 가이드라인 핵심 요약

생성형 AI가 우리 일상과 업무에 깊숙이 자리 잡고 있습니다. 하지만 편리함 이면에는 개인정보 침해에 대한 우려가 늘 따라다닙니다. 이 글에서는 생성형 AI와 개인정보 문제를 둘러싼 한국의 법적 쟁점과 실제 사례, 그리고 안전한 AI 활용을 위한 방안을 자세히 살펴보겠습니다.
1. AI 학습 데이터와 개인정보 문제
인공지능 모델을 학습시키기 위해 수집한 데이터에 개인정보가 포함되어 있다면, 이는 개인정보 보호법의 적용을 받습니다. 한국의 개인정보 보호법은 개인정보를 처리할 때 원칙적으로 정보 주체의 동의와 같은 법적 근거가 필요하며, 정해진 목적 외의 이용은 제한됩니다.
최근 개인정보보호위원회(개인정보위)는 안내서를 통해, 인터넷에 공개된 개인정보를 AI 학습에 활용할 경우 ‘정당한 이익’이 있다면 처리할 수 있다고 설명했습니다. 다만 이를 위해서는 처리 목적의 정당성, 필요성, 그리고 정보 주체의 권리 침해 가능성을 비교하는 이익 형량 등 여러 조건을 충족해야 합니다. 예를 들어, 웹 페이지의 공개 정보를 수집해 대규모 언어 모델(LLM)을 학습시킬 때는 정보 주체에게 피해가 가지 않도록 안전 조치를 철저히 해야 합니다.
2. 국내 대표 사례: '이루다' 사건의 교훈
2021년 출시되었던 AI 챗봇 '이루다' 사건은 개인정보를 활용한 AI 학습의 위험성을 명확히 보여준 사례입니다. 개발사 스캐터랩은 이용자 동의 없이 20대 여성의 카카오톡 대화 약 94억 문장을 챗봇 학습에 사용했습니다. 이 과정에서 이름, 연락처, 주소 등 민감한 개인정보가 제대로 걸러지지 않아 큰 논란이 되었습니다.
심지어 개발사 직원들이 이용자들의 사적인 대화를 들여다본 정황까지 드러나면서 사회적 파장을 일으켰고, 254명의 이용자가 집단 손해배상 소송을 제기했습니다. 결국 개인정보위는 해당 회사에 약 1억 원의 과징금 및 과태료를 부과했으며, 챗봇 서비스는 출시 3주 만에 중단되었습니다. 이 사건은 AI 서비스 개발 시 개인정보 활용의 투명성과 정보 주체에 대한 사전 고지가 얼마나 중요한지를 보여준 대표적인 사례로 남았습니다.
3. 프롬프트에 개인정보 입력, 어떤 위험이 있을까?
사용자가 생성형 AI에 질문하면서 이름, 회사 내부 자료 등 민감 정보를 입력하는 경우가 많습니다. 이러한 행위에는 다음과 같은 법적, 기술적 위험이 따릅니다.
기술적 위험 공개된 버전의 생성형 AI는 사용자가 입력한 내용을 서버에 저장하고, 서비스 개선을 위한 추가 학습 데이터로 활용할 수 있습니다.
OpenAI 역시 "민감한 정보를 입력하지 말라"고 경고하며, 입력 내용이 모델 학습에 사용될 수 있음을 명시하고 있습니다. 이는 무심코 입력한 개인정보가 AI 모델에 흡수되어 다른 이용자의 질문에 대한 답변으로 노출될 수 있음을 의미합니다.
이러한 '데이터 잔류 및 누출' 위험 때문에 삼성전자 등 많은 기업은 업무망에서 생성형 AI 접속을 제한하고 있습니다.
법적 쟁점 회사가 업무상 생성형 AI에 고객의 개인정보를 입력하는 행위는 단순 '유출'이 아닌 '제3자 제공' 문제로 이어질 수 있습니다.
정보 주체의 동의나 법적 근거 없이 외부 AI 서비스(제3자)에 개인정보를 전송한 것이기 때문입니다.
이는 개인정보 보호법상 엄격한 절차를 거치지 않은 무단 제공에 해당할 수 있으며, 만약 해당 AI 서비스의 서버가 해외에 있다면 국외 이전 절차 위반 문제도 발생할 수 있습니다.
4. 안전한 AI 활용을 위한 정부와 기업의 노력
정부의 가이드라인
정부는 AI 개발과 관련한 불확실성을 해소하기 위해 적극적으로 나서고 있습니다. 개인정보위는 「AI 개발·서비스를 위한 공개된 개인정보 처리 안내서」와 「생성형 AI 개발·활용을 위한 개인정보 처리 안내서」를 발간하여 AI 개발 단계별 법적 고려사항과 안전 조치를 제시했습니다.
이 안내서들은 AI 개발 초기부터 개인정보 처리 근거를 검토하고, 학습 단계에서는 가명·익명 처리 등의 조치를 권고합니다. 또한, 행정안전부와 방송통신위원회도 각각 공무원과 AI 서비스 제공자를 위한 활용 지침을 발표하며 안전한 AI 사용 문화를 조성하고 있습니다.
기업의 기술적 보완책
많은 기업은 개인정보 유출 위험을 줄이면서 AI의 생산성을 활용하기 위해 기업용 솔루션을 도입하고 있습니다. OpenAI의 기업용 API나 구글의 Gemini 유료 API 등은 사용자가 입력한 데이터를 모델 학습에 활용하지 않고 일정 기간 후 삭제하는 정책을 채택하고 있습니다. 이러한 API 방식은 기업이 데이터 통제권을 유지할 수 있게 해줍니다.
더불어 기업 내부망에 별도의 LLM을 구축하는 방안도 고려되고 있습니다.
5. 개인정보 보호전략
'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서'와 '생성형 인공지능(AI) 개발·활용을 위한 개인정보 처리 안내서'에 기반한 기업과 공공기관을 위한 최적의 전략을 소개합니다.
AI 개인정보 보호, 생애주기 접근이 시작
AI 개인정보 보호는 단편적인 조치로 해결할 수 없습니다. 성공적인 전략은 AI 개발의 시작부터 끝까지, 즉 AI 생애주기(lifecycle) 전체를 관리하는 것입니다. 안내서는 이 과정을 크게 5단계로 나누어 체계적인 접근법을 제시합니다.
목적 설정: 모든 것의 시작
전략 수립: 튼튼한 설계도 그리기
AI 학습 및 개발: 데이터를 안전하게 지식으로
시스템 적용 및 관리: 신뢰를 지키는 지속적인 노력
AI 프라이버시 거버넌스 구축: 흔들림 없는 중심 잡기
각 단계를 자세히 살펴보겠습니다.
1단계: 목적 설정 - 모든 것의 시작
AI 개발의 첫 단추는 '무엇을 위해 AI를 만드는가'를 명확히 하는 것입니다. 이 목적 설정은 개인정보 보호의 방향을 결정하는 가장 중요한 과정입니다.
개인정보 처리 목적 구체화
개인정보 보호법의 기본 원칙은 '목적 명확화'와 '최소 수집'입니다. AI 개발 목적을 구체적으로 정해야만, 그 목적 달성에 꼭 필요한 개인정보가 무엇인지, 얼마나 수집해야 하는지를 판단할 수 있습니다. 막연한 목적 설정은 과도한 개인정보 수집으로 이어질 수 있습니다.
데이터 출처별 적법 근거 마련
AI 학습 데이터는 크게 두 가지 경로로 수집됩니다. 각 출처에 따라 확보해야 할 법적 근거가 다릅니다.
인터넷 등에서 공개된 개인정보 수집
웹 스크래핑 등으로 공개된 정보를 수집할 때는 정보주체의 동의를 받기 어렵습니다. 이때 실질적인 법적 근거는 개인정보 보호법 제15조의 '정당한 이익' 조항입니다.
'정당한 이익'이 인정되려면 다음 세 가지 요건을 모두 충족해야 합니다.
목적의 정당성: AI 개발을 통한 기업의 영업 이익뿐 아니라, 기술 혁신과 같은 사회적 이익도 포함될 수 있습니다.
처리의 필요성: AI 성능 향상을 위해 공개된 데이터 활용이 필요하다는 점을 입증해야 합니다.
이익형량: 기업의 이익이 정보주체의 권리보다 '명백하게' 우선해야 합니다. 이를 위해 강력한 안전 조치가 필요합니다.
이미 보유한 이용자 개인정보 활용
서비스 개선 등 당초 수집 목적과 직접 관련된 경우에는 기존 동의의 범위 내에서 활용할 수 있습니다.
당초 목적과 합리적 관련성이 있는 신규 서비스 개발의 경우, '추가적 이용' 조항을 검토할 수 있습니다. 이때는 정보주체의 예측 가능성, 부당한 이익 침해 여부, 안전 조치 등을 종합적으로 고려해야 합니다.
완전히 새로운 서비스 개발에 이용하려면, 원칙적으로 가명처리를 하거나 새로운 동의를 받아야 합니다.
2단계: 전략 수립 - 튼튼한 설계도 그리기
목적이 정해졌다면, 이제 구체적인 실행 계획을 세울 차례입니다. 이 단계에서는 '어떻게 AI를 개발할 것인가'를 결정하고, 처음부터 개인정보 보호를 고려하는 '개인정보 안심설계(Privacy by Design, PbD)'를 적용해야 합니다.
개발 방식 선택과 프라이버시 고려
안내서는 LLM 기반 AI 개발 방식을 크게 세 가지로 나눕니다. 각 방식에 따라 주의할 점이 다릅니다.
서비스형 LLM 활용 (예: API 연계): 외부 상용 서비스를 이용하는 방식으로, 데이터가 외부로 전송될 수 있습니다. 반드시 기업용(Enterprise) 라이선스를 사용해 데이터가 AI 학습에 재활용되지 않도록 하고 , 데이터 처리 부속서(DPA)를 통해 데이터 보호 요건을 계약상 명확히 해야 합니다. LLM 서버가 해외에 있다면 개인정보 국외이전 규정도 확인해야 합니다.
기성 LLM 활용 (예: 공개 모델 다운로드): 공개된 모델을 가져와 추가 학습시키는 방식입니다. 원본 모델의 학습 데이터 출처가 신뢰할 수 있는지 확인하고 , 모델카드나 라이선스를 통해 어떤 안전장치가 내장되어 있는지 검토해야 합니다.
자체 개발: 처음부터 모델을 직접 개발하는 방식으로, 데이터 처리 전 과정에 대한 통제권을 갖지만 그만큼 책임도 큽니다.
개인정보 영향평가(PIA) 수행
개인정보 안심설계를 실천하는 가장 좋은 도구는 개인정보 영향평가(PIA) 입니다. 특히 대규모이거나 민감한 개인정보를 처리하는 AI 시스템이라면 PIA 수행을 적극 권장합니다. PIA를 통해 개발 초기 단계에서부터 발생 가능한 프라이버시 위험을 미리 찾아내고 개선 방안을 마련할 수 있습니다.
3단계: AI 학습 및 개발 - 데이터를 안전하게 지식으로
이 단계는 AI 모델의 성능을 결정하는 핵심 과정으로, 개인정보 침해 위험이 가장 높은 구간이기도 합니다. 따라서 데이터, 모델, 시스템 각 수준에서 다층적인 안전 조치를 적용해야 합니다.
데이터 수준의 안전 조치
출처 검증 및 신뢰 확보: 스크래핑 시 웹사이트 이용약관이나 로봇배제표준(robots.txt)을 준수하고 , 개인정보가 집적된 불법 사이트는 수집 대상에서 제외해야 합니다.
데이터 전처리: 수집된 데이터는 학습 전에 반드시 전처리 과정을 거쳐야 합니다. 특히 주민등록번호, 계좌번호 등 고유식별정보와 민감정보는 원칙적으로 삭제하거나 가명처리해야 합니다.
개인정보 보호 강화기술(PET) 적용: 차분 프라이버시(Differential Privacy) 기술을 적용해 데이터에 임의의 노이즈를 추가하거나 , 원본 데이터 대신 통계적 특성을 재현한 합성데이터를 활용하는 것도 좋은 방법입니다.
모델 및 시스템 수준의 안전 조치
미세조정(Fine-tuning)을 통한 안전장치 추가: 모델이 특정 개인정보를 그대로 출력하거나 유해한 답변을 생성하지 않도록, 사람의 피드백을 반영한 강화학습(RLHF) 등의 기법으로 모델을 조정해야 합니다.
입·출력 필터링: 사용자가 개인정보를 묻는 프롬프트를 입력하면 답변을 거부하고(입력 필터) , AI의 답변에 개인정보가 포함된 경우 이를 감지해 제거하는(출력 필터) 이중 안전장치가 필요합니다.
접근 통제: AI 시스템과 API에 대한 접근 권한을 엄격히 관리하여 비인가 접근을 차단해야 합니다.
4단계: 시스템 적용 및 관리 - 신뢰를 지키는 지속적인 노력
AI 개발이 완료되어도 끝이 아닙니다. 실제 서비스 환경에 적용하고 운영하면서 지속적으로 관리해야 신뢰를 유지할 수 있습니다.
배포 전 최종 점검
시스템을 배포하기 전, 실제 환경과 유사한 조건에서 최종 테스트를 진행해야 합니다. 이 과정에서 의도치 않은 개인정보 노출이나 보안 취약점이 없는지 꼼꼼히 확인하고 결과를 문서로 남겨야 합니다.
정보주체 권리 보장 및 투명성 확보
신고 기능 및 권리 행사 창구 마련: 사용자가 AI 답변에서 개인정보 침해 등 문제를 발견했을 때 즉시 신고할 수 있는 기능을 마련해야 합니다. 또한, 정보주체가 자신의 정보에 대한 열람, 삭제, 처리 정지를 요구할 수 있는 절차를 제공해야 합니다.
투명한 정보 공개: AI 학습에 어떤 데이터가 사용되는지, 개인정보 처리 과정은 어떠한지 등을 개인정보 처리방침이나 FAQ 등을 통해 투명하게 공개해야 합니다. 특히 이용자 대화 내용을 학습에 활용할 경우, 이 사실을 명확히 알리고 거부할 수 있는 선택권(Opt-out)을 보장해야 합니다.
5단계: AI 프라이버시 거버넌스 구축 - 흔들림 없는 중심 잡기
위 모든 단계를 효과적으로 실행하려면 전사적인 관리 체계, 즉 거버넌스가 필요합니다.
개인정보 보호책임자(CPO) 중심의 체계
AI 프라이버시 거버넌스의 중심에는 개인정보 보호책임자(CPO) 가 있어야 합니다. CPO는 AI 기획 초기 단계부터 참여하여 법적 위험을 검토하고, 개발, 보안 등 관련 부서와 긴밀히 협력하며 전체 과정을 관리·감독해야 합니다.
지속적인 위험 관리와 레드팀 운영
AI 시스템의 취약점을 찾기 위해 의도적으로 공격을 시도하는 '레드팀(Red Team)'을 구성·운영하는 것이 효과적입니다. 레드팀은 내부 전문가뿐 아니라 외부 전문가를 포함하여 객관성을 높이고, 기술적 공격 테스트 외에 일반 사용 과정에서 발생할 수 있는 프라이버시 위험도 점검해야 합니다
결론
생성형 AI 시대에 개인정보 보호는 기술 혁신과 함께 가야 할 중요한 과제입니다. 정부가 제시하는 법적 기준과 안전장치를 바탕으로 기업들은 자체 규정을 강화하고, 사용자들은 개인정보 보호 원칙을 지키는 노력이 필요합니다. 프라이버시와 혁신이 조화를 이룰 때, 생성형 AI는 우리에게 더욱 안전하고 유용한 조력자가 될 것입니다.
출처
[brunch.co.kr] 생성형 AI 개인정보 프라이버시 침해 사례
[개인정보보호위원회] 보도자료
[대한민국 정책브리핑] 개인정보위, 생성형 AI 개발·활용 '개인정보 처리 기준' 공개
[개인정보 포털] 자료실
[NEPLA AI] 생성AI를 업무에 활용하면서 개인정보를 입력하였다면 문제없을까
[Facebook] 생성형 AI에 정보 물어보다가 무심코 내 개인정보까지 입력?!
[개인정보보호위원회] 보도자료 상세 페이지
[TechCrunch] Samsung bans use of generative AI tools like ChatGPT after April internal data leak
[행정안전부] 인공지능, 공공부문에서 똑똑하고 안전하게 활용
[방송통신위원회] 「생성형 인공지능 서비스 이용자 보호 가이드라인」 발표
[WilmerHale] Navigating Generative AI Under the European Union’s Artificial Intelligence Act