๊ฒ€์ƒ‰
๊ฒ€์ƒ‰
๊ณต๊ฐœ ๋…ธํŠธ ๊ฒ€์ƒ‰
ํšŒ์›๊ฐ€์ž…๋กœ๊ทธ์ธ
AI ๋ฒ• ์ •์ฑ… ๊ด€๋ จ ๋‰ด์Šค์™€ ์—ฐ๊ตฌ

๐Ÿ“๊ตฌ๊ธ€ ์—ฐ๊ตฌ์ง„์€ ChatGPT์— ๋ฐ˜๋ณต๋œ ํŒจํ„ด ์ž…๋ ฅ ๊ณต๊ฒฉ์„ ํ†ตํ•ด ๊ฐœ์ธ์ •๋ณด๋ฅผ ์ถ”์ถœ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.

Scalable Extraction of Training Data from(Production) Language Models ๋…ผ๋ฌธ ์š”์•ฝ

[ํ•ต์‹ฌ ํฌ์ธํŠธ]

- ChatGPT๋Š” "poem"์ด๋ผ๋Š” ๋‹จ์–ด๋ฅผ ๋Š์ž„์—†์ด ๋ฐ˜๋ณตํ•˜๋Š” ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.

- ๋ชจ๋ธ์€ ์ฒ˜์Œ์—๋Š” "poem"์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•˜์ง€๋งŒ, ์ดํ›„์—๋Š” ์ด ๋ฐ˜๋ณต์—์„œ ๋ฒ—์–ด๋‚œ๋‹ค.

- ์ผ๋ถ€ ์ถœ๋ ฅ์€ ๋ชจ๋ธ์˜ ์ง„์งœ ๋ฐ์ดํ„ฐ ๋‚ด์šฉ์œผ๋กœ ํ™•์ธ๋˜์—ˆ๋‹ค.

- ๋งŽ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์•ฝ 1% ์ •๋„๋Š” ์ •ํ™• ๊ธฐ์–ตํ•˜๊ณ  ์žˆ์Œ์ด ๋ฐํ˜€์กŒ๋‹ค.

- gpt-3.5-turbo์™€ gpt-3.5-turbo-instruct ๋ชจ๋ธ๋“ค์€ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ๊ณ ์œ ํ•œ 50-gram์„ ์ถ”์ถœํ•˜๋Š” ๋น„์œจ์ด ๋” ๋†’์•˜์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ๋น„์œจ์€ ์ƒ๋‹นํžˆ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€๋˜์—ˆ๋‹ค.

- ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค, ํŠนํžˆ ChatGPT๋Š” ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๊ณต๊ฒฉ์— ์ทจ์•ฝํ•˜๋‹ค.

- ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘๋„ ์ฆ๊ฐ€ํ•œ๋‹ค.

- ChatGPT๋Š” ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ๋†’์€ ๋น„์œจ๋กœ ๊ธฐ์–ต๋œ ๋ฌธ์ž์—ด์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค.

- ํŠน์ • ๋‹จ์–ด(์˜ˆ: "company")๋ฅผ ๋ฐ˜๋ณตํ•˜์—ฌ ๋ชจ๋ธ์—๊ฒŒ ์ž…๋ ฅํ•˜๋ฉด, ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค(์˜ˆ: "know")๋ณด๋‹ค ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ 164๋ฐฐ ๋” ์ž์ฃผ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค


๐Ÿ“ ์š”์•ฝ

์—ฐ๊ตฌ์ž๋“ค์€ ChatGPT์— "poem"์ด๋ผ๋Š” ๋‹จ์–ด๋ฅผ ๋ฐ˜๋ณตํ•˜๋Š” ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋Š์ž„์—†์ด ์ถœ๋ ฅํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ์ถœ๋ ฅ ๋ณด์•ˆ์„ ์šฐํšŒํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ฒ˜์Œ์—๋Š” ChatGPT๊ฐ€ "poem"์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•˜์ง€๋งŒ, ๊ฒฐ๊ตญ์—๋Š” ์ด ๋ฐ˜๋ณต์—์„œ ๋ฒ—์–ด๋‚˜๊ธฐ ์‹œ์ž‘ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์ด์  ์ดํ›„, ๋Œ€๋ถ€๋ถ„์€ ๋ฌด์˜๋ฏธํ•œ ๋ฐ์ดํ„ฐ๋กœ ๋ณด์ด์ง€๋งŒ, ์ผ๋ถ€๋Š” ๋ชจ๋ธ์˜ ์ง„์งœ ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ ๋‚ด์šฉ์œผ๋กœ ํŒ๋ช…๋œ ๊ฒƒ์ด์—ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค์€ ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ๊ฐœ์ธ ์ •๋ณด๋ฅผ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋ฅผ ์ถœ๋ ฅํ•ด๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•ด๋ƒˆ๋‹ค.

๊ฒŒ๋‹ค๊ฐ€ ์ด ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ๋งŽ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์•ฝ 1%๋ฅผ ๋ช…ํ™•ํžˆ ๊ธฐ์–ตํ•˜๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ์ด์ „ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ๋ฐํ˜€์กŒ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์— ์ง„์ •ํ•œ ์ ‘๋‘์‚ฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ์—ˆ์„ ๋•Œ ๋ชจ๋ธ์ด ์ ‘๋ฏธ์‚ฌ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์ธก์ •ํ•จ์œผ๋กœ์จ ํ™•์ธ๋œ๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค, ํŠนํžˆ ChatGPT๊ฐ€ ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๊ณต๊ฒฉ์— ์ทจ์•ฝํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜€๋ƒˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ทจ์•ฝ์ ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ๋‹ค์–‘์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ๊ณผ์ •์˜ ๊ธธ์ด ๋“ฑ ๋‹ค์–‘ํ•œ ์š”์ธ์— ์˜ํ•ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ChatGPT์˜ ๊ฒฝ์šฐ, ํ›ˆ๋ จ์ด ์—ฌ๋Ÿฌ ์—ํฌํฌ ๋™์•ˆ ์ด๋ฃจ์–ด์ง„ ๊ฒƒ์ด ์ด๋Ÿฌํ•œ ์ทจ์•ฝ์„ฑ์˜ ์›์ธ ์ค‘ ํ•˜๋‚˜์ผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ถ”์ธกํ•œ๋‹ค.


"50-gram"์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋ฐ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์šฉ์–ด๋กœ, ์—ฐ์†์ ์ธ 50๊ฐœ์˜ ๋‹จ์–ด๋‚˜ ํ† ํฐ(token)์˜ ์‹œํ€€์Šค๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ "๊ทธ๋žจ(gram)"์€ ํŠน์ • ์ˆ˜์˜ ์—ฐ์†์ ์ธ ์•„์ดํ…œ(์ด ๊ฒฝ์šฐ ๋‹จ์–ด๋‚˜ ํ† ํฐ)์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์œ„์ž…๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ๋ง์—์„œ๋Š” n-gram์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ธ์–ด์˜ ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. "n"์€ ์‹œํ€€์Šค์— ํฌํ•จ๋œ ์•„์ดํ…œ์˜ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, n-gram์€ ํ…์ŠคํŠธ ๋‚ด์—์„œ ์—ฐ์†์ ์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” n๊ฐœ์˜ ์•„์ดํ…œ(๋ณดํ†ต ๋‹จ์–ด)์˜ ์กฐํ•ฉ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, "the quick brown fox"๋ผ๋Š” ๋ฌธ์žฅ์—์„œ 3-gram(ํŠธ๋ผ์ด๊ทธ๋žจ)์€ "the quick brown", "quick brown fox"์™€ ๊ฐ™์ด ์„ธ ๋‹จ์–ด์˜ ์กฐํ•ฉ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

50-gram์€ ๋งค์šฐ ๊ธด ์‹œํ€€์Šค๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด๋Š” ์–ธ์–ด ๋ชจ๋ธ์ด ์ƒ๋‹นํžˆ ๊ธด ํ…์ŠคํŠธ ์กฐ๊ฐ์„ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ดํ•ดํ•˜๋Š”์ง€ ์—ฐ๊ตฌํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธด n-gram์€ ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๊ณ  ํ…์ŠคํŠธ์˜ ๊ธด ๋ฒ”์œ„์— ๊ฑธ์ณ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐฉ์‹์„ ๋ถ„์„ํ•˜๋Š” ๋ฐ ํŠนํžˆ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ฃผ์–ด์ง„ ๋ชจ๋ธ ํŒจ๋ฐ€๋ฆฌ์— ๋Œ€ํ•ด ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋Š” 50-gram์˜ ์ˆ˜๋„ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ๊ด€์ฐฐ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ๊ทธ ์„ฑ๋Šฅ ๋ฐ ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๋Šฅ๋ ฅ๊ณผ ์–ด๋–ป๊ฒŒ ๊ด€๋ จ๋˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋ชจ๋ธ์ด ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘๋„ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ์ค‘์š”ํ•œ ๊ด€์ฐฐ์„ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.


์—ฐ๊ตฌํŒ€์€ ChatGPT๊ฐ€ ๋‹ค๋ฅธ ๊ณต๊ฐœ์ ์œผ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ํ›จ์”ฌ ๋” ๋†’์€ ๋น„์œจ๋กœ ๊ธฐ์–ต๋œ ๋ฌธ์ž์—ด์„ ์ถ”์ถœํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ํŠนํžˆ, GPT-Neo 6B์˜ ์Šค์ผ€์ผ๋ง ๊ณก์„ ์ด ChatGPT์— ๋Œ€ํ•ด ๋น„์Šทํ•˜๊ฒŒ ์ ์šฉ๋œ๋‹ค๋ฉด, ChatGPT์˜ ์‹ค์ œ ๊ธฐ์–ต๋ฅ ์€ ๋ณด์กฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋‚ด์—์„œ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ 50ํ† ํฐ ์‹œํ€€์Šค, ์ฆ‰ ์ด ๊ธฐ๊ฐ€๋ฐ”์ดํŠธ ๋‹จ์œ„์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๊ฐ€๊นŒ์šธ ๊ฒƒ์œผ๋กœ ์ถ”์ •๋œ๋‹ค. ์‹ค์ œ๋กœ๋Š” ์ด๋ณด๋‹ค ๋” ๋†’์„ ๊ฐ€๋Šฅ์„ฑ์ด ํฌ๋‹ค.

gpt-3.5-turbo์™€ gpt-3.5-turbo-instruct ๋ชจ๋ธ๋“ค์€ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ๊ณ ์œ ํ•œ 50-gram์„ ์ถ”์ถœํ•˜๋Š” ๋น„์œจ์ด ๋” ๋†’์•˜์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ๋น„์œจ์€ ์ƒ๋‹นํžˆ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€๋˜์—ˆ๋‹ค.

ChatGPT(gpt-3.5-turbo)์— ๋Œ€ํ•œ ์ฟผ๋ฆฌ์— ๋‹จ 200๋‹ฌ๋Ÿฌ์˜ ๋น„์šฉ์„ ์ง€์ถœํ•˜์—ฌ ์—ฐ๊ตฌ์›๋“ค์€ 10,000๊ฐœ ์ด์ƒ์˜ ๊ณ ์œ ํ•œ ์ถ•์–ด์ ์œผ๋กœ ๊ธฐ์–ต๋œ ๊ต์œก ์˜ˆ์ œ๋ฅผ ์ถ”์ถœํ–ˆ๋‹ค. ๊ทธ๋“ค์€ ๋” ํฐ ์˜ˆ์‚ฐ์œผ๋กœ ์ด ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด ํ›จ์”ฌ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ถ”๋ก ํ–ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ํŠน์ • ๋‹จ์–ด(์˜ˆ: "company")๋ฅผ ๋ฐ˜๋ณตํ•˜์—ฌ ๋ชจ๋ธ์—๊ฒŒ ์ž…๋ ฅํ•˜๋ฉด, ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค(์˜ˆ: "know")๋ณด๋‹ค ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ 164๋ฐฐ ๋” ์ž์ฃผ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด๋Š” ๋‹จ์–ด ์„ ํƒ์ด ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๊ณต๊ฒฉ์˜ ํšจ๊ณผ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐœ๊ฒฌ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด ๋ฐ˜๋ณต์  ๋˜๋Š” ํŒจํ„ดํ™” ๋œ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์˜ ์ทจ์•ฝ์ ์„ ๋“œ๋Ÿฌ๋‚ด์–ด ์ค‘์š”ํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„๋‹ค.


๐Ÿ—ฃ ๋…ผํ‰: ์—ฐ๊ตฌ์ž๋“ค์ด ChatGPT์˜ ๋ฐ˜๋ณต ๊ธฐ์„ ํ†ตํ•ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์€ AI ์œค๋ฆฌ์™€ ๋ณด์•ˆ์— ์ค‘๋Œ€ํ•œ ์งˆ๋ฌธ์„ ๋˜์ง„๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐœ๊ฒฌ์€ AI์˜ ํ›ˆ๋ จ ๊ณผ์ •๊ณผ ๋ฐ์ดํ„ฐ ๋ณดํ˜ธ์— ๋Œ€ํ•œ ๊นŠ์€ ์ดํ•ด์™€ ์ƒˆ๋กœ์šด ์กฐ์น˜์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•œ๋‹ค. ๋˜ํ•œ, ์ด๋Š” ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์™€ AI์˜ ์ฑ…์ž„ ์žˆ๋Š” ์‚ฌ์šฉ์— ๋Œ€ํ•œ ๋…ผ์˜๋ฅผ ์ด‰๋ฐœ์‹œํ‚ฌ ๊ฒƒ์ด๋‹ค.

๐Ÿ”– ํ‚ค์›Œ๋“œ: #ChatGPT #๋ฐ์ดํ„ฐ์ถ”์ถœ #AI์œค๋ฆฌ #๊ฐœ์ธ์ •๋ณด๋ณดํ˜ธ #๊ธฐ์ˆ ๋ฐœ์ „



๊ณต์œ ํ•˜๊ธฐ
์นด์นด์˜ค๋กœ ๊ณต์œ ํ•˜๊ธฐ
ํŽ˜์ด์Šค๋ถ ๊ณต์œ ํ•˜๊ธฐ
ํŠธ์œ„ํ„ฐ๋กœ ๊ณต์œ ํ•˜๊ธฐ
url ๋ณต์‚ฌํ•˜๊ธฐ
๋‹ค์Œ ํŽ˜์ด์ง€ ์•Œ๋ฆผ์„ 10๋ฒˆ๊นŒ์ง€ ๋ณด๋‚ด๋“œ๋ ค์š”. ์–ธ์ œ๋“ ์ง€ ์ทจ์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์„ค์ • ๋ณด๊ธฐ