๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋กStochastic Gradient Descent (1)

Hey Tech

[๋”ฅ๋Ÿฌ๋‹] ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent) ์ข…๋ฅ˜

๐Ÿ“š ๋ชฉ์ฐจ 1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ๊ฐœ๋… 2. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ์ข…๋ฅ˜ 2.1. ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• 2.2. ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• 2.3. ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• 1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ๊ฐœ๋… ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์ด๋ž€ ๋”ฅ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต ์‹œ ์‚ฌ์šฉ๋˜๋Š” ์ตœ์ ํ™” ๋ฐฉ๋ฒ•(Optimizer) ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต ์‹œ ๋ชฉํ‘œ๋Š” ์˜ˆ์ธก๊ฐ’๊ณผ ์ •๋‹ต๊ฐ’ ๊ฐ„์˜ ์ฐจ์ด์ธ ์†์‹ค ํ•จ์ˆ˜์˜ ํฌ๊ธฐ๋ฅผ ์ตœ์†Œํ™”์‹œํ‚ค๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ ์ž…๋ ฅ์„ ๋ณ€๊ฒฝํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์†์‹ค ํ•จ์ˆ˜ ๊ฐ’์˜ ๋ณ€ํ™”์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜(weight) ํ˜น์€ ํŽธํ–ฅ(bias)์„ ์—…๋ฐ์ดํŠธํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ ์–ด๋–ป๊ฒŒ ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋‚˜ ํŽธํ–ฅ์„ ์ฐพ์„ ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ ์˜ ํŽธํ–ฅ์„ ์ฐพ๋Š” ๊ณผ์ • ์—ญ์‹œ ์ ˆ์ฐจ๋Š” ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜์˜ ๊ทธ..