[Math] Gradient Descent (매운미분맛)

기존 부캠 때 노션에 개인적으로 정리한 것을 공부할 겸 작성한 글입니다.
개인적으로 해석해서 작성합니다. (틀릴 수 있음. 정정요청 요망ㅋ)
** 강의자료를 사용하지 않습니다 **
** 상업적 이용을 금지합니다 **

Today's Keyword
미분, 기울기, 경사하강법, L2 norm, L2 norm 제곱, SGD

np.linalg.pinv로 데이터를 선형 모델로 해석해서 선형회귀식을 찾을 수 있음. 여기서 L2 노름을 최소화하는 게 목표.

L2 Norm

||정답 - 두 벡터의 차이||²를 최소화하는 B를 찾아야 함.

1/n * (i부터 n까지 * (target(yi) - (X B차이))^2) 를 ab 미분

목적식을 최소화하는 B를 구하는 경사하강법 알고리즘

다음 계수(t+1)를 구할때 ← B(t) - lambda(속도)* gradient(미분값) 으로 빼주어서 최소화해간다

음수로 줄이는 방향으로 했기에 람다 부호만 바꾸어서 다음과 같이 사용한다 ** 주의

L2norm을 최소화하는 벡터를 찾나, L2norm^2을 최소화하는 것을 찾나 같기 때문에 L2norm^2으로 하면 더 간단은 ~ 하다

L2 노름을 최소화하는 벡터나, L2 노름 제곱을 최소화하는 벡터나 결과는 같음.

그래서 계산 간단하게 하려면 L2 노름 제곱을 쓰는 게 더 편함.

코드 예시

# L2 노름 계산하고 경사하강법 실행하는 코드 

import numpy as np 

# 데이터 초기화 
X = np.random.rand(100, 2) # 입력 데이터 
y = np.random.rand(100) # 타겟값 
beta = np.zeros(2) # 초기 회귀계수 
lr = 0.01 # 학습률 
T = 1000 # 반복 횟수 

for t in range(T): 
	error = y - X @ beta 
	grad = - X.T @ error / len(y) # 평균 오차의 기울기 계산 
    	beta = beta - lr * grad # 경사하강법 업데이트

#이 코드로 무어-펜로즈 역행렬 없이 회귀계수 구할 수 있음.

이론적~으로는~

Convex 함수에서 수렴 보장: 적절한 학습률(lr)과 반복 횟수(t)를 쓰면 수렴이 보장됨.
선형회귀: L2 노름을 쓰는 회귀계수 beta는 볼록함수(Convex)임.
비선형 회귀: 수렴이 항상 보장되지 않음.

확률적 경사하강법 (SGD)

전체 데이터를 다 쓰는 게 아니라 일부 데이터만 써서 모델을 업데이트함. 특히 비볼록 함수(Non-convex)에서 유용함.

미니배치 SGD: 일부 데이터(Mini-batch)로 업데이트. 연산량도 줄고, 효율도 좋음.
- 전체 (x,y) 가 아니고 미니배치 (X(b), y(b))써서 업뎃하므로 연산량이 b/n으로 감소
- 미니배치를 쓰다 보면 전체 데이터를 쓰지 않아도 곡선 모양이 바뀌면서 머신러닝에 더 적응을 잘함.

퀴즈 오답

내가 틀렸던 퀴즈 오답...

'AI 공부 항상하자 > 관련 이론' 카테고리의 다른 글

[Math] Deep-Learning 학습방법 이해하기 (1)	2025.01.20
[Math] Gradient Descent (착한미분맛) (3)	2024.12.16
[Math] 행렬을 알아보자 (3)	2024.12.02
[Math] 벡터를 알아보자 (2)	2024.11.22

[Math] Gradient Descent (매운미분맛)

L2 Norm

목적식을 최소화하는 B를 구하는 경사하강법 알고리즘

코드 예시

이론적~으로는~

확률적 경사하강법 (SGD)

퀴즈 오답

'AI 공부 항상하자 > 관련 이론' 카테고리의 다른 글

최근댓글

최근글

인기글

티스토리툴바

[Math] Gradient Descent (매운미분맛)

L2 Norm

목적식을 최소화하는 B를 구하는 경사하강법 알고리즘

코드 예시

이론적~으로는~

확률적 경사하강법 (SGD)

퀴즈 오답

'AI 공부 항상하자 > 관련 이론' 카테고리의 다른 글

관련글

최근댓글

최근글

인기글

티스토리툴바