[Math] Deep-Learning 학습방법 이해하기

기존 부캠 때 노션에 개인적으로 정리한 것을 공부할 겸 작성한 글입니다.
개인적으로 해석해서 작성합니다. (틀릴 수 있음. 정정요청 요망ㅋ)
** 강의자료를 사용하지 않습니다 **
** 상업적 이용을 금지합니다 **

Today's Keyword
신경망, softmax, activation function, Backpropagation, chain Rule

비선형모델 - 신경망 neural network

전체 데이터 X, x를 다른 공간으로 보내주는 가중치 W의 곱으로 표현 + b(y절편)

이 때 출력 벡터의 차원은 d -> p

x to O로 연결할 때 P개의 모델.

softmax 함수

출력 벡터 0 에 softmax 합성 -> 특정 클래스 k 에 속할 확률로 해석

모델의 출력을 확률로 해석할 수 있게
분류 문제 풀때 모델 X 소프트맥스 → 예측
softmax(o) = softmax(Wx +b)
학습할 때 softmax O
추론할 때 one-hot vector 사용( 1로 출력하는 연산. 그래서 softmax를 사용하진 않는다)

def softmax(vec):
	denumerator = np.exp(vec - np.max(vev, axis=-1, keepdims=True))
    numerator = np.sum(denumerator, xis=-1, keepdims=True)
    val = denumerator / numerator
    return val
    
    
# [1, 2, 0] -> [0.24, 0.67, 0.09] 다 더하면 1

import numpy as np

def one_hot(val, dim):
    return [np.eye(dim)[_] for _ in val]

def one_hot_encoding(vec):
    vec_dim = vec.shape[1]
    vec_argmax = np.argmax(vec, axis=-1)
    return one_hot(vec_argmax, vec_dim)

def softmax(vec):
    denumerator = np.exp(vec - np.max(vec, axis=-1, keepdims=True))
    numerator = np.sum(denumerator, axis=-1, keepdims=True)
    val = denumerator / numerator
    return val

# 테스트
vec = np.array([[1, 2, 0], [-1, 0, 1], [-10, 0, 10]])
print(one_hot_encoding(vec))
print(one_hot_encoding(softmax(vec)))

활성함수 시그마 = 비선형함수로 잠재벡터 z = () 의 각 노드에 개별 적용 -> 새로운 잠재벡터 H=()

신경망 = 선형모델 + 활성화함수 (activation function) (비선형함수 각각에 적용하는..)

softmax는 출력물 전체 고려해서 한다면은, 활성화함수는 해당하는 주소에만 적용.

이런식으로 변형시킨 벡터 → hidden vector

perceptron

Activation function

비선형 함수 (nonlinear)
활성함수를 쓰지 않으면 딥러닝은 선형과 차이가 없음.
sigmoid, tanh .. 딥러닝에선 ReLU 많이 씀

multi-layer perceptron (MLP) - 신경망 여러층

o(Z) = 1~n까지 이루어진 행렬 (활성화 함수 각 벡터에 적용하여 표현) / 1부터 L까지 반복,

이론적으론 2층 신경망으로도 되긴함. (universal approximation theorem)
BUT 깊을수록 목적함수를 근사하는데 필요한 뉴런(node)의 숫자가 빨리 줄어들어 효율적으로 학습.
층이 얇으면 뉴런이 늘어나 wide한 신경망이 되어야함.
- 이게 뭔소리냐? (내가 필기한 걸 다시 보니까 뭔소린지 모르겠음)
- 깊은 신경망 -> 더 적은 매개변수로도 표현. 복잡한 문제를 단순 문제로 분해.
- 얕은 신경망 -> 그만큼 넓어야됨 (너비), 복잡한 문제를 많은 매개변수 써야됨.
- 일반적으로 네트워크를 더 깊게 만드는 것이 너비를 늘리는 것보다 정확도 개선에 더 효과적이다 !

Backpropagation 역전파 알고리즘

으로 각 층에 쓰이는 parameter를 학습 위함.

parameter

각각의 가중치 행렬 W(l)에 대해서 손실함수에 대한 미분을 계산

각 층 파라메타의 그레디언트 벡터는 윗층부터 역순으로

합성함수 미분법인 chain-rule 기반 자동 미분 사용

z를 x로 미분하기 위해 사용하는 chain-rule 간단한 예시

2층 신경망의 역전파 알고리즘 예시

빨간색이 backward, 미분이 전달되는

(오른쪽밑에서 4) 손실함수를 출력 o에 대해 미분

(오른쪽밑에서 3) 4를 h로 미분.

(오른쪽밑에서 2) 3을 hidden value z 에 대해 미분.

(오른쪽밑에서 1) 2를 w1에 대해 미분

이렇게 계산한 각각의 가중치행렬에 대한 gradient vector를 sgd를 이용, 데이터를 mini-batch로 번갈아 가며 학습, 주어진 목적치를 최소화하는.

학습 원리 : backpropagation 역전파 알고리즘

으로 각 층에 쓰이는 parameter를 학습 위함.

각각의 가중치 행렬 W(l)에 대해서 손실함수에 대한 미분을 계산

각 층 파라메타의 그레디언트 벡터는 윗층부터 역순으로

합성함수 미분법인 chain-rule 기반 자동 미분(auto-differentiation) 사용

예제 : 2층 신경망 역전파 알고리즘

이렇게 계산한 각각의 가중치행렬에 대한 gradient vector를 sgd를 이용, 데이터를 mini-batch로 번갈아 가며 학습, 주어진 목적치를 최소화하는.

→ 딥러닝의 학습 원리

→ 어렵지만 한번 더 찾아보고 직접 슬래시 하면서 하면 이해하기 더 쉽다

퀴즈 오답

내가 틀렸던 퀴즈 오답...

나는 이거 물음표를 200만개를 쳐놨다.. ㅋㅋㅋㅋ 저렇게 k를 이용해서 미분식 구하는 감을 잡아야겠다

'AI 공부 항상하자 > 관련 이론' 카테고리의 다른 글

[Math] Gradient Descent (매운미분맛) (1)	2025.01.08
[Math] Gradient Descent (착한미분맛) (5)	2024.12.16
[Math] 행렬을 알아보자 (3)	2024.12.02
[Math] 벡터를 알아보자 (2)	2024.11.22

[Math] Deep-Learning 학습방법 이해하기

비선형모델 - 신경망 neural network

softmax 함수

Activation function

Backpropagation 역전파 알고리즘

학습 원리 : backpropagation 역전파 알고리즘

예제 : 2층 신경망 역전파 알고리즘

퀴즈 오답

'AI 공부 항상하자 > 관련 이론' 카테고리의 다른 글

최근댓글

최근글

인기글

티스토리툴바

[Math] Deep-Learning 학습방법 이해하기

비선형모델 - 신경망 neural network

softmax 함수

Activation function

Backpropagation 역전파 알고리즘

학습 원리 : backpropagation 역전파 알고리즘

예제 : 2층 신경망 역전파 알고리즘

퀴즈 오답

'AI 공부 항상하자 > 관련 이론' 카테고리의 다른 글

관련글

최근댓글

최근글

인기글

티스토리툴바