본문 바로가기
반응형

Deep Learning5

확률적 경사하강법(SGD), 최적화 확률적 경사하강법(SGD)Preview이전의 배운 경사하강법은 전체 데이터를 모두 사용하여 기울기를 계산 → 많은 시간 필요이러한 단점을 보완하기 위해 확률적 경사하강법 사용 (데이터를 랜덤 샘플링하여 계산GD파라미터를 업데이트하기 위해 전체 데이터셋을 모델에 통과시키고손실 값을 가중치 파라미터로 미분하여 파라미터 업데이트→ 비효율적 (메모리 한계, 학습 속도 문제)SGD전체 데이터셋에서 랜덤 샘플링하여 모델에 통과시켜 손실값 계산→ 파라미터 업데이트비복원 추출전체 데이터셋의 샘플들이 전부 모델의 통과하는 것 : 에포크한 개의 미니배치를 모델에 통과 시키는 것 : 이터레이션아래 수식은 미니배치 크기를 k라고 할 때 이터레이션, 에포크 횟수, 관계 (데이터 크키 N)미니배치는 전체 데이터셋에서 랜덤 샘플링.. 2024. 5. 10.
[cs231] SGD, SGD 모멘텀, AdaGrad, Adam 7강 Lecture7 Traning Neural NetworksContentsFancier optimizationRegularizationTransfer Learning(전이학습)SGD 방식의 문제SGD는 학습률이 고정되어있어 최적화가 비효율적임학습률이 변화할 수 있다면 처음에 큰 폭으로 이동하다가 최적해에 가까워질 수록 이동폭을 줄여서 안정적으로 수렴가능학습률이 변화할 수 있다면 처음에 큰 폭으로 이동하다가 최적해에 가까워질 수록 이동 폭을 줄여서 안정적으로 수렴할 수 있음SGD는 결국 local minima와 saddle point에 빠지기 쉽다(위 local minima, 아래 saddle point)경사가 완만하면 큰 폭으로 이동하는게 좋고, 경사가 가파를 때 천천히 이동하는게 좋음SGD Momentu.. 2024. 4. 29.
[DL] 클러스터링 클러스터링과 분류의 차이클러스터링 : 레이블 없음, 비지도 학습분류 : 레이블 있음, 지도학습클러스터링 응용 분야고객분할검색엔진이미지 분할차원 축소 : 인스턴스와 클러스터의 유사성 측정 → 인스턴스 피처 벡터를 → 유사성 벡터로 대체클러스터의 정의보편적인 정의는 없음 맥락 에 따라 결정클러스터링 알고리즘에 따른 종류특정 포인트 중심으로 유클리디안 거리 - Kmeans밀집되어있는 인스턴스들의 연속된 영영 - DBSCAN계층적인 클러스터 (HC)KMeans빠르고 효율적으로 클러스터링 가능한 알고리즘Lloyd가 제안각 덩이의 중심을 찾고 인스턴스를 가까운 덩이에 배정클러스터의 개수를 지정해줘야 함인스턴스의 레이블과 클러스터의 인덱스 혼동 주의!!! (비지도 학습)하드클러스터링 : 인스턴스를 단 하나의 클러스터.. 2024. 4. 25.
[DL] L1, L2 규제와 차원 축소 리뷰 경사하강법이란? 비용함수를 최소화하기위해 반복해서 파라미터를 조정 경사 하강법의 기본 절차 파라미터 벡터 Θ에 대해 현재 그레디언트(기울기) 계산 그레디언트가 감소하는 방향으로 파라미터 벡터 Θ 조정 그레디언트가 0이 될 때까지 반복 cf. 처음, 파라미터 Θ는 임의의 초기 값으로 시작 학습 스텝의 크기를 학습률 이라고 하고, 학습 시간과 밀접한 관계 경사 하강법의 대표적인 예시 : BGD(배치경사하강법), SGD(통계적 경사하강법) 다항 회귀 비선형 데이터 학습을 위해 선형 모델을 사용 특성의 거듭제곱을 새로운 특성으로 추가 → 선형 모델 훈련 예시) 특성이 x하나고 차수 d = 2 이면 x를 [x, x^2]으로 확장 고차 다항 회귀를 적용하면 선형 회귀보다 훨씬 더 훈련 셋에 잘 맞춤 but, .. 2024. 4. 17.
반응형