본문 바로가기

스터디 정리23

주성분 분석(PCA) 매일 다양한 데이터들이 수집되고 저장되어가고 있습니다. 하지만 너무 많은 데이터들이 수집되면 이를 담고 있는 저장 공간이 부족할 겁니다. 나중에 군집이나 분류에 영향을 끼치지 않으면서 어떻게 하면 데이터 용량을 줄일 수 있을까요? 지금까지 데이터가 가진 속성을 특성이라고 했습니다. 10,000개의 픽셀을 가진 이미지의 경우 10,000개의 특성이 있는 셈이죠. 머신러닝에서는 이런 특성을 차원이라고 부릅니다. 그렇다면 10,000차원을 가지고 있는데 이를 줄일 수 있다면 저장 공간을 크게 절약할 수 있을 것입니다. 이를 위해 비지도 학습 작업 중 하나인 차원 축소 알고리즘을 다루어 볼려고 합니다. 그중 대표적인 알고리즘인 주성분 분석을 정리해보도록 하겠습니다. 주성분 분석(PCA) : PCA라고도 불리며,.. 2023. 2. 14.
혼자 공부하는 머신러닝+딥러닝 5주차 5주차 미션: k-평균 알고리즘 작동 방식 설명하기 & Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기 k-평균 알고리즘 : 랜덤하게 클러스터 중심을 정하고 클러스터를 만듭니다. 그 다음 클러스터의 중심을 이동하고 다시 클러스터를 만드는 것을 반복해서 최적의 클러스터를 구성합니다. 클러스터 중심 : 센트로이드라고도 부르며 k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값입니다. 엘보우 : 클러스터 개수를 늘려가면서 이너셔의 변화를 관찰하여 최적의 클러스터 개수를 정하는 방법 중 하나입니다. 이너셔 감소가 꺾이는 지점이 적절한 클러스터 개수 k가 될 수 있습니다. 이너셔 : 클러스터 중심과 샘플 사이 거리의 제곱 합니다. 이너셔는 클러스터에 속한 샘플이 얼마나 가깝게 모여 있는지를 나.. 2023. 2. 10.
혼자 공부하는 머신러닝+딥러닝 4주차 4주차 미션: Chapter 05 교차 검증을 그림으로 설명하기 & Ch.05(05-3) 앙상블 모델 손코딩 코랩 화면 인증하기 보통 많은 데이터를 훈련에 사용할수록 좋은 모델이 만들어집니다. 그렇다고 검증 세트를 너무 조금 떼어놓으면 검증 점수가 불안정해질 것입니다. 이럴 때 교차 검증을 이용하면 안정적인 검증 점수를 얻고 훈련에 더 많은 데이터를 사용할 수 있습니다. 바로 아래 그림처럼 말이죠. 교차 검증은 검증 세트를 떼어 내어 평가하는 과정을 여러 번 반복합니다. 그다음 이 점수를 평균하여 최종 검증 점수를 얻게 됩니다. 위 그림은 3-폴드 교차 검증 그림입니다. 훈련 세트를 세 부분으로 나눠서 교차 검증을 수행하는 것이죠! 2023. 2. 3.
확률적 경사 하강법(Stochastic Gradient Descent) 확률적 경사 하강법(Stochastic Gradient Descent) : 훈련 세트에서 랜덤하게 또 다른 샘플을 선택해 가파른 경사를 조금씩 내려가는 학습 알고리즘. 에포크(epoch) : 확률적 경사 하강법에서 훈련 세트를 한 번 모두 사용하는 과정. 1에폭이라고 함 미니배치 경사 하강법(minibatch gradient descent) : 여러 개의 샘플을 사용해 경사 하강법을 수행하는 방식. 실전에서 아주 많이 사용. 배치 경사 하강법(batch gradient descent) : 전체 샘플을 사용해 경사 하강법을 수행하는 방식. 데이터가 너무 많을 경우 전체 데이터 모두 읽을 수 없을 수도. 손실 함수(loss function) : 머신러닝 알고리즘이 얼마나 엉터리인지 측정하는 기준. 손실 함수.. 2023. 1. 31.
혼자 공부하는 머신러닝+딥러닝 3주차 3주차 미션: Ch.04(04-1) 2번 문제 풀고, 풀이 과정 설명하기 & Ch.04(04-2) 과대적합/과소적합 손코딩 코랩 화면 캡처하기(선택) [확인문제 2.] 로지스틱 회귀가 이진 분류에서 확률을 출력하기 위해 사용하는 함수는 시그모이드 함수입니다. 시그모이드 함수: 선형 방정식의 출력을 0과 1 사이의 값으로 압축하며 이진 분류를 위해 사용합니다. 소프트맥스 함수: 다중 분류에서 여러 선형 방적식의 출력 결과를 정규화하여 합이 1이 되도록 합니다. 2023. 1. 17.
혼자 공부하는 머신러닝+딥러닝 2주차 2주차 미션: Ch.03(03-1) 2번 문제 출력 그래프 인증하기 & 모델 파라미터에 대해 설명하기 2. k-최근접 이웃 회귀 모델의 k 값을 1, 5, 10으로 바꿔가면서 훈련해보기. 그다음 농어의 길이를 5에서 45까지 바꿔가며 예측을 만들어 그래프로 나타내보기. knr = KNeighborsRegressor() x = np.arange(5, 45).reshape(-1, 1) # n = 1, 5, 10일 때 예측 결과를 그래프로 그리기 for n in [1, 5, 10]: knr.n_neighbors = n knr.fit(train_input, train_target) prediction = knr.predict(x) plt.scatter(train_input, train_target) plt.pl.. 2023. 1. 10.