본문 바로가기

데이터분석 공부하기18

ERD 그릴 때 주의해야 할 사항 안녕하세요 고공입니다. 오늘부터 10월이 시작됐으니까 저번 글에 보신 분들은 아마 아실 수도 있을 거라고 생각합니다. 제가 어제부로 한 프로젝트가 끝났습니다!! 와아아아 🙌 사실 너무 기뻐요. 프로젝트하는동안 야근도 정말 많이 했고, 주말출근도 많이 했어서 기억에 남을 프로젝트가 될 것 같습니다. 그리고 DB도 직접 다뤄보고 설계도 발가락 살짝 담가보니까 아직도 제가 알아야 할 영역들이 많이 남아있어서 공부를 더더더 많이 해야겠다는 생각도 했습니다. 이번 프로젝트 기간 끝자락에서 ERWIN 프로그램을 이용해서 ERD를 많이 다뤄봤는데요, 써보면서 주의해야 할 점이나 공부했던 점을 이번 글을 통해 간단히 살펴볼 계획입니다. 1. 기본키 선정 제가 해야 했던 일 중 하나는 기존의 테이블들을 합쳐 하나의 데이.. 2022. 10. 2.
선형판별분석 LDA 이해하기 안녕하세요 고공입니다 :) 곧있으면 제가 4월부터 시작한 프로젝트가 9월 말에 마무리가 되는데요, 이후 바로 새로운 프로젝트에 투입이 됩니다. 곧 있을 새로운 프로젝트에는 선형모델을 적용해야 합니다. 이를 위해 선형 모델에 대해 공부해볼까합니다. 제 블로그에 선형 회귀, 다항 회귀, 로지스틱 회귀에 대해 공부한 것이 있으니 이번에는 LDA에 대해 선형대수를 곁들여서 정리하고자 합니다. 이론 중심이라 정리하는 것도 어려웠지만 개념 맛보기 정도로 생각하시면 될 것 같습니다! 1. LDA이란? LDA는 Linear Discriminant Analysis으로 우리말로는 선형판별분석이라고 합니다. LDA는 전통적인 선형 학습법으로 PCA와 마찬가지로 차원 축소 방법 중 하나입니다. 어떤 데이터 셋을 공간으로 투영.. 2022. 9. 18.
클러스터형 인덱스와 보조 인덱스 안녕하세요 고공입니다:) 실무에서 SQL를 많이 사용하는데 그때그때 알고 넘어가기엔 나중에 잊어버릴 것 같아서 정리를 해야 겠다는 생각이 들었습니다. 그래서 이번 시간은 해당 책을 참조해 SQL의 인덱스에 대해 정리를 해보려고 합니다. 실무에서 사용되는 데이터베이스는 굉장히 많은 데이터가 있고, 용량조차도 큰 데이터베이스에서 정보를 추출할 경우 많은 시간이 소요된다는 것은 다들 알고 계실 겁니다. 이러한 문제점을 해결해 주는게 바로 인덱스입니다. 그렇다면 인덱스에 대해 더 자세히 알아볼까요? 인덱스는 SELECT를 사용해서 테이블을 조회할 때 결과를 빠르게 추출하도록 도와주는 기능입니다. 실무에서는 현실적으로 인덱스 없이 데이터베이스 운영이 불가능할 정도로 인덱스는 데이터를 빠르게 찾을 수 있도록 도와주.. 2022. 8. 21.
로지스틱 회귀 해당 글은 코드잇을 통해서 공부한 내용을 정리한 글입니다. 선형 회귀를 이용해서 분류를 할 수 있긴 하지만, 선형 회귀를 예외적인 데이터에 너무 민감하게 반응한다는 단점이 있습니다. 그래서 분류를 할 때는 선형 회귀 대신 '로지스틱 회귀', 영어로는 'Logistic Regression'을 사용합니다. 1. 가설 함수 선형 회귀는 데이터에 가장 잘 맞는 일차 함수를 찾는다면 로지스틱 회귀는 데이터에 가장 잘 맞는 시그모이드 함수를 찾습니다. 2. 로그 손실 함수 로그 손실 로지스틱 회귀 손실 함수 로그 손실 공식 대입 후 아래와 같이 정리할 수 있습니다. 3. 경사 하강법 : 손실 함수를 세타에 대해 편미분하고 그 결과에 학습률 알파를 곱합니다. 그리고 그 결과를 기존 세타_0에서 빼면 됩니다. 그렇게 .. 2022. 3. 21.
다항 회귀 해당 글은 코드잇에서 공부 내용을 토대로 정리한 글입니다 :) 1. 다항회귀란? :일차 함수나 직선이 아닌 고차식(다항식이나 곡선)을 구해서 학습하는 것입니다. 영어로는 polynomial regression. 2. 단일 속성, 다중 속성 - 속성이 하나인 경우 :만약 가설 함수가 삼차항이라고 한다면 제곱한 것과 세제곱한 것을 가상 열로 추가해 다중 선형 회귀 문제로 풀면 됩니다. - 속성이 많고 다항 회귀인 경우 : 가능한 경우의 수로 가상의 열을 추가하고, 이 새로운 열들을 마치 입력 변수처럼 취급해서 다중 선형 회귀로 문제를 풀면 됩니다. 예를 들어, 가설 함수가 이차항이라면 상수항+일차항+이차항인 총 9개 항으로 다중 선형 회귀 문제로 풉니다. 3. 다항 회귀가 필요한 이유 집 값 예측을 예시로 .. 2022. 3. 17.
선형 회귀 해당 글은 코드잇에서 공부한 내용을 정리한 글입니다. 1. 선형회귀 & 용어 : 데이터를 가장 잘 대변해 주는 선을 찾아내는 방법입니다. 이 데이터에 가장 적절한 하나의 선을 찾아내는 것입니다. 이 최적선을 이용해 새로운 입력 변수에 대한 목표 변수를 예측할 수 있습니다. 위 사진처럼 집 크기가 주어졌을 때, 선형회귀식을 이용해서 집 값을 예측하는 것입니다. 2. 가설 함수 그러면 최적선을 찾아내기 위해 다양한 함수를 시도해 봐야 하는데 우리가 시도하는 이 함수 하나하나를 '가설 함수'라고 부릅니다. y=ax+b 형태로 표현됩니다. 결국 계수 a와 상수 b를 찾아내야 하는 게 우리의 목표인 셈이죠. 가설 함수 표현법 수식으로는 보통 이렇게 표현합니다. 그렇다면 저희 목표를 다시 정리하자면 가장 적절한 세.. 2022. 3. 17.