* 이 글은 김성훈 교수님의 모두를 위한 머신러닝 강의를 수강한 뒤 그 내용을 복습하고자 작성한 글입니다. *
- 앞 장의 내용 요약 -
- Linear Regression 의 Hypothesis
H(x) = Wx + b
- Linear Regression 의 Cost function
- How to minimie cost? Gradient Descendent Algorithm!
3. 다중선형회귀(Multiple Linear Regression)
(1) Multi - variable/feature
앞서, 하나의 변수를 이용한 Linear Regression에 대해서 알아보았다. 그러나 실제상황에서는 하나 보다는 여러개의 변수가 결과에 영향을 미치는 경우가 많다. 예컨대, 주택가격의 경우 방의 개수, 지하철역과의 거리, 학교와의 거리, 한강에 인접했는지 여부(인접했으면 1, 아니라면 0), 인접한 상점의 수 등 다양한 변수에 의해 결정될 것이다. 이번 장에서는 위와 같은 문제를 다뤄 볼 수 있는 다중선형회귀(Multiple Linear Regression)에 대해 알아보자.
(2) Hypothesis / Cost function
다중선형회귀(Multiple Linear Regression)의 Hyptothesis를 정의해보자. 기존의 단순선형회귀(Simple Linear Regression)과 달리 여러개의 독립변수와 종속변수 간의 관계를 표현하기 위해서는 아래와 같은 Hypothesis function이 필요하다.
그러나, 이와 같은 방정식을 그대로 사용하는 것에는 큰 불편이 따른다. 예시로 든 문제에서는 주택가격에 영향을 미치는 feature가 4개에 불과하지만 수백개 수천개의 feature가 결과에 영향을 미치는 경우에는 일일이 다항식 형태로 정의하고 계산하는 것이 번거롭기 때문이다(테이블의 모든 데이터를 일일이 코드로 작성하는 상황을 생각해보면 된다).
따라서 이를 좀 더 효율적이고 간결하게 처리하기 위해 Matrix 와 Matrix의 곱을 사용해 아래와 같이 가설을 정의할 수 있다. Matrix를 사용하게 되면 실제 다중선형회귀 프로그래밍 시 훨씬 코드를 간결하게 작성할 수 있으며, 독립변수와 가중치의 수를 보다 직관적으로 파악할 수 있다.
그리고 이러한 다중선형회귀는 아래와 같은 비용함수를 가진다(예시는 3개의 feature를 가진 경우).
(3) 마무리
지난 글에 이어서 Linear Regression의 한 종류인 Multiple Linear Regression에 대해 살펴보았다.
여러개의 feature 값이 주어진 경우 Multiple Linear Regression을 이용해 다수의 feature와 종속변수 간의 관계를 설명할 수 있으며, Multiple Linear Regression의 Hypothesis는 Matrix와 Matrix production을 사용하여 표현할 수 있다.
다음글에서는 Logistic regression을 활용한 classfication에 대해 다루도록 하겠다.
'AI, ML' 카테고리의 다른 글
[NLP/Text classification] 데이콘(Dacon) 텍스트 분류 대회 도전기 (0) | 2021.10.02 |
---|---|
[AI] 딥러닝(기본) - 4 - 로지스틱회귀(Logistic Regression) (0) | 2021.01.11 |
[AI] 딥러닝(기본) - 2 - 선형회귀(Linear Regression) (0) | 2020.10.19 |
[AI] 딥러닝(기본) - 1 - 머신러닝의 개념 (0) | 2020.09.13 |
댓글