본문 바로가기
AI, ML

[AI] 딥러닝(기본) - 1 - 머신러닝의 개념

by saltyzun 2020. 9. 13.

* 이 글은 김성훈 교수님의 모두를 위한 머신러닝 강의를 수강한 뒤  그 내용을 복습하고자 작성한 글입니다. *

 

1.  머신러닝의 정의

(1) Concept of [Machine Learning]

 

Arthur Samuel은 머신러닝을 아래와 같이 정의했습니다.

 

"Filed of study that gives computers the ability to learn without being explicitly programmed" 

 

이를 한국 표현으로 바꾸면, 컴퓨터로 하여금 명확하게 프로그램되지 않아도 학습할 수 있도록 연구하는 분야를 의미합니다.

그렇다면, 여기서 말하는 learning은 어떤 의미를 갖는지 이어서 살펴보겠습니다.

 

(2) Concept of [Supervised/Unsupervised learning]

 

우리는 앞서 살펴본 learning을 두가지 종류로 구분하고, 각각을 다음과 같이 정의내릴 수 있습니다.

 

  1) Supervised learning(지도학습) : learning with labeled examples(training set)

  2) Unsupervised learning(비지도학습) : un-labeled data 

 

우선, Supervised learning 이란 분류된 데이터를 주고 컴퓨터를 학습시키는 것을 의미합니다.

Machine Learning의 문제들 중 가장 흔한 것이 Supervised learning 이며, 대표적으로는 Image labeling(이미지분류)이 있을 것입니다.

우리는 사전에 컴퓨터에게 고양이 / 강아지 / 새 등으로 분류된 사진을 주어 학습시킨 뒤, 컴퓨터로하여금 새로운 사진이 어떤 동물인지 맞추게끔 할 수 있습니다.

 

반면, Unsupervised learning은 분류가 되지 않은 데이터를 주고 컴퓨터를 학습시키는 것으로, 

대표적으로 News grouping, Word clustering 등 데이터들을 분류하는 명확한 feature를 파악하기 어려울 때에 사용할 수 있습니다.

 

사담을 조금 하자면, 제가 대학에 다니던 시절 들었던 전공수업의 교수님께서 강의 첫 날 '새'를 정의해보라는 질문을 던지셨던 기억이 납니다. 교수님께서 그 질문을 하신 의도는 '새'를 다른 동물들과 구분짓는 '새'만의 특징이 무엇인지 생각해보라는 것이었습니다. 여러 대답이 나왔지만, 답은 '깃털' 이었던 걸로 기억을 합니다. 여기서 이 '깃털'이 바로 특정 객체의 feature가 아닐까 싶습니다. 수많은 데이터들 가운데 어떤 종류의 데이터는 인간이 그 feature를 쉽게 파악하고 컴퓨터에게 가르쳐줄 수 있을 것이고, 어떤 종류의 데이터는 인간조차 그 feature를 파악하기 어려워 데이터 분류가 어려울 수 있을 것입니다. 이러한 문제들이 지도학습과 비지도학습이라는 개념을 만들어내지 않았을까 생각해봅니다.

 

(3) Types of supervised learning

 

이번 글에서 마지막으로 살펴볼 것은 지도학습의 종류입니다. 지도학습에는 크게 Regression(회귀), Classification(분류) 이 있으며, 시험공부를 한 시간과 시험점수를 예로 삼아 각각의 개념을 설명하면 아래와 같습니다.

 

   1) Regression : Predicting final exam score based on time spent

   2) Binary Classification : Pass/non-pass based on time

   3) Multi-label Classification : Letter grade(A, B, C, D, Fail) based on time spent

 

첫 번째 글은 여기까지 입니다. 다음 글부터는 지도학습의 Regression(회귀) 과 Classification(분류) 에 대해 더 알아보도록 하겠습니다.

반응형

댓글