본문 바로가기
Programming 개발은 구글로/기타 정보

[WEB+AI] 25일차 Orange 3 통계 - Logistic Regression, Tree 모델

by 40대직장인 2024. 11. 15.

Orange 3 통계 - Logistic Regression, Tree 모델

 

강사: 이숙번님

 

1. Logistic Regression(로지스틱 회귀)

  : 머신러닝에 분류 문제를 해결하기 위한 알고리즘이다.

 

  - 데이터가 두 가지 범주 중 하나로 나뉘는 이진 분류(Binary Classification) 문제에 주로 사용됨   

 

  1.1. sigmoid 함수 이용

  : 선형 회귀의 결과를 시그모이드 함수에 통과시켜 0과 1 사이의 값으로 변환함.

    시그모이드 함수는 입력 값이 커질수록 출력이 1에 가까워지고, 작아질수록 0에 가까워지는 S자 형태의 곡선임.

 

 

 

 

  - 기준 값은 일반적으로 0.5 임.

 

  - cut-off value 를 0.8로 하면 0.8 밑으로는 0으로, 0.8 이상은 1로 변경됨.


시그모이드 함수 비유를 밸런스 스위치라고 생각한다면,

  • 큰 숫자는 "스위치를 켠 상태(1)"로 바꾸고,
  • 작은 숫자는 "스위치를 끈 상태(0)"로 바꿉니다.
  • 중간 숫자는 "스위치를 반쯤 켠 상태(0.5)"로 유지합니다.

 

 

 

 

  - 위의 그래프에서 0.538이 cut-off value 임.

 

  - AUC = ROC Curve의 면적, 면적이 넓을수록 좋은 모델임.

  - AUC 값으로 좀 더 좋은 모델인지 알 수 있음.(높을수록 좋은 모델)

 

  - 최적의 cut-off value를 찾기 위한 도구 ROC Curve

 

 1.2. Confusion Matrix(혼동 행렬)

  : 분류 모델의 성능을 평가하기 위해 사용되는 표 형태의 도구

 

 

 

 

 

  - TPR: Y축, FPR: X축

 

 

 

2. Tree Model

  : 데이터를 부분집합으로 데이터가 균일해지도록 분할

 

  - 분류

  : 비슷한 범주를 지닌 관측치끼리 모음

  - 예측

  : 비슷한 수치를 지닌 관측치끼리 모음

 

 

 

  - 장점

  • 주요변수 선정 용이
  • 해석의 용이성
  • 비모수적 모형

  - 단점

  • 비연속성
  • 주효과의 결여
  • 경계 근방에서 예측 오류 가능성

 

 

 

 2.1. 의사결정 나무 - 회귀모델

 

 2.2. 의사결정 나무 - 분류모델

 

 2.3. Information Gain(IG, 정보이득)

  : 특정변수를 사용했을 때의 Entropy 감소량

 

  - tree model - Entropy(높으면, 어질러져 있는 상태, 낮으면 정리정돈이 잘되어 있는 상태)

 

  - Entropy가 가장 낮을 걸 찾으면 최적의 모델임.

 


Entropy

  : 불확실성이나 예측 불가능성을 측정하는 수학적 개념으로 특히, 의사결정 트리(Decision Tree) 알고리즘에서 데이터의 혼잡도를 나타내는 지표로 자주 사용됨.

 

 

  - 엔트로피는 의사결정 트리에서 특성을 선택할 때 사용됨.

  - 목적: 엔트로피를 최소화하는 방향으로 데이터를 분리해, 정보 이득(Information Gain)을 최대화함.

 

  -> 엔트로피는 데이터의 혼잡도 또는 불확실성을 측정하는 지표


 

3. Ensemble(앙상블 모델)

 

  - 모델계의 민주주의

 

 3.1. Random Forest

  - 여러 개의 Train set을 생성하여 각 데이터마다 개별 Decision Tree 생성

  - Decision Tree 생성 시, 변수 무작위 선택

 

 

 

 3.2. Bagging

 

 3.3. Bootstraping

    : 여러 종류의 데이터 셋을 구성하여 각 데이터셋마다 모델을 생성 

  •  각 모델은 서로 다른 학습 데이터셋 이용
  • 복원 추출
  • 원래 데이터셋과 같은 크기로 샘플링
  • 개별 데이터 셋을 bootstrap set 이라고 함.

 

3.4. Aggregation

 

 

  - 값에 따라 가중치(중요한 변수인지)가 달라짐.

 

 3.5. Boosting

  - 오답에 대해 높은 가중치를 부여 - 오답에 더욱 집중

  - 정확도가 높게 나타남

  - Outlier에 취약(Over fiting?)

 

 

 - 주요 Bootsting 알고리즘

  : XGBoost, LightGBM, catboost

  - Boosting은 기본적으로 오류를 줄이는 방향으로 모델을 반복적으로 학습시키며, 각각의 학습자가 잘못 예측한 데이터를 다음 학습자가 더 잘 처리하도록 초점을 맞춤.

 

 


출처: AI Hub 교육과정 - WEB+AI (위 내용이 문제가 된다면 댓글에 남겨주세요. 바로 삭제조치하도록 하겠습니다.)

 

 

댓글