본문 바로가기
Programming 개발은 구글로/기타 정보

[WEB+AI] 24일차 오렌지 3 통계 3/3

by 40대직장인 2024. 11. 15.

오렌지 3 통계

 

강사: 이숙번님

 

 

1. 임베딩

  : 텍스트, 이미지, 오디오 등 다양한 데이터를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환하는 기술

 

2. Orage CA(전체 정확도)

 

3. KNN(k-Nearest Neighbor)

  : 분류할 데이터와 주어진 데이터의 모든 거리를 계산하여 가까운 거리의 데이터를 K개 만큼 찾은 후 그 중에서 가장 빈도수가 높을 클래스로 분류해주는 방법

 

 

  - 가까운 K개의 점, 다수 클래스

 

 ⬛ 장점

  • 데이터의 분포 형태를 고려하지 않는다.
  • 설명 변수의 개수가 많아도 무리 없이 사용 가능

 ⬛ 단점

  • 계산 시간이 오래 걸림
  • 훈련 데이터를 모델에 함께 저장
  • 해석하기 어려움

 

4. KNN 회귀

  : 새로운데이터가 들어와서 Y를 예측해야 한다면, 그것과 가장 가까운 K개의 이웃을 찾고 그 이웃들의 Y값의 평균을 내서 예측 값으로 사용한다.

 

 

  - KNN 회귀, 가까운 K개의 점들 평균

 

5. 선형회귀

  : 회귀 분석에서 에러를 바라보는 첫 번째 관점

 

 

 

 

  • SST: 평균이 설명하지 못한 오차
  • SSE: 회귀선이 설명하지 못한 오차
  • SSR: 평균이 설명하지 못한 오차 중 회귀선이 설명해낸 신호

 

 

 

 

  - Liner Regression

 

 

  - MSE가 최소가 되는 직선 수식 찾기

 

 

 5.1. R2(R Squared)

  - R2 = SSR/SST = 1 - SSE/SST

 

  - 평균이 못 잡은 에러를 회귀선이 모두 설명하면 R2 = 1이 된다.

 

 

🟦 Orange 3 실습

 

 

내용은 계속 업데이트하도록 하겠습니다.

 


출처: AI Hub 교육과정 - WEB+AI (위 내용이 문제가 된다면 댓글에 남겨주세요. 바로 삭제조치하도록 하겠습니다.)

 

 

댓글