본문 바로가기
Programming 개발은 구글로/기타 정보

[WEB+AI] 22일차 오렌지 3 통계 1/3

by 40대직장인 2024. 11. 12.

오렌지 3 통계

 

강사: 이숙번님

 

1. 통계의 목적: 이해와 예측

  1. 기술 통계(이해) - 수집된 데이터의 요약과 설명 

    a. 데이터를 한 개의 대표값으로 표현하기

    b. 흩어짐의 정도로 데이터 이해하기(분포)

  2. 추론 통계(예측) - 기술 통계 결과를 기반으로 일반화, 예측, 추정

    a. 모집단표본으로 추정해보기

    b. 가설검증해가며 데이터를 파악해가기 

 

  - 기술 통계의 기초 레시피 5개

    a. 평균

    b. 표준편차

    c. 중앙값

    d. 사분위수

    e. 최빈값

 

 

 1.1. 평균

  : 보통의 값 = "최초의 예측 모델"

 

  - 집단을 잘 표현하는 하나의 숫자(대푯값)을 가짐.

  - 집단을 비교할 수 있게 됨.

 

  예제)

  • 대한민국 사람을 아무나 한 명 선택했을 때 그 사람의 키는?
  • 내일은 레모네이드가 얼마나 팔릴까? 
  • 다음 경기에 A선수를 기용하면 얼마의 득점을 할 것인가?

  -> 비교는 이해를 위한 핵심이다.

 

  - 비교(평균) 다음은? 질문이고, 질문의 답을 찾는 것이 이해(예측모델)이다.

 

 1.2. 표준편차

  : 평균으로부터의 거리, 편차들의 평균

 

  - 집단이 어떻게 분포되어 있는지를 표현하는 숫자(대푯값)입니다.

  - 집단의 분포된 정도를 비교할 수 있게 됨.

 

  예제)

  • A반에서 임의로 선택한 학생의 성적이 90점 이상일 확률은?
  • 내일 레모네이드가 10잔 이상 팔릴 확률은? 
  • A선수를 기용했을 때, 10점 미만으로 득점할 확률은?

 

 1.3. 중앙값

  : 평균의 대체재

 

  - 이상치는 평균의 대표성을 무너뜨린다.

  예제)

  [1, 2, 3, 4, 5, 7, 100] 평균: 17.42

  [1, 2, 3, 4, 5, 7, 10] 평균: 4.57

 

  - 평균이 대표값의 역활을 못할 때 중앙값을 사용함.

  - 값을 정렬한 후에 가장 가운데에 있는 값이 중앙값.

 

수식

  : 홀수 일 때 가운데 값을 가져오고, 짝수이면 가운데 값이 2개가 나오는데, 그 값의 평균.

 

 1.4. 사분위수

  : 표준편차의 보완

 

 


  - 평균표준편차

  • 통계를 떠받치고 있는 기초이다
  • 합계를 통한 요약
  • 장점: 값의 중심. 용이함
  • 단점: 이상치에 취약

 

  - 중앙값사분위수

  • 정렬을 통한 요약
  • 평균과 표준편차 약점 보완
  • 장점: 이상치에 강함
  • 단점: 편차를 충분히 설명 못함

 

 1.5. 최빈값과 빈도수

  : 최빈값은 가장 많이 등장하는 값이다.

  - 수치형이 아닌 범주형일 경우 최빈값으로 확인함.

 

  - 빈도수를 체크하여 확인함.

 


  - 데이터의 유형

  • 범주형: 카테고리를 나눔
    • 명목형 / 순서형
  • 수치형: 수량을 의미함
    • 연속형 / 이산형


 

 


 

 

  집단의 비교는 쉽지 않다.

 

 

두 개의 맛이 다른가?
MIF vs TIF(베르누이 시행)

 

두 집은 다른가?
A반 수학 평균 70점, B반 수학 평균 75

 

 

  - 질문을 확률 문제로 바꿔야 합니다.

  • 두 개의 맛은 다른가? (두 맛의 차이를 아는가?)
  • 두 집단은 다른가? 

  - 집단이 같은 모집단이면 집단의 구분은 의미가 없다.(상관관계가 없다.)

 

  - 서로 같은 모집단에서 뽑았을 확률이 적으면 상관관계가 있다.

 

 

  - 가설 검증

  • 귀무가설(null hypothesis, HO)
    • 보수적인 입장, 차이가 없다. 변화가 없다. 등등
    • p-value > 0.05 일 때 귀무가설 채택
  • 대립가설(alternative hypothesis, H1)
    • 우리가 바라는 무언가, 차이가 있다. 변화가 있다. 등등
    • p-value <= 0.05  일 때 대립가설 채택

 

  - 사건이 우연히 발생할 확률로 평가

 

  1. 아무 관계도 아닌 두 사람이
  2. 길거리에서 3번 발견되는 확률이 
  3. 5% 미만이라는 것을 확인. (p-value)

 

두 사람이 3번 발견된 사건사귀는 관계일거야. (사귀는 관계에 대해 통계적으로 유의하다.)

 


출처: AI Hub 교육과정 - WEB+AI (위 내용이 문제가 된다면 댓글에 남겨주세요. 바로 삭제조치하도록 하겠습니다.)

 

댓글