본문 바로가기
Programming 개발은 구글로/기타 정보

[WEB+AI] 20일차 Orange 3를 이용한 데이터 사이언스 입문

by 40대직장인 2024. 11. 8.

Orange 3를 이용한 데이터 사이언스 입문

 

강사: 생활코딩 이고잉님

 

1. 오렌지 3 설치

https://orangedatamining.com/download/

 

2. 오렌지 3 생활코딩 유튜브 채널

https://www.youtube.com/playlist?list=PLuHgQVnccGMAwnfp3Ml-XY1WNx1MPgrQ4

 

  -  데이터 사이언스

  : 데이터에서 유의미한 인사이트를 추출하고, 이를 통해 문제를 해결하거나 새로운 지식을 발견하는 학문 분야입니다.

 

  - 통계학, 컴퓨터 과학, 머신러닝, 데이터 엔지니어링 등 다양한 분야의 기술과 방법론을 사용해 데이터의 패턴을 분석하고 예측 모델을 만들며, 이를 실제 비즈니스나 연구 문제에 적용합니다.

 

 

  - 구글 스프레드 시트: 

   https://docs.google.com/spreadsheets/d/118Nln_zAaFKP8E2fxmqQmEWDmo1goLUzTQrIFS6or1Y/edit?gid=0#gid=0

   ※ 오류가 발생하지 않게 마지막 #gid=0은 제거

 

  - 데이터 셋

  :  연관된 데이터를 모아서 특정 규칙에 따라 하나의 묶음으로 만든 데이터의 집합.

 

  • 행: 한 건의 데이터
  • 열: 그 한건 데이터의 속성
                                개체(instance)
                                관측치(observed value)
행(row)       =           기록(record)
                                사례(example)
                                경우(case) 
                                특성(feature)
열(column)  =          속성(attribute)
                                변수(variable)
                                 field

 

 

  - Feature Constructor -> Fomula (새로운 열을 생성)

 

  - 오렌지 3은 프로그램처럼 데이터를 조작하기가 가능하다.

 

 

 

  - 통계

  : 대푯값으로 어림짐작하고 분포로 얼마나 어림짐작했는지 확인하는 작업

 

  - 대푯값

  : 대푯값(또는 중심경향값, measure of central tendency)은 어떤 데이터를 대표하는 값이다. 

  • 평균(mean & average): n개의 변량을 모두 더하여 그 개수로 나누어 놓은 숫자이다.
  • 중앙값(median):  n개의 값을 크기 순으로 늘어놓았을 때 가장 가운데에 있는 값이다.
  • 최빈값(mode): 가장 빈번하게 등장하는 값을 의미한다.
  • 사분위수(Quartile): 자료를 같은 갯수를 가진 4개의 그룹으로 나누는 각각의 기준값을 *사분위수(quartile)라고 한다.

  - boxplot

 

 

* 사분위수

  • 1분위: 30~42
  • 2분위: 42~43
  • 3분위: 43~47
  • 4분위: 47~58

 

  - 표준편차: 각각의 값들이 평균으로부터 얼마나 떨어져 있는 가를 평균낸 값

    -> 평균(44)으로부터 각각의 값들이 평균적으로 ±9만큼 떨어져 있음.

 

  - ab -n 10 www.google.com  10번 접속한 Conntion Times

    -> ab는 ApacheBench의 약자로, 웹 서버의 성능을 측정하기 위한 도구입니다.

    ->  www.google.com 대해 총 10회의 HTTP 요청을 순차적으로 보내고, 그에 대한 응답 시간을 측정합니다.

 

  - 상관관계

    : 상관관계는 두 변수 간의 연관성을 나타내는 통계적 개념입니다.

    -> 상관관계는 두 변수 간의 관계의 강도와 방향을 알려주며, 보통 -1에서 +1 사이의 값으로 표현됩니다:

  • 양의 상관관계 (+): 한 변수가 증가할 때 다른 변수도 증가하는 경향이 있을 때, 양의 상관관계가 있다고 합니다. 예를 들어, 키와 몸무게의 상관관계는 양수인 경우가 많습니다.
  • 음의 상관관계 (-): 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있을 때, 음의 상관관계가 있다고 합니다. 예를 들어, 주행 거리와 자동차의 연비는 음의 상관관계를 가질 수 있습니다.
  • 상관관계가 0에 가까움: 상관계수가 0에 가까우면 두 변수 간에 뚜렷한 관계가 없다고 판단할 수 있습니다.

 

  - Scatter Plot

< 양의 상관관계 >

 

  -> 온도와 판매량은 서로 상관관계 [원인(독립변수) - 결과(종속변수) 간 상관관계, 상관관계 內 인과관계] 가 있음.

 

 

3. 오렌지 3를 이용한 머신러닝

 

 

 3.1. 지도 학습  

  1. 지도 학습을 하기 위해서는 과거의 데이터가 있어야 된다.
  2. 그 데이터는 원인 컬럼과 결과 컬럼으로 이루어져 있어야 한다.
  3. 학습으로 모델을 만든다.

 

  - 머신러닝

 

 

 

  - 학습할 데이터에서 독립변수, 종속변수 지정

  • feature 원인 
  • target 결과 
  • meta 참고할 정보

  

 

 

  • Linear Regression: 모델링(학습)
  • Predictions: Prediction_data로 Linear Regression 모델링으로 결과 값 출력함.

 

# 결과

 


출처: AI Hub 교육과정 - WEB+AI (위 내용이 문제가 된다면 댓글에 남겨주세요. 바로 삭제조치하도록 하겠습니다.)

 

 

댓글