Orange 3를 이용한 데이터 사이언스 입문
강사: 생활코딩 이고잉님
1. 오렌지 3 설치
https://orangedatamining.com/download/
2. 오렌지 3 생활코딩 유튜브 채널
https://www.youtube.com/playlist?list=PLuHgQVnccGMAwnfp3Ml-XY1WNx1MPgrQ4
- 데이터 사이언스
: 데이터에서 유의미한 인사이트를 추출하고, 이를 통해 문제를 해결하거나 새로운 지식을 발견하는 학문 분야입니다.
- 통계학, 컴퓨터 과학, 머신러닝, 데이터 엔지니어링 등 다양한 분야의 기술과 방법론을 사용해 데이터의 패턴을 분석하고 예측 모델을 만들며, 이를 실제 비즈니스나 연구 문제에 적용합니다.
- 구글 스프레드 시트:
https://docs.google.com/spreadsheets/d/118Nln_zAaFKP8E2fxmqQmEWDmo1goLUzTQrIFS6or1Y/edit?gid=0#gid=0
※ 오류가 발생하지 않게 마지막 #gid=0은 제거
- 데이터 셋
: 연관된 데이터를 모아서 특정 규칙에 따라 하나의 묶음으로 만든 데이터의 집합.
- 행: 한 건의 데이터
- 열: 그 한건 데이터의 속성
개체(instance) 관측치(observed value) 행(row) = 기록(record) 사례(example) 경우(case) |
특성(feature) 열(column) = 속성(attribute) 변수(variable) field |
- Feature Constructor -> Fomula (새로운 열을 생성)
- 오렌지 3은 프로그램처럼 데이터를 조작하기가 가능하다.
- 통계
: 대푯값으로 어림짐작하고 분포로 얼마나 어림짐작했는지 확인하는 작업
- 대푯값
: 대푯값(또는 중심경향값, measure of central tendency)은 어떤 데이터를 대표하는 값이다.
- 평균(mean & average): n개의 변량을 모두 더하여 그 개수로 나누어 놓은 숫자이다.
- 중앙값(median): n개의 값을 크기 순으로 늘어놓았을 때 가장 가운데에 있는 값이다.
- 최빈값(mode): 가장 빈번하게 등장하는 값을 의미한다.
- 사분위수(Quartile): 자료를 같은 갯수를 가진 4개의 그룹으로 나누는 각각의 기준값을 *사분위수(quartile)라고 한다.
- boxplot
* 사분위수
- 1분위: 30~42
- 2분위: 42~43
- 3분위: 43~47
- 4분위: 47~58
- 표준편차: 각각의 값들이 평균으로부터 얼마나 떨어져 있는 가를 평균낸 값
-> 평균(44)으로부터 각각의 값들이 평균적으로 ±9만큼 떨어져 있음.
- ab -n 10 www.google.com 10번 접속한 Conntion Times
-> ab는 ApacheBench의 약자로, 웹 서버의 성능을 측정하기 위한 도구입니다.
-> www.google.com에 대해 총 10회의 HTTP 요청을 순차적으로 보내고, 그에 대한 응답 시간을 측정합니다.
- 상관관계
: 상관관계는 두 변수 간의 연관성을 나타내는 통계적 개념입니다.
-> 상관관계는 두 변수 간의 관계의 강도와 방향을 알려주며, 보통 -1에서 +1 사이의 값으로 표현됩니다:
- 양의 상관관계 (+): 한 변수가 증가할 때 다른 변수도 증가하는 경향이 있을 때, 양의 상관관계가 있다고 합니다. 예를 들어, 키와 몸무게의 상관관계는 양수인 경우가 많습니다.
- 음의 상관관계 (-): 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있을 때, 음의 상관관계가 있다고 합니다. 예를 들어, 주행 거리와 자동차의 연비는 음의 상관관계를 가질 수 있습니다.
- 상관관계가 0에 가까움: 상관계수가 0에 가까우면 두 변수 간에 뚜렷한 관계가 없다고 판단할 수 있습니다.
- Scatter Plot
-> 온도와 판매량은 서로 상관관계 [원인(독립변수) - 결과(종속변수) 간 상관관계, 상관관계 內 인과관계] 가 있음.
3. 오렌지 3를 이용한 머신러닝
3.1. 지도 학습
- 지도 학습을 하기 위해서는 과거의 데이터가 있어야 된다.
- 그 데이터는 원인 컬럼과 결과 컬럼으로 이루어져 있어야 한다.
- 학습으로 모델을 만든다.
- 머신러닝
- 학습할 데이터에서 독립변수, 종속변수 지정
- feature 원인
- target 결과
- meta 참고할 정보
- Linear Regression: 모델링(학습)
- Predictions: Prediction_data로 Linear Regression 모델링으로 결과 값 출력함.
# 결과
출처: AI Hub 교육과정 - WEB+AI (위 내용이 문제가 된다면 댓글에 남겨주세요. 바로 삭제조치하도록 하겠습니다.)
'Programming 개발은 구글로 > 기타 정보' 카테고리의 다른 글
[WEB+AI] 22일차 오렌지 3 통계 1/3 (1) | 2024.11.12 |
---|---|
[WEB+AI] 21일차 머신러닝 (0) | 2024.11.11 |
[WEB+AI] 19일차 사생대회 + 파이썬 (2) | 2024.11.07 |
[WEB+AI] 18일차 Web+AI 사생대회 (6) | 2024.11.06 |
[WEB+AI] 17일차 티처블 머신 활용 + 머신러닝 (5) | 2024.11.05 |
댓글