본문 바로가기
Programming 개발은 구글로/기타 정보

[WEB+AI] 26일차 Orange 3 복습

by 40대직장인 2024. 11. 18.

Orange 3 복습

 

강사: 이주화님

 

1. Orange 3 개요

  : 오렌지3는 오픈소스로 머신러닝 및 데이터 마이닝을 위한 포괄적인 구성요소(위젯) 기반 소프트웨어

 1.1. Orange 3 특징

  • 직관적 시각화 도구 제공
  • 탐색적 데이터 분석 기능 제공
  • 사용자 친화적 인터페이스 제공

 1.2. 화면 구성

  • 메뉴와 위젯 켄버스로 구성
  • 위젯은 머신러닝 워크플로우를 구성하기 위한 도구로 구성
  • 캔버스는 드래그하여 위젯을 올려놓고 워크플로우를 구성

 

2. Orange 3 실습

 2.1. 이직할 직원 예측하기

  - 모델링할 데이터로 학습을 시킨 후 적용할 데이터로 예측하기. 

 

 

  - Confusion Matrix 및 Predictions로 결과 확인

 

 

 2.2. CT 사진으로 암 진단하기

  - Orange 3 - Options - add-ons - Image Analytics 를 add해야 함.

 

 

 

 

 2.3. 아이오와 집값 예측하기

  - 주관식 예측

  - Yes, No가 아닌 숫자 자체를 예측하기

  - Preprocess로 결측치 값 채우기(평균 및 최빈값으로 채움)

 

 

 

 

 2.4. Clustering: 쇼핑몰 고객 세분화하기

  2.4.1. Clustering(군집화)

    - 데이터를 속성이 유사한 것끼리 모아 분류하는 기법
    - 대표적인 비지도 학습 방법

    - k-Means는 Clustering에서 자주 사용하는 대표적인 모델이다.

 

  - 시각화(Scatter Plot)

 

 

  - Recluster(Box Plot)

 

 

  - 다차원 척도법(MDS, Multidimensional Scaling)

 

 

 2.5. 동물(개, 고양이, 호랑이) 구분하기

  - 비지도 학습으로 개와 고양이를 섞어서 보여주고 Clustering으로 구분

 

 

 

 

 

 2.6. 고객 예측 Association Rule: 구매할 상품 예측하기

  2.6.1. 장바구니 분석

    - 흔히 장바구니 분석이라고 알려져 있는 고객 선택 예측, Association Rule이라 하며 연관규칙분석이라고도 표현한다.

    - 여러 데이터 사이의 연관성을 찾아 고객의 선택을 예측하는 분석법이다.

    - 유튜브나 넷플릭스의 콘텐츠 추천, 포털 사이트의 당신이 좋아할 뉴스, 인터넷 쇼핑몰의 상품 추천과 같은 개인화 추천 서비스들의 구현에도 활용될 수 있는 유용한 분석방법이다.

 

 

  - 상품도 많고 거래도 많으면 발생 빈도나 비중이 그렇게 높지 않기 때문에 1% 혹은 0.1%와 같이 숫자를 낮게 설정한다.

  • 제일 위 Eggs=1이란 달걀을 구매한 경우이며 거래가 167회 이루어졌고, 전체 거래의 13.25%에 달하는 빈도를 가지고 있다는 뜻이다.
  • 그 아래 줄을 보면 White Bread=1이라고 되어 있는데, 이건 흰빵을 산 거래이다. 그런데 달걀과 수직으로 나란히 되어 있지 않고 오른쪽으로 한칸 들어가 있다. 이것은 and를 뜻하는 것으로 그냥 흰삥만 산 경우가 아니라 달걀을 사고 흰빵도 산 경우가 75회, 전체 거래의 5.952% 비중이라는 것이다.
  • 그 아래 줄 Sweet Relish=1 이라는 부분도 역시 오른쪽으로 한 칸 들어가 있으므로 달걀을 사고 흰빵도 사고 달콤한 소스까지 산 경우가 36회, 전체 거래의 2.857% 비중이라는 뜻이다.
  • 그 아래 줄 Tooth Paste=1 부분은 오른쪽으로 한칸 들어가지 않고, Sweet Relish=1과 수직으로 나란히 되어 있다. 그러면 달콤한 소스를 산 거래와 이어지는게 아니고 그 위 거래와 이어지는 것이다. 즉, 달걀을 사고 흰빵도 사고 치약도 산 경우가 44회, 전체 거래의 3.492% 비중이라는 뜻이다.

 

  • 자주 같이 사는 상품 정도가 아니라 A상품을 샀을 때 B 상품을 살 확률 등을 알아 보자.
  • Association Rules 아이콘을 불러온 후 더블클릭한다.
  • Minimal Support는 1%로 한다.
  • Minimal confidence는 예측의 확률, 예측의 강도를 의미하며 "A 상품 사면 B 상품 살 확률"이 100%인지 90%인지 정보를 설정하는 것이다.
  • Antecedent는 조건으로 "만약 달걀을 사면~~" 이 부분이다. Antecedent 쪽에 98pct. Fat Free Hambegger=1, Wheat Bread=1 이렇게 적혀 있는 건, "98% 무지방 햄버거와 호밀빵을 사는 고객은~~"이라는 뜻이다.
  • 그 오른쪽 Consequent는 결과 즉 예측이다. White Bread=1 이라는 건 "흰 빵도 산다" 는 뜻이다. 조건 Antecedent 부분과 합쳐서 읽으면 "98% 무지방 햄버거와 호밀빵을 사는 고객은 흰빵도 산다"라고 알려주는 것이다.
  • 왼쪽의 Conf(confidence) 숫자가 0.900이라는 것은 90%의 확률을 가진다는 뜻이다.
  • 왼쪽의 Lift 항목은 1보다 크면 클수록 의미 있는 규칙이며 1보다 작으면 의미 없는 규칙이 된다.
  • Cover(Coverage), Strg(Strength), Levr(Leverage)는 굳이 참고하지 않아도 되는 지표이다.
  • 따라서 Support, Confidence, Lift만으로 충분히 규칙을 평가할 수 있다.

 

 2.7. 텍스트 마이닝

  2.7.1. 워드클라우드

    : 워드클라우드는 문서에 언급된 단어의 출현 빈도를 바탕으로 단어를 시각화하는 기법이다.

 

 

※뉴스 기반 통계 검색 서비스

https://data.kostat.go.kr/social/keyword/index.do#

 

 

  2.7.2. 데이터 전처리(Text Preprocessing)

   2.7.2.1 단어 토큰화

  • 데이터 전처리가 필요한 이유는 문서에서 단어를 띄어쓰기 기준으로 정리하는 것만으로 충분하지 않기 때문이다
  • 띄어쓰기를 기준으로 단어를 추출

   7.2.2 정규화(Normalization)

  • 문서에서 단어를 추출한 후 같은 의미의 단어를 묶어 주는 정규화
  • 아무런 의미가 없는 단어를 정제도 수행

   7.2.3. 불용어(Stopword)

  • 직접 데이터를 보고 의미가 없는 단어를 제거
  • 문서를 정제할 때 의미가 없는 단어는 '아' 또는 '어'와 같은 무의미한 단어이고, 여기서 의미가 없는 단어는 출현빈도는 높지만 분석할 가치가 없는 단어

   7.2.4. 정규 표현식(Regular Expression)

  • 정규 표현식으로 특정 규칙에 해당하는 단어를 제거

 

 

 

 

  - 데이터 전처리 후

 

  

 

  - Orange 3 - Proprocess Text는 한글 최적화가 안되어 있음.

 


출처: AI Hub 교육과정 - WEB+AI (위 내용이 문제가 된다면 댓글에 남겨주세요. 바로 삭제조치하도록 하겠습니다.)

 

 

댓글