파이썬 5강. 앞으로

가. 파이썬

1. 문법

2. flask (json 리턴)

3. mariaDB -> CRUD

나. 데이터 수집

- IoT 못함

- DB에 있는 것 가져오기 (가능)

- 공공데이터 가져오기 (가능)

- 크롤링

다. 데이터 저장

DB에 저장

무조건 null 허용!!

라. 데이터 전처리

- 필요한 데이터와 필요없는 데이터 분리 (컬럼 분리)

- 종속적인 데이터 (내가 지금 분석하려는 주제와 관련된 컬럼만 뽑아옴)

- 결측값 제거 (null 제거 / 남자, 여자 -> 0, 1 숫자로 변경 등등)

- pandas, numpy 라이브러리 사용

마. 크로스 밸리데이션

- 훈련 데이터와 테스트 데이터 분리

분석한 데이터 팩트 알고리즘 => 모델 (사이킷런 라이브러리)

50kg 이상 + 길이 50cm 이상 -> 품질 A

50kg 미만 + 길이 50cm 미만 -> 품질 B

실제 데이터 전문가 분석

35kg + 24cm -> 품질 B! (모델 품질 B)

50kg + 60cm -> 품질 A! (모델 품질 A)

60kg + 30cm -> 품질 A! (모델 품질 ?)

위 모델을 보고서는 품질 분석을 할 수 없다. -> 모델 다시 만들어야겠다.

팩트 데이터가 없으면 모델 데이터가 맞는지 아닌지 분석을 할 수 없다.

팩트 데이터 준비 (35kg + 24cm, 50kg + 60cm, 60kg + 30cm), (B, A, A)

(1) 훈련 데이터 준비 (35kg + 24cm, 50kg + 60cm), (B, A)

(2) 테스트 데이터 준비 (60kg + 30cm), (B) 무조건 팩트 데이터 중 하나를 돌려보는 것

바. 분석 (라이브러리 선택)

-> 60kg + 30cm 결과 ->B

정답 -> A

-> 정답률 0프로

테스트 데이터가 70개가 맞고 30개가 틀렸으면 정답률 70프로

우리는 사실 데이터를 기반으로 분석하는데

딥러닝은 사실 데이터가 없다.

맞았는지 틀렸는지 어떻게 알까?

전문가가 보고 틀렸는지 체크 -> 틀린 데이터 저장 -> 강화학습(스스로 틀린 데이터를 저장하여 학습) = 딥러닝

딥러닝을 할 때 사용하는 라이브러리 : 뉴럴 네트워크

저작자표시