가. 파이썬
1. 문법
2. flask (json 리턴)
3. mariaDB -> CRUD
나. 데이터 수집
- IoT 못함
- DB에 있는 것 가져오기 (가능)
- 공공데이터 가져오기 (가능)
- 크롤링
다. 데이터 저장
DB에 저장
무조건 null 허용!!
라. 데이터 전처리
- 필요한 데이터와 필요없는 데이터 분리 (컬럼 분리)
- 종속적인 데이터 (내가 지금 분석하려는 주제와 관련된 컬럼만 뽑아옴)
- 결측값 제거 (null 제거 / 남자, 여자 -> 0, 1 숫자로 변경 등등)
- pandas, numpy 라이브러리 사용
마. 크로스 밸리데이션
- 훈련 데이터와 테스트 데이터 분리
분석한 데이터 팩트 알고리즘 => 모델 (사이킷런 라이브러리)
50kg 이상 + 길이 50cm 이상 -> 품질 A
50kg 미만 + 길이 50cm 미만 -> 품질 B
실제 데이터 전문가 분석
35kg + 24cm -> 품질 B! (모델 품질 B)
50kg + 60cm -> 품질 A! (모델 품질 A)
60kg + 30cm -> 품질 A! (모델 품질 ?)
위 모델을 보고서는 품질 분석을 할 수 없다. -> 모델 다시 만들어야겠다.
팩트 데이터가 없으면 모델 데이터가 맞는지 아닌지 분석을 할 수 없다.
팩트 데이터 준비 (35kg + 24cm, 50kg + 60cm, 60kg + 30cm), (B, A, A)
(1) 훈련 데이터 준비 (35kg + 24cm, 50kg + 60cm), (B, A)
(2) 테스트 데이터 준비 (60kg + 30cm), (B) 무조건 팩트 데이터 중 하나를 돌려보는 것
바. 분석 (라이브러리 선택)
-> 60kg + 30cm 결과 ->B
정답 -> A
-> 정답률 0프로
테스트 데이터가 70개가 맞고 30개가 틀렸으면 정답률 70프로
우리는 사실 데이터를 기반으로 분석하는데
딥러닝은 사실 데이터가 없다.
맞았는지 틀렸는지 어떻게 알까?
전문가가 보고 틀렸는지 체크 -> 틀린 데이터 저장 -> 강화학습(스스로 틀린 데이터를 저장하여 학습) = 딥러닝
딥러닝을 할 때 사용하는 라이브러리 : 뉴럴 네트워크