테이블에 쏙 들어오는 숫자 데이터는 랜덤포레스트(트리계열모델) 가장 좋음. 거의 예측하는것에 사용함
숫자이고, 데이터가 작을 때는 선형모델
센서데이터(1초에 10개 씩 나오는, 일정한 크기로 잘라서 넣어 주는 테이블 데이터)
사진(이미지, 동영상은 이미지의 연속) 데이터 처리는 CNN 쓰면 된다. 판독하는데 사용함. (양/불, 남/녀 같은 판단)
자연어처리(텍스트) - 임베딩 뭔지 알아야 함
단어-> 공간상의 벡터(숫자)로 맵핑
왜 딥러닝 모델이 동작했는지 따지지 마라! 아무도 모른다. end to end 모델로
랜덤포레스트 - 본 적 없는(범위 밖) 데이터는 찾지 못하는 유일한 단점이 있다.
언어처리
트랜스포머 배운다.
분류문제는 손실함수로 전부 크로스 엔트로피 씀
회귀문제는 숫자 찾는 거라 MSE 쓰면 99퍼 해결
로지스틱회귀 - (이진)분류문제 - 시그모이드 함수로 모델링(확률로 나타내기 위하여 시그모이드 함수 모델링 차용하는 것), 손실함수는 크로스 엔트로피(분류모댈은 전부 크로스 엔트로피 씀)
- (다중)분류문제 - 소프트맥스(분류 모델이 계산으로 얻은 선형적인 값을 확률 값으로 매핑하는데 소프트맥스가 널리 사용된다.)
선형모델과 SVM 제외하고는 전부 .predict_proba()메서드로 확률도 제공한다.
소프트맥스 :
클러스터는 1거리기반, 2밀도기반 2가지 클러스터 방식이 있다.
덴드로그램 보고 눈으로 클러스터 개수 구하기
실루엣 지수로 구하기
최적화 : 로스함수 값으로 그레디언트 디센트, 역전파
bert는 빈단어가 뭐였지 추정 , gpt는 다음 단어 추정 방식으로 학습하였음. 그래서 bert는 의미 추출, gpt 문장 생성 능력에 강하다
Gradient descent 원리
추후 딥러닝 모델 설명할 때 활용할 이미지
'이것저것' 카테고리의 다른 글
넥슨 재팬(일본) 주식 실시간 호가 확인하는 방법 (0) | 2022.02.20 |
---|---|
개인적인 게임주 모멘텀(재료, 월 별) 및 매수 전략 정리 (0) | 2022.02.20 |
[애드센스 승인 시도] 애드센스 광고코드 삽입 방법 (1) | 2022.02.17 |
깃 명령어 정리 (0) | 2022.02.08 |
주식 관심종목 (0) | 2020.12.06 |
댓글