본문 바로가기
이것저것

머신러닝,딥러닝 추후 활용 이미지 정보 모음

by 문자메일 2022. 2. 18.

테이블에 쏙 들어오는 숫자 데이터는 랜덤포레스트(트리계열모델) 가장 좋음. 거의 예측하는것에 사용함
숫자이고, 데이터가 작을 때는 선형모델
센서데이터(1초에 10개 씩 나오는, 일정한 크기로 잘라서 넣어 주는 테이블 데이터)
사진(이미지, 동영상은 이미지의 연속) 데이터 처리는 CNN 쓰면 된다. 판독하는데 사용함. (양/불, 남/녀 같은 판단)
자연어처리(텍스트) - 임베딩 뭔지 알아야 함
  단어-> 공간상의 벡터(숫자)로 맵핑
  
  왜 딥러닝 모델이 동작했는지 따지지 마라! 아무도 모른다. end to end 모델로
  랜덤포레스트 - 본 적 없는(범위 밖) 데이터는 찾지 못하는 유일한 단점이 있다.
  언어처리
  트랜스포머 배운다.
  
  
  분류문제는 손실함수로 전부 크로스 엔트로피 씀
  회귀문제는 숫자 찾는 거라 MSE 쓰면 99퍼 해결
  
  
 로지스틱회귀 - (이진)분류문제 - 시그모이드 함수로 모델링(확률로 나타내기 위하여 시그모이드 함수 모델링 차용하는 것), 손실함수는 크로스 엔트로피(분류모댈은 전부 크로스 엔트로피 씀)
                  - (다중)분류문제 - 소프트맥스(분류 모델이 계산으로 얻은 선형적인 값을 확률 값으로 매핑하는데 소프트맥스가 널리 사용된다.)
 
 선형모델과 SVM 제외하고는 전부 .predict_proba()메서드로 확률도 제공한다.
 
 
 소프트맥스 : 
 
 클러스터는 1거리기반, 2밀도기반 2가지 클러스터 방식이 있다.
 
 덴드로그램 보고 눈으로 클러스터 개수 구하기
 실루엣 지수로 구하기
 
 
최적화 : 로스함수 값으로 그레디언트 디센트, 역전파

bert는 빈단어가 뭐였지 추정 , gpt는 다음 단어 추정 방식으로 학습하였음. 그래서 bert는 의미 추출, gpt 문장 생성 능력에 강하다

 

 

 

Gradient descent 원리

 

 

 

추후 딥러닝 모델 설명할 때 활용할 이미지

아래 코드의 모델을 그림으로 옮긴 것이 위 이미지이다.

댓글