빛의 블로그

2021년 3월 31일 수요일

AITech P-stage1 [Day 3] epoch는 적당히

================================

수업내용

어떤게 더 사용하기 편리하고, 어떤게 더 개조하기 좋겠는가?

tensorflow는 간단해서 사용하기 편리하게 만들었지만 공부하고 연구하는 거는 pytorch가 더 좋게 만듬. 철학이다.

모든 모듈들은 최종적으로 _ConvNd(Module)을 가진다. 내가 MyModel 안에서 정의한 nn.Conv2d들도, 내가 정의한 MyModel 자체도 모두..

그래서 모두 하나의 클래스로 정의되어 있기 때문에 위에 쌓고 위에 쌓고 분리되고 합쳐지고.. 하는 여러 자유로운 방식으로 구성되고 데이터를 주고받을 수 있는 것이다.

모두 같은 클래스를 가지게 된다는건 모두 같은 함수를 가지고 있다는 뜻. 즉 forward 하나만 실행하면 알아서 하위들의 모든 클래스에서 서로 각각의 forward들을 서로 실행하기 때문에 구성이 자유롭다는 것이다.

이건 pytorch 때문이기 보다는 python이기에 가질 수 있는 pythonic한 특징인데, 모든 모듈과 그에 해당하는 weight들을 dict 형식으로 저장하기 때문에 파라미터들을 그대로 불러올 때 그 불러와지는 모델의 구조를 알고 있으면 정확히 빼올 수 있다. 또 dict에서 key로 이름이 저장되어 있어서 원하는 weight들만 빼오는 방식도 할 수 있는 등 여러 개조가 가능함. 이래서 pythonic의 장점이라고 한다.

state_dict과 parameters의 차이점은 state_dict은 파라미터 이름 정보까지 같이 불러오는 거고 paramters는 그렇지 않음.

미리 학습된 모델을 load_dict 같은걸로 가져올 수 있는데 특정 layer는 학습시키고 안시키고를 requires_grad 를 설정하는게 가능하다. 왜 이름이 requires_grad냐면 딥러닝 이론 배울때 경사하강법을 이용해 학습하기 때문에 해당 layer가 출력값에 대한 미분값을 가지고 있어야 해서 grad를 가지고 있어야 학습이 가능. 그래서 grad가 필요없다고 하면 어차피 그 layer는 학습 안할거니까 grad가 필요없다는 뜻.

대체로 pretraining 된 모델을 쓰는게 좋다. 다만 내가 하고있는 project의 목적에 어느정도 맞는가 안맞는가를 고려하는게 중요.

만약 사무실에서 의자를 구분한다고 하자. 다양한 object 1000개를 분류하는 것과 유사하기 때문에 backbone은 그대로 냅두고 뒤에 있는 classifier만 학습시켜도 됨. cnn backbone의 역할은 해당 물체의 특징 feature를 뽑아내는 거라고 보면 된다.

반면 구름끼리 종류를 구분하는 거라면? 아니면 자동차끼리 종류를 구분하는 거라면? cnn backbone은 대체로 저렇게 생겼으면 구름이고 바퀴랑 몸통만 있으면 자동차다 이런식으로 특징을 뽑아내도록 이미 학습되어 있기 때문에 backbone을 그대로 둔다면 잘 안될 가능성이 큼. 그럴땐 cnn backbone까지 학습시킨다.

사실 모델 목적이랑 진짜 전혀 상관이 없다해도 모든 weight를 초기화해서 바닥부터 시작해서 하는것보다는 그래도 pre-trained model에서 backbone을 바꿔가면서 하는게 성능이 잘 나온다는 여러 사람의 경험과 주장이 있다. 그래서 왠만하면 쓰는게 좋은듯.

하지만 위 모든 것들은 데이터 수가 충분히 많들때를 가정해서 말한거다. 데이터가 별로 많지 않으면 overfitting, underfitting이 될 가능성이 매우 크기 때문에 걍 하지 말자..

===========================

피어세션

adamP

그냥 구글에 쳐서 pip로 깔면 됨

gpu, delete cash로 내리는게 있다

저작권 때매 포트폴리오 못만든다고 하면 다른 공개된 외부 데이터로 해서 만들자.

=======================================

목표

어제 못한 data payload 잘 만들어서 모델에 돌리기

=================================

행동

pretrained model들은 cnn 바로 뒤에 그냥 linear로 연결해서 잘 작동해서 그대로 따라했는데 왜 자꾸 안되는지 의문이었다. 그냥 사이에 flatten 넣어줘서 해결했다.

그래서 모델로 돌려봐서 결과가 나왔는데 epoch 4, 9, 12, 16으로 돌린 결과 중 9가 가장 잘 나왔다. 이 모델은 vgg19에서 cnn의 끝자락부터만 바뀌도록 fine tuning을 해서 나온거다. 이제 할수 있는건 misson에서 나온 모델도 돌려보고 data argment도 예시 코드에서 줬으니까 이용해서 더 돌려보고 앙상블도 해보고 할 수 있겠다.

mission에 있는 형식대로 모델을 잘 짰는데 돌리면 성능이 너무 바닥이고 val의 acc이 자꾸 0이 나온다. 어제도 그랬었는데 코딩에서 생긴 버그 같다. 한번 찾아봐야겠다.

==================================================

회고

버그 찾기. linear 앞에 flatten을 꼭 붙이자. pretrained model도 사실 사이에 있지만 숨겨진거 아닐까.

2021년 3월 30일 화요일

AITech P-stage1 [Day 2] 아직도 data payload에서 막힘.

=============================

수업내용

data argumentation도 좋지만 그에따른 병목현상도 고려해야 한다.

dataset은 몇 번째 index에 해당하는 자료가 뭔지를 뽑아내는 거고, dataloader는 그걸 더 편리하게 해주는 것에 불과함. 둘을 잘 분리해야 한다.

num_workers를 무조건 늘린다고 좋은게 아니다. cpu로만 학습할 때는 과부화 뭐 그런 문제가 있는 듯. 그래서 데이터나 프로젝트, cpu코어 갯수 등.. 환경마다 고려해서 확인해주는게 좋음.

=================================

피어세션

Additionally, VGG networks are trained on images with each channel normalized by mean=[0.485, 0.456, 0.406] and std=[0.229, 0.224, 0.225]. We will use them to normalize the image before sending it into the network.

그냥 일반적으로 저렇더라. 보편적으로.

class 불균형할때 쓰는 loss

fmse loss

focal loss 좋다? invalance 해결하려고 나온거니까

entropy loss

adam

adamP

자소서 쓴거 물어보는듯.

카카오는 모든 코딩문제를 풀 정도로 문제해결력이 뛰어나거나, 코테 통과할정도로만 하고 딥러닝 지식에 대해 매우 잘 아느냐.

설명을 위해 맞춰야겠다. 주석 무조건 달아야겠다.

네이버. 인성면접. 자기소개 하나만 하고 진짜 CS, 운영체제, 알고리즘 문제, 구글에서 나왔던 면접질문(사고력을 요하는, 골프공 구멍 몇개)

어떻게 왜 썼다 당당하게 말할 수 있게. 일단 써보고 생각하는게 나을듯. 다양한 시도=

=====================================

목표

어제 했던걸 기반으로 data argumentation 이런거 생각하지말고 간단하게 통과시켜 결과를 보고 조금씩 추가하고 수정하는 방식으로 하자.

============================

행동

기존 vgg19 모델에서 내가 원하는 뒷부분만 학습시키게 다 만들었는데 모델에 입력 이미지가 안들어간다. 지금 성질나서 글 못쓰겠다.

내가 어떤 변수에 어떤 경로변수를 저장했는지 잘 인지해야 겠다.

지금 막힌건 뭐 linear에 안맞대. 그냥 지나ㅉ 아니 이미지 사이즈까지 맞추 ㅓ줘도 안된다고 징징대면 뭐 어쩌라고

====================

회고

왜 안되는거야

2021년 3월 29일 월요일

AITech P-stage1 [Day 1] 모델구성과 data payload 고민 작성중..

============================

강의 내용

목적을 이해하는 행위 EDA(Exploratory Data Analysis)

각 셀들에서도 목적이 있다. 호기심 나열. 어떻게 써야할지. 코드 구현.

개요를 잘 보자. 왜 대회를 열었는지 목적. 방향을 볼 수 있다.

=========================

목표

딱히 없었음. 대회 코드 보고 데이터 분석하고 할 수 있으면 모델 넣고 결과만 보자. 간단해도 되니까.

=============================

행동

그래서 첫주인 만큼 환경세팅을 했다.

예전에 titanic 분석할 때 사용했었던 것들을 한번 사용해 보았다. 특이한건 나이 분포가 중간이 움푹 패어있지만 대회에서 요구하는 나이대로 나누면 비율이 반대가 된다는 것. 이게 성급한 일반화의 오류가 아닐까.

또 사전 학습한 모델을 활용하려고 예전에 style transfer 코드를 따라쳐본게 있다. 그걸 응용해서 모델을 구성했다. 왜 사전학습으로 했냐면 피어세션에서 그냥 했더니 정확도가 아주 안나왔다는 말이 생겨서. 또 모델은 대체적으로 앞의 layer들은 전체적인 지식을, 뒤로갈수록 문제에 최적화된 지식을 가지게 되니까 cnn이 16개 나오는데 뒤의 1/4부터만 weight가 바뀌게끔 만들었다. 성공적인지 아닌지는 아직 모델에 이미지 통과도 못시켜봐서 모름.

그래서 지금 data payload를 만들고 있는게 고민이 있다. 이미지와 라벨을 dataset에서 묶는건지 하는지 dataloader에서 묶는건지. 또 이미지들이 폴더별로 분류되어 있던데 예전에 했던 과제처럼 모두 다른곳으로 꺼내야 할지 결정을 못하겠음. 꺼내면 폴더 이름에 라벨 정보가 들어있는데 라벨을 어떻게 할것이며 등이 고민임.

=======================================

회고

사실 공부하기가 싫어 딴짓을 많이 했다. 하기 싫을 땐 노래라도 들으면서 해야겠다.