2021년 3월 31일 수요일

AITech P-stage1 [Day 3] epoch는 적당히

 

================================

수업내용


어떤게 더 사용하기 편리하고, 어떤게 더 개조하기 좋겠는가?

tensorflow는 간단해서 사용하기 편리하게 만들었지만 공부하고 연구하는 거는 pytorch가 더 좋게 만듬. 철학이다.

모든 모듈들은 최종적으로 _ConvNd(Module)을 가진다. 내가 MyModel 안에서 정의한 nn.Conv2d들도, 내가 정의한 MyModel 자체도 모두..

그래서 모두 하나의 클래스로 정의되어 있기 때문에 위에 쌓고 위에 쌓고 분리되고 합쳐지고.. 하는 여러 자유로운 방식으로 구성되고 데이터를 주고받을 수 있는 것이다.




모두 같은 클래스를 가지게 된다는건 모두 같은 함수를 가지고 있다는 뜻. 즉 forward 하나만 실행하면 알아서 하위들의 모든 클래스에서 서로 각각의 forward들을 서로 실행하기 때문에 구성이 자유롭다는 것이다.

이건 pytorch 때문이기 보다는 python이기에 가질 수 있는 pythonic한 특징인데, 모든 모듈과 그에 해당하는 weight들을 dict 형식으로 저장하기 때문에 파라미터들을 그대로 불러올 때 그 불러와지는 모델의 구조를 알고 있으면 정확히 빼올 수 있다. 또 dict에서 key로 이름이 저장되어 있어서 원하는 weight들만 빼오는 방식도 할 수 있는 등 여러 개조가 가능함. 이래서 pythonic의 장점이라고 한다.
state_dict과 parameters의 차이점은 state_dict은 파라미터 이름 정보까지 같이 불러오는 거고 paramters는 그렇지 않음.


미리 학습된 모델을 load_dict 같은걸로 가져올 수 있는데 특정 layer는 학습시키고 안시키고를 requires_grad 를 설정하는게 가능하다. 왜 이름이 requires_grad냐면 딥러닝 이론 배울때 경사하강법을 이용해 학습하기 때문에 해당 layer가 출력값에 대한 미분값을 가지고 있어야 해서 grad를 가지고 있어야 학습이 가능. 그래서 grad가 필요없다고 하면 어차피 그 layer는 학습 안할거니까 grad가 필요없다는 뜻.

  




대체로 pretraining 된 모델을 쓰는게 좋다. 다만 내가 하고있는 project의 목적에 어느정도 맞는가 안맞는가를 고려하는게 중요.


만약 사무실에서 의자를 구분한다고 하자. 다양한 object 1000개를 분류하는 것과 유사하기 때문에 backbone은 그대로 냅두고 뒤에 있는 classifier만 학습시켜도 됨. cnn backbone의 역할은 해당 물체의 특징 feature를 뽑아내는 거라고 보면 된다.

반면 구름끼리 종류를 구분하는 거라면? 아니면 자동차끼리 종류를 구분하는 거라면? cnn backbone은 대체로 저렇게 생겼으면 구름이고 바퀴랑 몸통만 있으면 자동차다 이런식으로 특징을 뽑아내도록 이미 학습되어 있기 때문에 backbone을 그대로 둔다면 잘 안될 가능성이 큼. 그럴땐 cnn backbone까지 학습시킨다.

사실 모델 목적이랑 진짜 전혀 상관이 없다해도 모든 weight를 초기화해서 바닥부터 시작해서 하는것보다는 그래도 pre-trained model에서 backbone을 바꿔가면서 하는게 성능이 잘 나온다는 여러 사람의 경험과 주장이 있다. 그래서 왠만하면 쓰는게 좋은듯.



하지만 위 모든 것들은 데이터 수가 충분히 많들때를 가정해서 말한거다. 데이터가 별로 많지 않으면 overfitting, underfitting이 될 가능성이 매우 크기 때문에 걍 하지 말자..


===========================

피어세션

adamP

그냥 구글에 쳐서 pip로 깔면 됨


gpu, delete cash로 내리는게 있다


저작권 때매 포트폴리오 못만든다고 하면 다른 공개된 외부 데이터로 해서 만들자.


=======================================

목표

어제 못한 data payload 잘 만들어서 모델에 돌리기


=================================

행동

pretrained model들은 cnn 바로 뒤에 그냥 linear로 연결해서 잘 작동해서 그대로 따라했는데 왜 자꾸 안되는지 의문이었다. 그냥 사이에 flatten 넣어줘서 해결했다.

그래서 모델로 돌려봐서 결과가 나왔는데 epoch 4, 9, 12, 16으로 돌린 결과 중 9가 가장 잘 나왔다. 이 모델은 vgg19에서 cnn의 끝자락부터만 바뀌도록 fine tuning을 해서 나온거다. 이제 할수 있는건 misson에서 나온 모델도 돌려보고 data argment도 예시 코드에서 줬으니까 이용해서 더 돌려보고 앙상블도 해보고 할 수 있겠다.

mission에 있는 형식대로 모델을 잘 짰는데 돌리면 성능이 너무 바닥이고 val의 acc이 자꾸 0이 나온다. 어제도 그랬었는데 코딩에서 생긴 버그 같다. 한번 찾아봐야겠다.

==================================================

회고

버그 찾기. linear 앞에 flatten을 꼭 붙이자. pretrained model도 사실 사이에 있지만 숨겨진거 아닐까.

2021년 3월 30일 화요일

AITech P-stage1 [Day 2] 아직도 data payload에서 막힘.

 

=============================

수업내용





data argumentation도 좋지만 그에따른 병목현상도 고려해야 한다.



dataset은 몇 번째 index에 해당하는 자료가 뭔지를 뽑아내는 거고, dataloader는 그걸 더 편리하게 해주는 것에 불과함. 둘을 잘 분리해야 한다.


num_workers를 무조건 늘린다고 좋은게 아니다. cpu로만 학습할 때는 과부화 뭐 그런 문제가 있는 듯. 그래서 데이터나 프로젝트, cpu코어 갯수 등.. 환경마다 고려해서 확인해주는게 좋음.



=================================

피어세션

Additionally, VGG networks are trained on images with each channel normalized by mean=[0.485, 0.456, 0.406] and std=[0.229, 0.224, 0.225]. We will use them to normalize the image before sending it into the network.

그냥 일반적으로 저렇더라. 보편적으로.


class 불균형할때 쓰는 loss


fmse loss

focal loss 좋다? invalance 해결하려고 나온거니까

entropy loss


adam

adamP


자소서 쓴거 물어보는듯.


카카오는 모든 코딩문제를 풀 정도로 문제해결력이 뛰어나거나, 코테 통과할정도로만 하고 딥러닝 지식에 대해 매우 잘 아느냐.

설명을 위해 맞춰야겠다. 주석 무조건 달아야겠다.

네이버. 인성면접. 자기소개 하나만 하고 진짜 CS, 운영체제, 알고리즘 문제, 구글에서 나왔던 면접질문(사고력을 요하는, 골프공 구멍 몇개)


어떻게 왜 썼다 당당하게 말할 수 있게. 일단 써보고 생각하는게 나을듯. 다양한 시도=


=====================================

목표

어제 했던걸 기반으로 data argumentation 이런거 생각하지말고 간단하게 통과시켜 결과를 보고 조금씩 추가하고 수정하는 방식으로 하자.


============================

행동

기존 vgg19 모델에서 내가 원하는 뒷부분만 학습시키게 다 만들었는데 모델에 입력 이미지가 안들어간다. 지금 성질나서 글 못쓰겠다.

내가 어떤 변수에 어떤 경로변수를 저장했는지 잘 인지해야 겠다.

지금 막힌건 뭐 linear에 안맞대. 그냥 지나ㅉ 아니 이미지 사이즈까지 맞추 ㅓ줘도 안된다고 징징대면 뭐 어쩌라고


====================

회고

왜 안되는거야

2021년 3월 29일 월요일

AITech P-stage1 [Day 1] 모델구성과 data payload 고민 작성중..

 

============================

강의 내용


목적을 이해하는 행위 EDA(Exploratory Data Analysis)

각 셀들에서도 목적이 있다. 호기심 나열. 어떻게 써야할지. 코드 구현.


개요를 잘 보자. 왜 대회를 열었는지 목적. 방향을 볼 수 있다.


=========================

목표

딱히 없었음. 대회 코드 보고 데이터 분석하고 할 수 있으면 모델 넣고 결과만 보자. 간단해도 되니까.


=============================

행동

그래서 첫주인 만큼 환경세팅을 했다.

예전에 titanic 분석할 때 사용했었던 것들을 한번 사용해 보았다. 특이한건 나이 분포가 중간이 움푹 패어있지만 대회에서 요구하는 나이대로 나누면 비율이 반대가 된다는 것. 이게 성급한 일반화의 오류가 아닐까.

또 사전 학습한 모델을 활용하려고 예전에 style transfer 코드를 따라쳐본게 있다. 그걸 응용해서 모델을 구성했다. 왜 사전학습으로 했냐면 피어세션에서 그냥 했더니 정확도가 아주 안나왔다는 말이 생겨서. 또 모델은 대체적으로 앞의 layer들은 전체적인 지식을, 뒤로갈수록 문제에 최적화된 지식을 가지게 되니까 cnn이 16개 나오는데 뒤의 1/4부터만 weight가 바뀌게끔 만들었다. 성공적인지 아닌지는 아직 모델에 이미지 통과도 못시켜봐서 모름.

그래서 지금 data payload를 만들고 있는게 고민이 있다. 이미지와 라벨을 dataset에서 묶는건지 하는지 dataloader에서 묶는건지. 또 이미지들이 폴더별로 분류되어 있던데 예전에 했던 과제처럼 모두 다른곳으로 꺼내야 할지 결정을 못하겠음. 꺼내면 폴더 이름에 라벨 정보가 들어있는데 라벨을 어떻게 할것이며 등이 고민임.

=======================================

회고

사실 공부하기가 싫어 딴짓을 많이 했다. 하기 싫을 땐 노래라도 들으면서 해야겠다.


2021년 3월 19일 금요일

AITech 학습정리-[Day 40] 행렬 분해 / 돌아보기

 

=================================

학습내용

(10강) 행렬 분해

https://openaccess.thecvf.com/content_CVPR_2020/papers/Kossaifi_Factorized_Higher-Order_CNNs_With_an_Application_to_Spatio-Temporal_Emotion_Estimation_CVPR_2020_paper.pdf

수치해석 시간에 배웠던 행렬분해. neural network 때문에 tensor로 확장했다고 함.




https://en.wikipedia.org/wiki/Low-rank_matrix_approximations
https://en.wikipedia.org/wiki/Kernel_method

행렬을 분해시켜 low rank로 만들어서 시간복잡도를 줄이려고 하는 것 같다.


https://en.wikipedia.org/wiki/Kernel_(linear_algebra
https://medium.com/@zxr.nju/what-is-the-kernel-trick-why-is-it-important-98a98db0961d

https://www.quora.com/What-are-kernels-in-machine-learning-and-SVM-and-why-do-we-need-them/answer/Lili-Jiang?srid=oOgT

두 점 사이의 관계된 정도를 구할 때 dot product로 구한다고 한다. 근데 원래 평면에 있는걸 정의로 해서 고차원으로 바꾸고 그걸 dot product로 해서 구하는 방식이었는데, 이렇게 하니까 계산 비용이 너무 많이 든다. 그래서 저차원인 상태에서 구하자. 하는 듯.




이를 신경망에서도 이용. weight들이 너무 많이 연결되어있어 계산량이 많을 경우 분해해서 계산한다.

https://arxiv.org/pdf/2008.05441

https://en.wikipedia.org/wiki/Matrix_decomposition#Singular_value_decomposition
http://ki-it.com/xml/16456/16456.pdf

https://intoli.com/blog/pca-and-svd/

U,V 분해로 행렬분해하는걸 넘어 자르기도 함. 아얘 파란색을 버리고 만들어서 사용함.



eigen value랑 vector는 affine하면서 행렬이 변해도 변하지 않는 값, 방향.

https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-20-%ED%8A%B9%EC%9D%B4%EA%B0%92-%EB%B6%84%ED%95%B4Singular-Value-Decomposition
https://www.quora.com/What-is-the-difference-between-PCA-and-SVD

M = UEV로 어쨋든 같은 변환.


https://youtu.be/L8uT6hgMt00


https://en.wikipedia.org/wiki/Higher-order_singular_value_decomposition
https://staffwww.dcs.shef.ac.uk/people/H.Lu/MSL/MSLbook-Chapter3.pdf

https://www.slideshare.net/SessionsEvents/tamara-g-kolda-distinguished-member-of-technical-staff-sandia-national-laboratories-at-mlconf-sf-2017-81995753

분해해서 쓰더라.


https://towardsdatascience.com/review-mobilenetv2-light-weight-model-image-classification-8febb490e61c
https://openaccess.thecvf.com/content_cvpr_2018/papers/Sandler_MobileNetV2_Inverted_Residuals_CVPR_2018_paper.pdf

mobilenet v2부터 이런 방식을 채용하더라.

https://arxiv.org/pdf/1808.05517.pdf

mobilenet 에서 직관으로 세웠던 모델을 수학적으로 증명. 관심있으면 봐라.





(11강) 돌아보기


ppt 보자.


http://egloos.zum.com/agile/v/2854698

https://brunch.co.kr/@laftworld/12






=============================

과제

https://colab.research.google.com/drive/14WkeOtR5Z3oaFMB0gAVdASVFCFc8meBB?usp=sharing

transfer learning 경량화 t와 sigma에 따른 차이


================================

피어세션

네이버. 하면서 느낀점. 코테는 비교적 쉽지만 서류, 면접이 극도로 어렵다.

상시채용보다 공채가 붙을 확률이 높음.

임원면접. 인성만 보는게 아니라 라이브코테. CS지식. 하나를 알더라도 깊게 알아야 한다. 꼬리물기.

it는 과정을 중요시 하는 듯. 수상경력 없는데도. 개발경험으로 도배했더니 되더라. 신입은.


=============================

후기

없음

2021년 3월 18일 목요일

AITech 학습정리-[Day 39] 양자화 / 지식 증류

 

================================

학습내용

(8강) 양자화

이번 강의는 관심이 없어서 그런지 머리에 하나도 안들어왔다.

그래서 필요성을 약간이나마 느낀것들을 정리하려고 한다. 필요하면 그때 찾아야지..


float 저장 방식으로 생기는 오류들.


https://youtu.be/DDelqfkYCuo

근데 양자화 시키면 미분 불가능하니까 못하는거 아니냐? 할 수 있어서 적당히 양자화 시키는 것도 있음.

https://openaccess.thecvf.com/content_CVPR_2019/papers/Yang_Quantization_Networks_CVPR_2019_paper.pdf


https://www.tensorflow.org/lite/performance/post_training_quantization
https://talkingaboutme.tistory.com/entry/Embedded-DL-Tensorflow-Lite-Quantization

하드웨어마다 되는게 있고 안되는게 있으니까 보고 판단하자.

https://wannabeaprogrammer.tistory.com/42


https://www.tensorflow.org/lite/performance/model_optimization#why_models_should_be_optimized
https://stackoverflow.com/questions/60883928/quantization-aware-training-in-tensorflow-version-2-and-batchnorm-folding

https://arxiv.org/pdf/1806.08342.pdf



실습

https://drive.google.com/file/d/1dzvkQLKRLLdAxfmd4imFs1F3CN_urHNo/view?usp=sharing

pytorch에서 모델에 quantize 하는방법.



(9강) 지식 증류


https://ppss.kr/archives/230096
https://www.researchgate.net/figure/Significance-of-decision-compared-to-knowledge-on-project-see-47_fig2_273983243

솔직히 모델설계랑 별 관련 없는것 같긴 한데.. 프로젝트 시작한지 얼마 안됐을 때 많은 결정을 해보자. 그만큼 피드백도 빨리 받고 발전도 빨리 된다는듯.


https://opentutorials.org/module/3653/22995

sigmoid의 기원.



기존에 배운 transfer learning이랑 비슷한 teacher student 방식을 쓰는 knowledge transfer. 다른점은 무거운 모델에서 가벼운 모델로 학습을 한다는 것. 이렇게 teacher 모방하는 방식이 student가 혼자 쌩으로 학습하는 것 보다는 나은 성능을 보이더라.

https://intellabs.github.io/distiller/knowledge_distillation.html
https://arxiv.org/pdf/1503.02531.pdf

전에 했던 transfer learning이랑 비슷하다. T가 뭔지는 밑에서 알려주겠다.

https://www.ttic.edu/dl/dark14.pdf
https://arxiv.org/pdf/1503.02531.pdf

옛날엔 정답만 1, 나머진 0으로 놓고 학습했었다. 근데 그렇게 하는게 맞는가? 싶어 softmax로 살펴보면 정답이 아니어도 정답과 비슷한 것 끼린 높은 점수가 나오고 전혀 관련이 없으면 매우 낮은 점수가 나온다. 이런 정답끼리의 유사한 정도도 학습하는게 좋겠다.

https://github.com/kmsravindra/ML-AI-experiments/blob/master/AI/knowledge_distillation/Knowledge%20distillation.ipynb

그래서 아까 위에서 봤떤 T가 극단적으로 1! 0.9999! 이런게 아니라 정답이어도 적당히 점수를 낮추고 비슷한 답은 상대적으로 올려서 학습하는 정도.

https://en.wikipedia.org/wiki/Knowledge_distillation
https://math.stackexchange.com/questions/1888141/why-is-the-softmax-function-called-that-way

https://arxiv.org/pdf/1503.02531

zi인 distilled model이 student고 cumbersome model인 teacher 가 v. 둘이 유사하게 맞춘다는게 핵심인 것 같다.

https://pythonawesome.com/a-clean-pytorch-implementation-to-run-quick-distillation-experiments/

수 많은 distillation 방법들이 있다.

https://arxiv.org/pdf/1904.01866.pdf

얘는 distill layer를 지금까지 relu 뒤에만 뒀는데 앞에 두는건 어떨까 하는거.

https://arxiv.org/pdf/1710.07535.pdf

student에게 가르쳐줄 때 데이터가 없거나 거의 없이 훈련시킬 수 있을까? 하는거.


실습

https://drive.google.com/file/d/16DxGDOXs-DGHlqmTWqyV5ZhCQ6dL6qVa/view?usp=sharing

teacher child 모델 어떻게 훈련하는지 코드로 잘 설명해준다.


=================================

과제


돌리는중..

실습때와 같이 knowledge transfer를 어떻게 하는지 잘 보여줌.




=================================

피어세션

수업 복습해봄.

==================================

후기

할 일을 차근차근 하자.