캐글 코스 번역 8

Pandas(6)

이름 바꾸기 및 결합하기Renaming and Combining 데이터는 여러 곳으로부터 모입니다. 이들을 사용할 수 있게 만들어 봅시다. 소개 대부분 데이터는 열 이름, 인덱스 이름 또는 만족스럽지 않은 형태의 다른 이름 규칙과 함께 여러분에게 도착할 것입니다. 이런 경우, 어떻게 pandas 함수가 맘에 안드는 이름들에서 그것보다 나은 것으로 바꾸는지 배워야할 것입니다. 또, 어떻게 여러가지 데이터프레임 또는(혹은 그리고) 시리즈로부터 데이터를 결합해내는지에 대해 배워볼 것입니다. (이 글은 캐글의 코스 중 pandas를 번역한 글입니다. 효과적인 학습을 위해 exercise를 함께 해보시면 좋습니다! 강의의 출처는 글 최하단의 링크를 참조하세요.) 이름 바꾸기Renaming import pandas..

STUDY LOG/Kaggle 2021.10.09

Pandas(5)

데이터 타입과 결측값Data Types and Missing values 가장 일반적인 진행 방해 요소를 다뤄봅시다. 소개 이번 시간에는 데이터프레임이나 시리즈 내부의 데이터 타입을 조사하는 방법을 배울 것이고 또한, 항목을 찾고 교체하는 방법도 배울 수 있을 것입니다. 이 코스는 exercise로 실습을 병행하시면 학습효과 더 좋습니다! (이 글은 캐글의 코스를 번역한 글입니다. 링크는 글 최하단에 있습니다.) Dtypes 데이터프레임이나 시리즈 안의 한 열에 대한 데이터 타입을 dtype이라고 합니다. import pandas as pd reviews = pd.read_csv('../input/wine-reviews/winemag-data-130k-v2.csv', index_col=0) pd.set_..

STUDY LOG/Kaggle 2021.10.09

Intro to Deep Learning(6)

이진 분류Binary Classification 딥러닝을 다른 보편적인 작업에 적용해봅시다. 소개 이 수업에서 지금까지 신경망이 어떻게 회귀regression 문제를 풀 수 있는지를 배웠습니다. 이제는 신경망을 또 다른 보편적인 기계학습 문제에 적용해볼 것입니다. 바로, 분류classification죠. 지금까지 배운 거의 모든 것들은 여전히 적용됩니다. 가장 큰 차이점은 사용하는 손실 함수와 마지막 레이어에서 만들어내길 원하는 출력값의 종류입니다. 이진 분류 두 가지 클래스 중에서 한가지로 분류하는 것은 보편적인 기계학습 문제입니다. 여러분은 아마 소비자가 구매를 할지, 신용카드의 거래가 사기인지, 깊은 우주의 신호가 새로운 행성의 증거를 보여주는지, 의료 검사가 질병의 증거인지 예측하고 싶을 것입니다..

STUDY LOG/Kaggle 2021.10.07

Intro to Deep Learning(5)

드롭아웃과 배치 정규화Dropout and Batch Normalization 과적합 방지와 안정적인 학습을 위해 이 특별한 레이어들을 추가해보세요! 소개 딥러닝의 세계에는 dense 레이어뿐만 아니라 더 많은 것들이 있습니다. 여러분이 모델에 추가하고 싶어할 여러가지 종류의 수십가지 레이어가 있습니다.(더 궁금하시다면 Keras docs를 참고해주세요.) 이 중 어떤 것들은 dense 레이어 같고 뉴런들 사이의 연결을 정의하며, 다른 어떤 것들은 다른 종류의 전처리나 변형을 할 수 있습니다. 이번 시간에는 두 가지 특별한 레이어를 살펴볼 것입니다. 이 두 가지는 어떤 뉴런과도 연결되지 않지만, 여러가지 방법을 통해 때때로 모델을 향상시킬 수 있는 몇가지 기능을 추가할 수 있습니다. 이 두 가지 모두 현..

STUDY LOG/Kaggle 2021.10.07

Pandas(4)

그룹과 정렬 데이터셋이 복잡할수록 집중해야할 것 소개 매핑Maps 메소드는 데이터프레임이나 시리즈 안에 있는 데이터의 전체 열에 대해 한 번에 변형시킬 수 있게 해줬지만, 여러분은 종종 데이터를 그룹화하고 데이터가 있는 그룹에 특정한 작업을 수행하고 싶을 것입니다. 이제 배울 것이지만, groupby() 명령을 통해 이 작업을 수행할 수 있습니다. 또한 어떻게 데이터를 정렬하는지와 함께, 여러분의 데이터프레임을 찾아보는 더 복잡한 방법과 같은 추가적인 주제에 대해서도 다뤄볼 것입니다. exercise를 시작하려면 여기를 눌러주세요! (이 글은 Kaggle의 코스를 번역한 글입니다.) 그룹단위 분석 import pandas as pd reviews = pd.read_csv('../input/wine-rev..

STUDY LOG/Kaggle 2021.10.03

Pandas(3)

요약 함수Summary Function와 매핑Maps 여러분의 데이터에서 유의미한 통찰들을 추출해보세요. 소개 여러분은 직전 튜토리얼에서 데이터프레임DataFrame이나 시리즈Series에서 관련 데이터를 어떻게 선택하는지를 학습했습니다. exercise에서 증명했다시피 올바른 데이터를 데이터셋에서 골라내는 것은 작업을 끝내는 데에 있어서 중요합니다. 하지만, 데이터가 항상 원하는 형식format으로 메모리에서 나오는 것은 아닙니다. 때때로 이 데이터를 작업에서 사용할 수 있도록 형식을 수정하는 일을 해야만 합니다. 이 튜토리얼에서는 입력을 "딱 맞게" 얻기 위해 데이터에 적용할 수 있는 여러 다른 명령들을 다룰 것입니다. 이 주제에 대한 exercise를 진행하시려면, 여기를 눌러주세요!(누차 말씀드리..

STUDY LOG/Kaggle 2021.10.01

Intro to Deep Learning(4)

과적합Overfitting과 과소적합Underfitting 추가 용량이나 조기 정지로 품질을 향상시키기 소개 지난 시간의 예시로 돌아가서, Keras는 모델을 학습시켰다는 것을 학습 기록과 에폭에 따른 손실 측정 값에 보관할 것입니다. 이번 시간에는 이 학습 곡선을 어떻게 해석할 것인가와 그것을 어떻게 모델 개발 가이드로 사용할 수 있는지를 배울 것입니다. 특히, 학습 곡선에서 과적합과 과소적합의 증거를 살펴보고 이를 고치기 위한 몇 가지 전략을 살펴볼 것입니다. 학습 곡선The Learning Curves 해석하기 여러분은 아마 학습 데이터의 정보가 두 종류라고 생각할 것입니다. 바로, 시그널Signal과 노이즈Noise이죠. 시그널은 일반화하는 부분입니다. 즉, 여러분의 모델이 새로운 데이터로부터 예..

STUDY LOG/Kaggle 2021.09.30

Intro to Machine Learning(7)

Machine Learning Competitions 당신의 성장을 확인하고 계속 발전하기 위해 기계 학습 시합의 세계에 들어오세요! 기계 학습 시합은 당신의 데이터 사이언스 기술과 당신의 진척도를 평가하기에 가장 좋은 방법입니다. 다음 실습으로 당신은 캐글 학습 유저들을 위한 주택 가격 시합에 예측치를 만들고 제출하는 것입니다. 이것으로 Intro to Machine Learning 코스를 마치겠습니다. 이렇게 Intro to Machine Learning의 모든 수업을 번역하며 공부해봤습니다. 결국 이 코스를 요약하자면, scikit-learn이라는 머신러닝 라이브러리를 활용해본다. decision tree와 random forest를 사용해본다. 만들어진 모델이 잘 동작하는지에 대한 기준을 MAE로..

STUDY LOG/Kaggle 2021.09.26