2021/09/26 6

엘레베이터 순서도

1주차의 과제는 엘레베이터의 알고리즘을 순서도로 표현하는 것이었다. 지금은 알고리즘 설계가 무엇을 의미하는지도 잘모르고, 이제 막 배우기 시작한 매우 보잘것 없는 상황에서 만든 것이지만 언젠가 이 글을 돌아볼 때에는 부족한 것을 찾고, 더 효율적이고 명확하게 수정할 수 있는 사람으로 잘 성장했기를 바라며, 부끄럽지만 만들어본 순서도를 업로드 해본다. 혹시나 이에 대한 여러 의견과 개선방향이 있다면 알려주시면 정말정말 큰 도움이 될 것 같습니다.🙏🏻 지금 느끼는 문제점은... 복잡하고 쓸데없이 자세한가..라는 것?ㅋㅋㅋㅋ🤪

데이터 사이언티스트를 위한 핵심 기술들_캐글(Kaggle) Discussion 번역(1)

오늘은 캐글의 Discussion에서 Mohamed Hany씨의 "데이터 사이언티스트를 위한 핵심 기술들Essential skills for a data scientist"라는 글을 읽고, 좋은 정보라서 번역하며 공유하고자 합니다. 원본 링크는 https://www.kaggle.com/getting-started/273298 여깁니다! 저는 이미 추천 누름..ㅋㅋㅋㅋ 데이터 사이언티스트를 위한 핵심 기술들🚀 수학 선형대수학Linear algerba, 미적분학Calculus, 통계학Statistics. 데이터 사이언스 모델들은 수numbers와 수의 거대한 크기를 기반으로 합니다. 따라서, 통계학을 이해하는 것은 어떻게 수를 씹어먹는지를 배우는 열쇠입니다. 미적분학 또한 수가 항상 다양하고, 많은 결과가 ..

STUDY LOG/Kaggle 2021.09.26

Pandas(2)

인덱싱, 선택 그리고 할당 전문 데이터 사이언티스트는 이 일에 하루의 절반을 쏟는다. 당신도 마찬가지! 소개 작업을 하기위해 Pandas의 데이터프레임이나 시리즈에서 특정 값을 선택하는 것은 거의 모든 데이터 활용에서 필수적인 단계이다. 따라서, 당신이 파이썬으로 데이터 작업을 하는 것에 있어서 먼저 배워두어야 하는 것 중 하나는 어떻게 당신과 관련된 데이터를 빠르고 효율적으로 선택하느냐 하는 것이다. import pandas as pd reviews = pd.read_csv('../input/wine-reviews/winemag-data-130k-v2.csv', index_col=0) pd.set_option('max_rows', 5) 고유 접근자(Native accessors) 기존 파이썬 오브젝트는..

STUDY LOG/Kaggle 2021.09.26

Pandas(1)

만들기, 읽기, 쓰기 Pandas는 데이터 애널리시스에게 가장 인기있는 파이썬 라이브러리이다. 시작 먼저, Pandas를 쓸 때 전형적으로 아래와 같은 코드를 삽입한다. import pandas as pd 데이터 만들기 판다스에는 가장 핵심이 되는 두가지 오브젝트가 있는데, 바로 데이터프레임DataFrame과 시리즈Series다. 데이터프레임은 표table다. 여기에는 개별 항목의 배열이 포함되어 있으며, 각 항목은 특정 값을 갖는다. 예를 들면, 아래의 코드처럼 사용할 수 있다. pd.DataFrame({'Yes' : [50, 21], 'No' : [131, 2]}) Yes No 0 50 131 1 21 2 데이터프레임의 개별 항목은 정수 이외에도 문자열 등이 들어갈 수 있다. 데이터프레임 오브젝트는 ..

STUDY LOG/Kaggle 2021.09.26

Intro to Machine Learning(7)

Machine Learning Competitions 당신의 성장을 확인하고 계속 발전하기 위해 기계 학습 시합의 세계에 들어오세요! 기계 학습 시합은 당신의 데이터 사이언스 기술과 당신의 진척도를 평가하기에 가장 좋은 방법입니다. 다음 실습으로 당신은 캐글 학습 유저들을 위한 주택 가격 시합에 예측치를 만들고 제출하는 것입니다. 이것으로 Intro to Machine Learning 코스를 마치겠습니다. 이렇게 Intro to Machine Learning의 모든 수업을 번역하며 공부해봤습니다. 결국 이 코스를 요약하자면, scikit-learn이라는 머신러닝 라이브러리를 활용해본다. decision tree와 random forest를 사용해본다. 만들어진 모델이 잘 동작하는지에 대한 기준을 MAE로..

STUDY LOG/Kaggle 2021.09.26

Intro to Machine Learning(6)

랜덤 포레스트(Random Forests) 더 세련된 기계학습 알고리즘을 사용해봅시다. 소개 의사 결정 트리는 당신에게 어려운 결정을 남겨줍니다. 잎사귀(leaves)가 많아 깊이가 깊은 트리는 각 예측이 단지 몇 개의 주택으로만 얻은 역사적인 데이터로 된 것이기 때문에 과적합(Overfitting)이 일어날 것입니다. 또, 잎사귀(leaves)가 적어 깊이가 얕은 트리는 행 데이터들로부터 패턴을 찾기 위한 여러 구분점들을 포착하는 것에 실패해서 품질이 형편없을 것입니다. 과소적합(Underfitting)이 일어나는 것이지요. 최근의 가장 세련된 모델링 기법일지라도, 과적합과 과소적합 사이의 이 긴장감을 마주합니다. 하지만, 많은 모델들이 더 나은 품질을 끌어내기 위한 영리한 아이디어들을 가지고 있습니다..

STUDY LOG/Kaggle 2021.09.26