STUDY LOG/Kaggle

데이터 사이언티스트를 위한 핵심 기술들_캐글(Kaggle) Discussion 번역(1)

Jinwang Mok 2021. 9. 26. 21:11

오늘은 캐글의 Discussion에서 Mohamed Hany씨의 "데이터 사이언티스트를 위한 핵심 기술들Essential skills for a data scientist"라는 글을 읽고, 좋은 정보라서 번역하며 공유하고자 합니다.

 

원본 링크는 https://www.kaggle.com/getting-started/273298 여깁니다! 저는 이미 추천 누름..ㅋㅋㅋㅋ

 

데이터 사이언티스트를 위한 핵심 기술들🚀

수학

선형대수학Linear algerba, 미적분학Calculus, 통계학Statistics. 데이터 사이언스 모델들은 수numbers와 수의 거대한 크기를 기반으로 합니다. 따라서, 통계학을 이해하는 것은 어떻게 수를 씹어먹는지를 배우는 열쇠입니다. 미적분학 또한 수가 항상 다양하고, 많은 결과가 미분 발견을 포함하기 때문에 중요합니다. 다른 필수 요소들도 포함되지만 비용 함수, 스칼라와 벡터, 행렬 및 텐서 함수, 기울기 및 도함수에 국한되지는 않습니다.

프로그래밍 언어

파이썬이랑 R. 제일 많이 써요.

데이터 시각화 도구

여러분은 여러분의 데이터를 이해하기 위해 꼭 몇가지 시각화 도구와 라이브러리를 알아야합니다. tableau, powerBI, matplotlib, seaborn 등등이요!

데이터 핸들링

조직에서 나오는 모든 데이터들은 날 것 그대로라서 이후 테스트를 위해서 숫자로 바꿔줘야 합니다. 그리고나서 데이터를 매핑하고 불필요한 노이즈를 제거하는 단계를 거칩니다. 데이터 핸들링은 그 자체로 데이터 사이언티스트들이 툴과 기술을 알아야하는 중요한 기법입니다.

클라우드 컴퓨팅

클라우드 컴퓨팅은 데이터 저장과 컴퓨팅 파워에서 빠르게 중앙 시스템으로 자리잡고 있습니다. 클라우드 컴퓨팅과 데이터 사이언스는 AWS, Google Cloud, Azure와 같은 플랫폼이 현업에서 광범위하게 사용되기 때문에 현재 거의 떼려야 뗄 수 없는 관계입니다. 데이터 사이언티스트들은 데이터 테스트, 시각화 등등 그들의 데이터와 함께하는 매일의 업무를 위해 클라우드 서비스로부터 제공되는 제품들과 친밀해질 필요가 있습니다.

기계학습

여러분은 현업의 모든 문제에 답하기 위해서 많은 기계학습 알고리즘을 알아야 합니다.

의사소통 기술

원활한 의사소통 기술은 갖는 것은 데이터 사이언티스트들이 갖춰야할 정말 중요한 비기술적(그러니까.. 데이터 과학적이지 않은) 기술입니다. 여러분이 그 자리에서 성장함에 따라서 효과적으로 소통하고, 프로젝트를 이끌기 위해 내부 팀과 이해당사자들과 의사소통해야할 필요가 생길 것입니다.


여기까지가 원문을 해석한 내용입니다.

 

저는 공부를 할 때도 목차부터 살피는 것을 좋아합니다. 내가 무엇을 해야하는지를 아는 것이 효과적인 성장에 도움이 된다고 생각하기 때문이에요ㅎㅎㅎ 해서 오늘은 데이터 사이언스라는 분야의 목차 쯤 되는 것 같은 글을 읽어보았습니다.

 

결국 앞으로 집중해야할 분야를 수학, 프로그래밍 언어, 데이터 시각화 도구, 데이터 핸들링, 클라우드 컴퓨팅, 기계학습(머신러닝), 의사소통 기술 이렇게 7가지로 정리해볼 수 있을 것 같습니다.

 

제 스스로는 다른 것들보다 수학과, 데이터 핸들링, 클라우드 컴퓨팅을 잘 준비해야겠다라는 생각이 듭니다.

 

좋은 글을 제공해준 Mohamed Hany씨에게 감사하며, 글을 줄입니다 :D

'STUDY LOG > Kaggle' 카테고리의 다른 글

Intro to Deep Learning(2)  (0) 2021.09.29
Intro to Deep Learning(1)  (0) 2021.09.28
Pandas(2)  (0) 2021.09.26
Pandas(1)  (0) 2021.09.26
Intro to Machine Learning(7)  (0) 2021.09.26