캐글은 이미 데이터 엔지니어, 데이터 사이언티스트들에게는 유명한 플랫폼이다.
나는 이제 막 머신러닝을 입문하는 입장에서 좋은 학습 플랫폼을 찾다가 캐글을 발견하게 되었다.
기본적으로는 기업 등에서 데이터셋을 캐글에 제공하며 competitions을 통해 문제를 해결하고 이에 따라 보상이 주어진다.
오늘은 캐글을 시작하고 이해해보고 이를 기록하려한다.
일단 가입을 해야하니 상단의 Resister 버튼을 누른다. 그중 Register with google을 눌러 구글 계정으로 가입할 것이다.
본인의 구글 계정을 클릭하면 된다. 아니, 근데 나는 이거 6개월 전에 가입했었네ㅋㅋㅋㅋ 이전이랑 UI가 좀 바뀐 듯 한데 차근차근 둘러봐야겠다. 아! 참고로 현재 캐글은 구글 알파벳에 속해있고, 그렇게 됐기 때문에 데이터 엔지니어/사이언티스트들에게 중요한 플랫폼이 됐다고 한다.
일단 네비게이션 목록은 위에서부터(햄버거바 빼고) Home, Competitions, Datasets, Code, Discussions, Courses, More 이렇게 구성되어 있다. 위의 화면이 홈화면이다. 홈화면은 가운데 Newsfeed와 우측에 프로필 그리고 그 아래에 기타 메뉴들로 구성되어 있다.
캐글에는 총 5가지의 등급이 있다고 한다.
- Novice
- Contributor
- Expert
- Master
- Grandmaster
1단계 Novice 등급은 가입했을 시 기본 단계이고(본인ㅎ), 2단계 Contributor는 개인에 대한 추가적인 정보와 SMS인증 그리고 기본적인 기능을 1번씩 사용했을 때이다. 3단계 Expert부터 5단계 Grandmaster는 Competitions, Datasets, Notebooks, Discussions 이렇게 4가지 요소에서 각각 메달의 등급과 받은 수를 기준으로 나뉜다고 한다.(또한, 메달은 활동 성과라고 한다.)
그렇다면 결국 캐글을 제대로 활용하려면 위의 4가지 분야를 이해하고 참여하는게 중요하다는 것 같다.
다음은 Competitons화면이다. 상단에는 짧은 설명과 경쟁을 개최할 수 있는 버튼(검정색), 자신이 참여한 활동을 보여주는 Your Work 버튼이 있고, 그 밑에 서치바와 태그들이 보인다.
그 중 Getting Started를 눌러 한 Competition에 들어와봤다.
내가 느낀 첫인상은 굉장히 친절하다는 것이다. 아래에는 이 Competition에 대한 설명과 참여한 팀과 경쟁자 등을 보여준다. Competition에 참여하는 것은 다음에 기록해보고 오늘은 캐글 구경을 온 것이니 여기까지만 본다.
참고로 Your Work에 들어가면 아래와 같은 화면이 뜬다.
다음으로 Datasets는 이렇게 구성되어 있다. 나머지는 거의 동일하니 태그들만 좀 살펴보면 컴퓨터사이언스나 교육, 분류, CV, NLP, 데이터 시각화 등이 있다. 아직 머신러닝을 제대로 모르지만 얼핏얼핏 들어왔던 큰 줄기들은 다 있는 거 같다ㅋㅋㅋ 얼른 공부해서 사용해보고 싶어진다. 빡공해야지! 재밌어보인다.(저 Covid-19 patients symptom dataset이 흥미로워서 들어가 봤는데 약 40KB정도 크기의 csv파일을 다운로드 받을 수 있었다. 근데 이제 쓰는 법을 알아야..ㅎㅎ)
다음은 Code 화면이다. 여기도 구성은 비슷한데 한 게시물을 들어가보니 사람들이 Dataset으로 만든 코드들을 공유하는 것 같았다! 결과들이랑.. 아마 캐글의 Notebook을 활용한 것 같은데, 아직은 자세히 모르겠다! 추후에 Notebook을 다루게 되면 더 이해될 듯 하다..(참고로 Notebook은 캐글에서 지원해주는 jupyter notebook정도로 이해하면 될 것 같다.)
다음은 Discussions다. 여기에서는 캐글 플랫폼과 ML관련 주제들로 토론을 하는 공간인 것 같다. 나는 Novice니까 얼른 Getting Started로 들어가보자.
와.. 첫 글부터 바로 땡긴다. 요약하자면 4년전에 쓰여진 글인데, Kaggle Learn을 릴리즈했다는 내용이다. 현재는 이 Kaggle Learn이 바로 마지막 메뉴인 Courses다. 그렇다면 바로 마지막 메뉴를 살펴보러 가자!
내가 6개월전에 파이썬 코스를 신청해놨었나보다ㅋㅋㅋㅋㅋ 이거 말고도 밑에 보이는 ML입문, ML중급, Pandas, 데이터 시각화, Feature Engineering, Data Cleaning, SQL 입문, SQL 고급, AI윤리 입문, 딥러닝 입문, 컴퓨터비전(CV), Geospatial Analysis, ML Explainability, Microchallenges, 자연어처리(NLP), 게임 AI와 강화학습(잘 모르겠는건 굳이 해석을 안했다.)이 있다.
굉장히 다양한 수업이 있어서 놀랐다. 파이썬도 그냥 눈팅만 하고 만 것 같은데 일단 다른 것들을 이용하기 전에 Courses에서 학습한 뒤에 Competiton도 참여해봐야겠다.
이렇게 오늘은 데이터 분야에서 가장 유명한 플랫폼 중 하나라고 할 수 있는 캐글(Kaggle)에 대해서 알아봤다. 개인적으로 이전에 방문했을 때보다 UI가 간결하고 보기 좋아져서 진입장벽이 낮아진 느낌을 받았다.(본인이 사용하는 Notion 툴의 디자인과 굉장히 유사한 것도 한몫한 것 같다..ㅋㅋㅋㅋ) 여튼 유익한 시간이었고, 다음에는 일단 Course를 통해 학습하는 것부터 시작해보기로 한다!
추가로, 위 글에서는 stevekwon211님의 Hello-Kaggle-Guide-KOR 깃헙 레포지토리를 참고하였다. 잘 정리된 글이라 스타도 바로 눌렀다ㅎㅎㅎ 더 궁금하고 자세한 사항은 여기를 참고하길! 필자도 21년 3월부터 파이썬을 배우고 이제야 관광학부에서 컴퓨터공학부로 넘어온 학생인데 또래가 쓴 이 글을 보고 더욱 동기부여가 됐다.
우리모두 화이팅!!!
'STUDY LOG > Kaggle' 카테고리의 다른 글
Intro to Machine Learning(3) (0) | 2021.09.23 |
---|---|
캐글(Kaggle) Notebook 실습(Exercise)하는 방법 (0) | 2021.09.22 |
Intro to Machine Learning(2) (0) | 2021.09.22 |
Intro to Machine Learning(1) (0) | 2021.09.22 |
캐글(Kaggle) 등급 알아보기 (0) | 2021.09.22 |