pandas 7

Pandas(6)

이름 바꾸기 및 결합하기Renaming and Combining 데이터는 여러 곳으로부터 모입니다. 이들을 사용할 수 있게 만들어 봅시다. 소개 대부분 데이터는 열 이름, 인덱스 이름 또는 만족스럽지 않은 형태의 다른 이름 규칙과 함께 여러분에게 도착할 것입니다. 이런 경우, 어떻게 pandas 함수가 맘에 안드는 이름들에서 그것보다 나은 것으로 바꾸는지 배워야할 것입니다. 또, 어떻게 여러가지 데이터프레임 또는(혹은 그리고) 시리즈로부터 데이터를 결합해내는지에 대해 배워볼 것입니다. (이 글은 캐글의 코스 중 pandas를 번역한 글입니다. 효과적인 학습을 위해 exercise를 함께 해보시면 좋습니다! 강의의 출처는 글 최하단의 링크를 참조하세요.) 이름 바꾸기Renaming import pandas..

STUDY LOG/Kaggle 2021.10.09

Pandas(5)

데이터 타입과 결측값Data Types and Missing values 가장 일반적인 진행 방해 요소를 다뤄봅시다. 소개 이번 시간에는 데이터프레임이나 시리즈 내부의 데이터 타입을 조사하는 방법을 배울 것이고 또한, 항목을 찾고 교체하는 방법도 배울 수 있을 것입니다. 이 코스는 exercise로 실습을 병행하시면 학습효과 더 좋습니다! (이 글은 캐글의 코스를 번역한 글입니다. 링크는 글 최하단에 있습니다.) Dtypes 데이터프레임이나 시리즈 안의 한 열에 대한 데이터 타입을 dtype이라고 합니다. import pandas as pd reviews = pd.read_csv('../input/wine-reviews/winemag-data-130k-v2.csv', index_col=0) pd.set_..

STUDY LOG/Kaggle 2021.10.09

Pandas(4)

그룹과 정렬 데이터셋이 복잡할수록 집중해야할 것 소개 매핑Maps 메소드는 데이터프레임이나 시리즈 안에 있는 데이터의 전체 열에 대해 한 번에 변형시킬 수 있게 해줬지만, 여러분은 종종 데이터를 그룹화하고 데이터가 있는 그룹에 특정한 작업을 수행하고 싶을 것입니다. 이제 배울 것이지만, groupby() 명령을 통해 이 작업을 수행할 수 있습니다. 또한 어떻게 데이터를 정렬하는지와 함께, 여러분의 데이터프레임을 찾아보는 더 복잡한 방법과 같은 추가적인 주제에 대해서도 다뤄볼 것입니다. exercise를 시작하려면 여기를 눌러주세요! (이 글은 Kaggle의 코스를 번역한 글입니다.) 그룹단위 분석 import pandas as pd reviews = pd.read_csv('../input/wine-rev..

STUDY LOG/Kaggle 2021.10.03

Pandas(3)

요약 함수Summary Function와 매핑Maps 여러분의 데이터에서 유의미한 통찰들을 추출해보세요. 소개 여러분은 직전 튜토리얼에서 데이터프레임DataFrame이나 시리즈Series에서 관련 데이터를 어떻게 선택하는지를 학습했습니다. exercise에서 증명했다시피 올바른 데이터를 데이터셋에서 골라내는 것은 작업을 끝내는 데에 있어서 중요합니다. 하지만, 데이터가 항상 원하는 형식format으로 메모리에서 나오는 것은 아닙니다. 때때로 이 데이터를 작업에서 사용할 수 있도록 형식을 수정하는 일을 해야만 합니다. 이 튜토리얼에서는 입력을 "딱 맞게" 얻기 위해 데이터에 적용할 수 있는 여러 다른 명령들을 다룰 것입니다. 이 주제에 대한 exercise를 진행하시려면, 여기를 눌러주세요!(누차 말씀드리..

STUDY LOG/Kaggle 2021.10.01

Pandas(2)

인덱싱, 선택 그리고 할당 전문 데이터 사이언티스트는 이 일에 하루의 절반을 쏟는다. 당신도 마찬가지! 소개 작업을 하기위해 Pandas의 데이터프레임이나 시리즈에서 특정 값을 선택하는 것은 거의 모든 데이터 활용에서 필수적인 단계이다. 따라서, 당신이 파이썬으로 데이터 작업을 하는 것에 있어서 먼저 배워두어야 하는 것 중 하나는 어떻게 당신과 관련된 데이터를 빠르고 효율적으로 선택하느냐 하는 것이다. import pandas as pd reviews = pd.read_csv('../input/wine-reviews/winemag-data-130k-v2.csv', index_col=0) pd.set_option('max_rows', 5) 고유 접근자(Native accessors) 기존 파이썬 오브젝트는..

STUDY LOG/Kaggle 2021.09.26

Pandas(1)

만들기, 읽기, 쓰기 Pandas는 데이터 애널리시스에게 가장 인기있는 파이썬 라이브러리이다. 시작 먼저, Pandas를 쓸 때 전형적으로 아래와 같은 코드를 삽입한다. import pandas as pd 데이터 만들기 판다스에는 가장 핵심이 되는 두가지 오브젝트가 있는데, 바로 데이터프레임DataFrame과 시리즈Series다. 데이터프레임은 표table다. 여기에는 개별 항목의 배열이 포함되어 있으며, 각 항목은 특정 값을 갖는다. 예를 들면, 아래의 코드처럼 사용할 수 있다. pd.DataFrame({'Yes' : [50, 21], 'No' : [131, 2]}) Yes No 0 50 131 1 21 2 데이터프레임의 개별 항목은 정수 이외에도 문자열 등이 들어갈 수 있다. 데이터프레임 오브젝트는 ..

STUDY LOG/Kaggle 2021.09.26

Intro to Machine Learning(2)

기본 데이터 탐험 데이터를 불러오고 이해하기 Pandas를 이용하여 데이터와 친해지기 어떤 기계학습 프로젝트든지 당신 스스로가 데이터와 친해지는 것이 첫걸음입니다. 당신은 이를 위해 Pandas 라이브러리를 사용할 것입니다. Pandas는 데이터 사이언티스트들이 데이터를 찾고 능수능란하게 다루기 위해 사용하는 주요 툴입니다. 대부분 코드에서 Pandas를 줄여서 pd라고 표현합니다. 이것을 아래와 같이 명령할 수 있습니다. import pandas as pd Pandas 라이브러리의 가장 중요한 부분은 바로 데이터프레임(DataFrame)입니다. 데이터프레임은 대체로 당신이 표(table)라고 생각하는 데이터 타입을 가집니다. 이것은 엑셀의 sheet나 SQL 데이터베이스의 table과 비슷합니다. Pa..

STUDY LOG/Kaggle 2021.09.22