본문 바로가기

Python 문법

(32)
Python - Nan 관련 함수 .isna() 를 사용하면 값들 중 NaN이 있다면 True 로 표시해준다. 컬럼별로 NaN의 갯수를 확인하려면 .isna().sum()을 이용하면 컬럼별로 NaN을 확인할 수 있으면 데이터 프레임 전체로 비어있는 항목의 갯수를 알고 싶을때는 isna(),sum().sum()을 통해 전체의 비어있는 갯수를 알수있다. NaN을 삭제하는 방법 중 하나로 .dropna()를 통해 삭제할 수 있으며, .dropna()를 통해 삭제시 NaN이 포함된 행의 경우는 표시되지 않는다. .dropna(axis=(0또는 1)) 등을 통해 행과 열 중에 선택하여 표시하지 않을 수 있다. 2번째 방법으로는 fillna()가 존재한다. fillna()의 경우 NaN을 다른 문자열 또는 정수로 대체하여 대입할 수 있다.
Python- DataFrame.Values값 수정 데이터프레임 중 데이터(values)를 변경하고 싶은경우 .loc['index(행)',cloumms(열)]='변경하고 싶은 값' 을 넣어 사용할 수 있다.
Python - Data Frame, Access 데이터 프레임에서 데이터 억세스 하는 방법은 크게 3가지를 가지고 있다. 첫번째 방법!!!!!!!!!!!!!!! 인 데이터 변수 앞에 ['원하는 컬럼이름']를 쓰는 방법 또한 컬럼 억세스는 변수 앞에 점을 찍고 컬럼이름을 사용하여도 된다. 가지고 오고 싶은 데이터 억세스가 2개 이상일 경우 리스트[]로 묶어서 불러주면 된다. 데이터 억세스를 가져오는 2번째 방법!!!!!!!! 진한 글씨로 적혀있는 사람이 볼 수있는 인덱스와 칼럼을 이용하여 데이터를 가져오는 방법이 있다. .loc['index(원하는 행)','columms(원하는열)'] 을 사용하면 원하는 자리의 값을 받아 올 수 있다. 원하는 행의 값 전부를 가져오고 싶으면 행만 적으면 된다. ex) df.loc['store1','pants'] 값은 3..
Python - DataFrame , .set_index(), .reset_index .set_index()란 기존 데이터프레임에 있는 컬럼 (columms)을 인덱스로 셋팅하는 것을 뜻하며 컬럼이 인덱스로 들어가게 되면 지정한 컬럼을 통해서 값을 알아 낼 수 있다. .reset_index()란 인덱스로 들어간 컬럼을 다시 컬럼으로 빼내오는 함수이다. 컬럼의 순서를 바꾸는 방법! 컬럼의 순서를 바꾸는 방법은 변수[[원하는 값들]]을 넣으면 된다. 이때 첫번째를 감싸고 있는 [] 대괄호는 데이터의 컬럼을 불러오는 것을 뜻하며 두번째 있는 [] 대괄호는 불러온 컬럼들이 두개 이상이여서 리스트 [] 로 묶은 것을 의미한다.
Python - pandas label 생성, Nan NaN은 값이 없음을 나타낸다.
Python - 데이터 가공(인덱스 추가,삭제) , (컬럼 추가,삭제,변경) 행 즉 인덱스를 이용하여 데이터 값을 찾고싶은 경우 .loc[index, columm] (행,열) 을 넣어서 데이터 값을 알아 낼 수 있으며 그 데이터 값에서 바로 데이터 가공이 가능하다. 새로운 Columm을 만드는 경우에는 변수['new columm']=[data(값)] 를 넣어주면 생성되며 새로운 칼럼을 만들 때 사용 되면 data 값을 데이터 가공을 통해서 구할 수 있다. 두개의 데이터프레임을 합치는 경우에는 한개의 데이터프레임에 .append (두번째 데이터프레임) 을 대입하면 된다. ex df=df.append(new_store) axis= 란 행과 열을 표시할 때 사용되며 axis= 0 은 행을 axis = 1 은 열을 뜻한다. .drop()이란 행과 열 중 원하는 부분을 잘라내는 것을 말하..
Python - Pandas 인덱스 Pandas 의 장점 Allows the use of labels for rows and columns 기본적인 통계데이터 제공 NaN values 를 알아서 처리함. 숫자 문자열을 알아서 로드함. 데이터셋들을 merge 할 수 있음. It integrates with NumPy and MatplotlibPandas는 라이브러리로 import dandas as pd 를 통해 불러와서 사용하면 된다. 위에 그림은 1차원 데이터인 series(시리즈)이다.series에는 대입 할 수 있으며 인덱스와 벨류 값을 통해서 위치와 갯수 또한 알 수 있다.
Python - Numpy 정수 배열 Numpy에서 정수의 배열 얻고자 하면 파이썬에서 사용한 함수인 range()가 아닌 개선된 함수 np.arange()를 사용한다. 정수의 배열 중 규칙적으로 띄어 사용하고 싶으면 아래 그림과 같이 np.arnage(시작숫자,끝 숫자 , 넘기고싶은 숫자)를 사용하면 된다. 또한 실수의 배열을 얻고자 할때는 np.linespace (시작숫자,끝숫자, 필요한 갯수)를 대입하여 사용하면 된다.