1. pandas 패키지 불러오기
2. Series 데이터
Series 데이터란 Numpy array 가 보강된 형태의 Data와 index를 가지고 있는 pandas의 데이터 형식입니다.
Series 데이터를 만들기 위해서는 값과 인덱스를 부여해주어야 합니다.
3. DataFrame에서 특정 컬럼 조회
데이터프레임의 컬럼 이름을 사용하면 특정 칼럼을 조회할 수 있습니다.
컬럼 하나를 선택할 경우, pandas의 Series 형태로 반환됩니다.
df = pd.DataFrame({'국어' : [80, 90, 100]...}) 이 있다고 했을 경우, 아래와 같이 한 컬럼을 검색할 수 있다.
4. DataFrame에 새로운 컬럼 추가
데이터프레임에 값을 지정해주어 새로운 칼럼을 추가할 수 있습니다.
df = pd.DataFrame({'국어' : [80, 90, 100], '수학' : [100, 90, 99]}) 이렇게 '사회' 라는 데이터가 없었을 경우는 값을 입력하면 '사회' 데이터가 들어가게 됩니다.
5. DataFrame 숫자 세기
딕셔너리를 이용하면 데이터프레임의 특정 칼럼의 값을 변경할 수 있습니다.
숫자로 된 컬럼을 대상으로 데이터를 해석 할 수 있도록 변환하고 몇 개로 구성되어 있는지 확인할 수 있습니다.
기존 데이터에서는 숫자로 구분을 했다면 직관적일 수 있도록 1: '남성', 2:'여성'으로 변경하는 코드입니다.
데이터프레임의 'sex'에 map함수를 이용해서 한꺼번에 변경할 수 있도록 해줄 수 있습니다.
6. 콤마가 있는 숫자 처리하기
모든 데이터는 우리가 분석하기 편한 형태로 존재하고 있지 않습니다.
특히, 숫자 데이터는 콤마를 포함하는 경우가 있습니다. 예를 들어, 1234->1,234
이럴 경우 컴퓨터는 콤마로 인해 문자열 자료형(object)로 인식하게 됩니다.
제거하려면 replace 함수를 이용해서 ','를 '' 으로 변경하는 방법이 있습니다.
두번째 방법은 astype 함수를 사용해서 원하는 형식으로 변경하는 방법이 있습니다.
오늘은 기초만 정리를 해봤습니다.

'공부 > 파이썬' 카테고리의 다른 글
[Pandas] 데이터 분석의 기초 Pandas module - 2 (0) | 2024.11.29 |
---|---|
[jupyter] 설치, 간단 사용까지 (1) | 2024.11.16 |