반응형

판다스 4

[파이썬]pandas의 색인기능 (SQL where, 파이썬 판다스 조건문)

데이터 분석에서 핵심이 되는 부분중 하나인 색인 기능에 대해 알아보겠다. 개인적으로는 SQL의 where문, 즉 조건문이랑 비슷하다고 생각한다. 조건에 맞는 값을 뽑아내는것이기 때문이다. 우선, 알아보기에 앞서 우리가 예시로 이용할 데이터프레임은 이와같다고 가정한다. 이름은 fruit이다. 이름 구매일 무게 구매처 0 복숭아 2021-01-01 0.3 슈퍼마켓 1 딸기 2021-01-02 NaN 과일가게 2 아보카도 2021-01-03 0.4 슈퍼마켓 3 딸기 2021-01-04 0.5 과일가게 4 토마토 2021-01-05 0.4 과일가게 5 아보카도 2021-01-06 0.7 슈퍼마켓 6 포도 2021-01-07 0.1 과일가게 조건에 맞는 행만 뽑아내기(추출하기) 7개의 행이 있는 것중에서 구매처가..

[파이썬]판다스(pandas)로 행,열,행렬 가져오기

이전 글(2020/12/21 - [OO하는 데이터분석가] - [파이썬]으로 데이터 분석하기, 판다스(pandas) 기초2)에서는 데이터프레임에서 하나하나의 값들을 변경하는 방법을 알아보았었다. 말미에 열을 뽑아오는 방법을 소개했었는데, 오늘 거기에 덧붙여 행과 행렬(데이터프레임)형태로 추출하는 방법까지 알아보려고 한다. 이전 글에서 계속 사용하던 예제를 이어서 사용하려고 한다. 데이터프레임 data에 아래 데이터를 지정했다고 치자. 회차 이름 구매일 무게 구매처 1 복숭아 2021-01-01 0.3 슈퍼마켓 2 딸기 2021-01-02 0.2 과일가게 3 아보카도 2021-01-03 0.4 슈퍼마켓 4 딸기 2021-01-04 0.5 과일가게 5 토마토 2021-01-05 0.4 과일가게 6 아보카도 2..

[파이썬]으로 데이터 분석하기, 판다스(pandas) 기초2

지난 글(2020/12/16 - [OO하는 데이터분석가] - [파이썬]으로 데이터 분석하기, 판다스(pandas) 기초)에서 판다스의 왕기본에 대해 알아보았다. 데이터의 최소, 최대, 평균 등이었다. 오늘은 같은 데이터를 가지고 데이터 자체를 수정하는 방법들을 알아보려한다. 값변경(replace), 행밀고당기기(shift), 컬럼속성변경, 날짜 칼럼 조작과 행렬단위의 기본연산이 될 것이다. 예제 파일은 아래와 같다. 회차 이름 구매일 무게 구매처 1 복숭아 2021-01-01 0.3 백화점 2 딸기 2021-01-02 0.2 과일가게 3 아보카도 2021-01-03 NaN 백화점 4 딸기 2021-01-04 0.5 과일가게 5 토마토 2021-01-05 NaN 과일가게 6 아보카도 2021-01-06 0..

[파이썬]으로 데이터 분석하기, 판다스(pandas) 기초

확장성이 높은 파이썬은 통계데이터 분석 및 통계처리에도 유용하게 사용할 수 있다. 이 중 가장 널리 이용되는 패키지가 바로 판다스(pandas)이다. 데이터 분석을 진행할때 SAS, SQL이나 R을 많이 사용하고 이를 정리하고 리포팅할때는 엑셀을 많이 사용한다. 엑셀의 함수, 매크로, 시각화 등은 사용하기 쉽고 장점이 명확하지만 조금 아쉬운 부분 또한 존재한다. 엑셀 단점1. 대용량 데이터 분석이 어렵다.100mb가 넘어가면 파일을 열고 편집하는데 버벅이기 시작한다. 100mb까지 쓸일이 없다고 생각할 수 있을텐데, 시트 몇장에 데이터를 스캔하여 적용하는 함수들을 몇개 걸다보면 100mb는 금방이다. 만약 매크로가 포함되어있다면...(긴말안함)2. 엑셀함수양날의 검이다. 엑셀함수는 장점이지만 어느순간 사..

반응형