반응형

OO하는 데이터분석가 14

[파이썬]pandas의 색인기능 (SQL where, 파이썬 판다스 조건문)

데이터 분석에서 핵심이 되는 부분중 하나인 색인 기능에 대해 알아보겠다. 개인적으로는 SQL의 where문, 즉 조건문이랑 비슷하다고 생각한다. 조건에 맞는 값을 뽑아내는것이기 때문이다. 우선, 알아보기에 앞서 우리가 예시로 이용할 데이터프레임은 이와같다고 가정한다. 이름은 fruit이다. 이름 구매일 무게 구매처 0 복숭아 2021-01-01 0.3 슈퍼마켓 1 딸기 2021-01-02 NaN 과일가게 2 아보카도 2021-01-03 0.4 슈퍼마켓 3 딸기 2021-01-04 0.5 과일가게 4 토마토 2021-01-05 0.4 과일가게 5 아보카도 2021-01-06 0.7 슈퍼마켓 6 포도 2021-01-07 0.1 과일가게 조건에 맞는 행만 뽑아내기(추출하기) 7개의 행이 있는 것중에서 구매처가..

[파이썬]판다스(pandas)로 행,열,행렬 가져오기

이전 글(2020/12/21 - [OO하는 데이터분석가] - [파이썬]으로 데이터 분석하기, 판다스(pandas) 기초2)에서는 데이터프레임에서 하나하나의 값들을 변경하는 방법을 알아보았었다. 말미에 열을 뽑아오는 방법을 소개했었는데, 오늘 거기에 덧붙여 행과 행렬(데이터프레임)형태로 추출하는 방법까지 알아보려고 한다. 이전 글에서 계속 사용하던 예제를 이어서 사용하려고 한다. 데이터프레임 data에 아래 데이터를 지정했다고 치자. 회차 이름 구매일 무게 구매처 1 복숭아 2021-01-01 0.3 슈퍼마켓 2 딸기 2021-01-02 0.2 과일가게 3 아보카도 2021-01-03 0.4 슈퍼마켓 4 딸기 2021-01-04 0.5 과일가게 5 토마토 2021-01-05 0.4 과일가게 6 아보카도 2..

[파이썬]으로 데이터 분석하기, 판다스(pandas) 기초2

지난 글(2020/12/16 - [OO하는 데이터분석가] - [파이썬]으로 데이터 분석하기, 판다스(pandas) 기초)에서 판다스의 왕기본에 대해 알아보았다. 데이터의 최소, 최대, 평균 등이었다. 오늘은 같은 데이터를 가지고 데이터 자체를 수정하는 방법들을 알아보려한다. 값변경(replace), 행밀고당기기(shift), 컬럼속성변경, 날짜 칼럼 조작과 행렬단위의 기본연산이 될 것이다. 예제 파일은 아래와 같다. 회차 이름 구매일 무게 구매처 1 복숭아 2021-01-01 0.3 백화점 2 딸기 2021-01-02 0.2 과일가게 3 아보카도 2021-01-03 NaN 백화점 4 딸기 2021-01-04 0.5 과일가게 5 토마토 2021-01-05 NaN 과일가게 6 아보카도 2021-01-06 0..

[google cloud platform]구글 클라우드 플랫폼 api 부여받기

파이썬을 이용하다 보면 이런 생각이 든다. 파이썬 코드를 돌린 결과를 구글문서형태로 자동으로 불러와서 작업할수는 없을까? 혹은 구글문서 내용을 파이썬에서 자동으로 불러올수. 없을까? 결국은 구글문서(google docs, google sheet, google drive)와 파이썬을 연동하는 작업을 의미한다. 결론적으로 이것은 가능하다! 파이썬에서 작업전에 나의 구글클라우드 플랫폼에 파이썬의 접근 권한을 줘야하는데, 이를위해 필요하는 과정이 google api(구글 api)를 부여받는 과정이다. 이 과정을 함께 진행해보자. 어렵지않다. 1. 구글 개발자 콘솔 접속 https://console.developers.google.com/ Google Cloud Platform 하나의 계정으로 모든 Google ..

[파이썬]으로 데이터 분석하기, 판다스(pandas) 기초

확장성이 높은 파이썬은 통계데이터 분석 및 통계처리에도 유용하게 사용할 수 있다. 이 중 가장 널리 이용되는 패키지가 바로 판다스(pandas)이다. 데이터 분석을 진행할때 SAS, SQL이나 R을 많이 사용하고 이를 정리하고 리포팅할때는 엑셀을 많이 사용한다. 엑셀의 함수, 매크로, 시각화 등은 사용하기 쉽고 장점이 명확하지만 조금 아쉬운 부분 또한 존재한다. 엑셀 단점1. 대용량 데이터 분석이 어렵다.100mb가 넘어가면 파일을 열고 편집하는데 버벅이기 시작한다. 100mb까지 쓸일이 없다고 생각할 수 있을텐데, 시트 몇장에 데이터를 스캔하여 적용하는 함수들을 몇개 걸다보면 100mb는 금방이다. 만약 매크로가 포함되어있다면...(긴말안함)2. 엑셀함수양날의 검이다. 엑셀함수는 장점이지만 어느순간 사..

[파이썬]문자형 변수 인덱싱(indexing)과 슬라이싱(slicing)

파이썬 기본 강좌 중 문자열을 변수로 생성하여 해당 문자열을 자르고, 수정하고, 추출하는 기본 기능에대해 알아보겠다. 1. 변수에 문자열을 담아두는 방법. 변수로 지정하는 방법 message = "Hello World!" message 2.indexing 순서대로 문자열을 뽑아오는 방법 모든 프로그램에서는 수를 셀때 0이 처음이기 때문에, 첫글자를 불러오고 싶으면 숫자 0을 넣어야한다. message[0] message[1] message[-1] 결과: H e ! 가 나오게 된다. 제일 첫 글자는 0인데, 왜 마지막글자는 -0이 아니라 -1 이냐면, 수학적으로 봤을 때 -0과 +0은 똑같기 때문이다 .0은 첫번째 고정이다. 라고 생각하면 헷갈일 일이 적다고 한다. 그렇다면 여기서 대괄호의 쓰임새는 뭘까 ..

[DSschool]파이썬에서 오류메세지 '잘' 읽는 법

요즘 DS school(디에스 스쿨) 데이터사이언스 입문 과정을 듣고 있다. 실무에서 파이썬을 야금야금 보고있기는 한데 당장 사용해야하는 것들 위주로 그때그때 보다보니 정리가 잘 안되는 기분이다. 그래서 해당강의의 복습겸 하나하나씩 기록을 남겨보려고 한다. 오류 발생 시 이런 순서로 실행하면 된다. 인건데 코딩에 발 담그고 있는 사람이라면 기본적으로 다 이렇게 하고 있을것같긴하다. 2강 - 23개 강의중 17번째 강의 내용 아래와 같이 오류가 나오는 상황은 가정해 본다. a라는 변수에는 2가 string으로 들어가 있다. 이를 숫자 1과 더해준다면? 아래와 같이 오류가 발생하게 된다. a = "2" 1+a 해당 에러는 결과물이나 연산자체가 잘못되어서 생기는 에러는 아니다. 3으로도 실행할 수 있고, 12..

[MyData]마이데이터란 무엇일까?

아무래도 핀테크업계에서 일하다보니 'MyData'관련으로 이런저런 말들을 많이 듣게된다. 부끄럽게도 아직 마이데이터 사업에 대한 정보를 산발적으로 알고있었어서, 이 기회에 한번 재정의를 해보려 한다. 마이데이터 사업에 대한 정의와 참고할만한 해외 및 국내 사례들을 조사해보았다. 진행주체, 진행현황 소관부처: 금융위원회 제도 취지 : 데이터의 소유권을 고객에게 돌려준다는 철학에 기반해 관련 사업에 라이선스를 부여하는 제도 금융회사가 개인의 신용도와 신용거래 능력을 파악할 목적으로 수집ㆍ활용하는 개인신용정보는 ‘살아있는 개인에 대해 개인을 식별할 수 있는 정보(성명, 주민등록 번호 등 다른 정보와 결합 시 개인을 알아볼 수 있는 정보)’이며, 데이터 3법이라 불리는 개인 정보보호법, 신용정보법, 정보통신망법..

[MySQL] 그룹내 순위(랭킹) 부여하는법

아래 블로그 글에 설명이 잘 되어있었다. https://blackbull.tistory.com/43 [MySQL] Oracle의 그룹별 번호 매기기와 같은 기능 구현하기 쿼리를 날리다 보면, 필요에 따라 그룹별로 순위를 매겨야 할 때가 있다. 이에 대해 오라클에서는 그러한 기능을 제공하는데, 아래가 바로 그 예이다. [Oracle] SELECT empno, ename, job, sal, ROW_NUMBER() OVER blackbull.tistory.com

[A/B테스트] ABtest의 기본 개념

자체 브랜드가 있는 비즈니스팀에서 일을 하다보면 'A/B테스트 해보자'라는 말을 많이 듣고, 해보게 된다. 거두절미하고 핵심을 이야기하자면 A/B테스트란 A안과 B안중 더 마케팅 효과가 좋은 안을 선택하는 것이라고 생각하면 될 것이다. 그렇다면 거두절미 하기 전 우리가 선택을 위해 고려해야되는 점은 뭘까? 이에 대해 데이터분석가, 마케터, 기획자 모두 공감하는 필요조건(최대한 통계적 수식을 제외하고)과 시행 방법에 대해 알아보려고 한다. 비즈니스 실무자의 입장에서 A/B테스트를 잘 설계하고 잘 해석하는 방법은 무엇이 있을까요? 우선 A/B테스트자체의 원리를 이해한다면 더 쉬워질 것입니다. A/B테스트의 모태가 되는 통계적 가설검정을 통해 A/B테스트에 더 가까워져보도록 하자. A/B테스트 란? A/B테스..

반응형