[Pandas 기초] 15. 마무리 퀴즈
·
Python/Pandas
Pandas 퀴즈다음은 대한민국 영화 중에서 관객 수가 가장 많은 상위 8개 데이터입니다.주어진 코드를 이용하여 퀴즈를 풀어보세요.문제1) 전체 데이터 중에서 '영화' 정보만 출력하시오 2) 전체 데이터 중에서 '영화' '평점' 정보를 출력하시오 3) 2015년 이후 개봉한 영화 중에 '영화' '개봉 연도' 정보를 출력하시오 4) 주어진 계산식을 참고하여 '추천 점수' Column을 추가하시오추천 점수 = (관객 수 * 평점)//100예) 첫 번째 영화인 의 경우,추천 점수 = (1761 * 6.88) // 100 = 1565) 전체 데이터를 '개봉 연도' 기준 내림차순으로 출력하시오 정답1) 전체 데이터 중에서 '영화' 정보만 출력하시오 2) 전체 데이터 중에서 '영화' '평점' 정보를 출력하시오 3)..
[Pandas 기초] 14. 그룹화
·
Python/Pandas
👉동일한 값을 가진 것들끼리 합쳐서 평균 등의 통계를 계산하기 위해 '그룹화'를 사용한다."다소 복잡하니 복습 잘 하시길!!"데이터 준비 (이전과 동일)ex1) 그룹화 by 학교`.groupby()` : 입력된 카테고리에서 같은 값끼리 그룹으로 묶어줌.`.get_group()` : 입력된 그룹의 데이터를 출력해줌.`.mean()` : 계산 가능한 데이터들의 평균값을 "그룹 별로" 계산해줌.`.size()` : 그룹별 크기(데이터 개수)를 구해줌.ex2) 그룹화 by 학년그룹화 기준을 여러 개 쓰려면, 역시 [ ]로 입력해주면 됨.  ('학년'은 전에 배웠던 Column 추가 방법으로 새롭게 만들어줬음)`.sort_values()`를 붙여서 정렬을 할 수도 있음.`.sum()` : 계산 가능한 데이터들의..
[Pandas 기초] 13. 함수 적용
·
Python/Pandas
👉직접 정의한 함수(def)에 데이터프레임 속 값들을 적용할 수 있다. 데이터를 수정해야 하는 과정이 복잡할 때 쓰면 유용하다.데이터 준비 (이전과 동일)ex1) 숫자 뒤에 단위를 붙여주는 함수문제 상황 가정 : 숫자 값 뒤에 'cm' 단위를 붙이고 싶다!`def()` : 함수를 직접 정의함.`.apply()` : 입력한 함수에 데이터 값들을 적용시킴.ex2) 첫 글자만 대문자로 통일해주는 함수`.notnull()` : 결측값이 아닌 건 True / 결측값은 False로 반환하는 메소드`.capitalize()` : 첫 글자는 대문자 / 나머지는 소문자로 변환하는 메소드 (원래 str에 있는 메소드임)   *본 포스팅은 이전에 Velog(https://velog.io/@simon919)에서 작성했던 글..
[Pandas 기초] 12. 데이터 수정
·
Python/Pandas
👉데이터를 다루다보면, 불필요한 데이터를 삭제하거나 새로운 데이터를 추가하는 등의 수정 작업이 필요할 때가 있다.데이터 준비 (이전과 동일)Coulmn 수정`.replace()` : 특정 데이터를 원하는 데이터로 바꿔줌. (딕셔너리 형태로 입력!)`.str.lower()` : 입력된 문자열을 소문자로 바꿔줌 (전에 했던 내용^^)`.str.upper()` : 입력된 문자열을 대문자로 바꿔줌셀 내용을 `+`로 수정해줄 수도 있음.Coulmn 추가새로운 열을 추가하고 싶을 땐, 그냥 `df[ ]=` 으로 정의만 해주면 알아서 생성됨.`.loc`로 특정 위치의 셀을 수정할 수도 있음. (밑에 나오는 'Cell 수정'과 동일)Coulmn 삭제`.drop(columns=)` : 입력된 열을 삭제해 줌.여러 개를..
[Pandas 기초] 11. 데이터 정렬
·
Python/Pandas
👉데이터를 특정 기준에 따라 정렬할 수 있다.데이터 준비 (이전과 동일)sort 함수`.sort_values()` : 입력한 값을 기준으로 오름차순 정렬함.`ascending=False` : 내림차순으로 정렬하고 싶으면 역시 이렇게 설정하면 됨.❗정렬 기준을 2개 이상으로도 설정할 수 있음 = .sort_values()에 리스트[ ]로 입력!❗오름차순과 내림차순도 섞어서 쓸 수 있음 = ascending에 리스트[ ]로 입력!물론, 원하는 열만 뽑아서 정렬해보는 것도 가능함.`.sort_index()` : 인덱스 기준으로 정렬함. (요건 3차시에 했었던 내용^^)      *본 포스팅은 이전에 Velog(https://velog.io/@simon919)에서 작성했던 글을 Tistory로 옮긴 것입니다.
[Pandas 기초] 10. 결측치
·
Python/Pandas
👉앞 시간에 봤던 NaN처럼, 아예 비어 있는 데이터를 결측치라고 한다.데이터 준비 (이전과 동일)결측치로 채우기 (fillna)`.fillna()` : 입력한 요소로 결측치(NaN)를 채워넣음.❗`.fillna()`는 기본적으로 전체 셀(=전체 컬럼)에 적용됨.❗특정 열(column)에 대해서만 채워넣고 싶다면 `[ ]`로 열 지정해서 쓰면 됨.결측치 제외하기 (dropna)`.dropna()` : 결측치(NaN)가 포함된 데이터를 삭제함.`axis` : 'index' 또는 'columns' (row 지우기 / col 지우기)`how` : 'any' 또는 'all' (하나라도 NaN이면 지우기 / 전체가 NaN일 때 지우기)🧐My Point❓[5]에서는 df 따로 안 적어줘도 테이블이 출력됐는데, ..
[Pandas 기초] 9. 데이터 선택 (조건)
·
Python/Pandas
👉원하는 조건을 지정하여 데이터를 선택할 수 있다.데이터 준비 (이전과 동일)조건에 해당하는 데이터 선택`연산자(>, 원하는 조건을 객체(`filt`)로 만들어두고, 그 조건에 맞는 데이터를 출력 가능!`~`을 붙여주면 조건을 반대로 적용할 수 있음앞에서 배운 `loc`를 활용하여 더 세부적인 데이터 선택도 가능함!!ex) 키가 185 이상인 학생들(row)의 수학 성적(column)만 조회다양한 조건을 사용할 수 있음!& (And)`&` : 여러 조건을 '모두' 만족하는 경우를 출력함. (각 조건은 괄호로 감싸주기)| (or)`|` : 여러 조건 중 '하나라도' 만족하는 경우를 출력함. (각 조건은 괄호로 감싸주기)➕str 함수문자열 관련 처리에 유용한 함수로, 자세한 옵션은 공식 링크에서 확인할 수..
[Pandas 기초] 8. 데이터 선택 (iloc)
·
Python/Pandas
👉location도 번호(정수값)를 이용하여, 원하는 행/열을 선택할 수 있다.(cf. 이전 시간에 배운 `.loc`는 행/열의 '이름'을 사용했었음)데이터 준비 (이전과 동일)int location으로 데이터 선택`.iloc[ ]` : 지정한 위치(int location)의 데이터를 출력함.사용 예시) `df . iloc [ row_sel , col_sel ]`(loc와 마찬가지로) 여러 위치를 한 번에 출력 가능하고,슬라이싱도 당연히 가능함.(❗loc 와 달리, iloc 로 선택할 때는 슬라이싱의 끝값을 포함하지 않음!!)🧐My Point❗iloc 는 정수값으로 지정하는 거니까, 슬라이싱 할 때 끝값 포함 안 한다고 생각하자!(loc는 이름이니까 끝값도 포함한 거겠지...!)   *본 포스팅은 이..
[Pandas 기초] 7. 데이터 선택 (loc)
·
Python/Pandas
👉행과 열의 이름을 이용하여, 원하는 행/열을 선택할 수 있다.데이터 준비 (이전과 동일)location으로 데이터 선택`.loc[ ]` : 지정한 위치(location)의 데이터를 출력함.사용 예시) `df . loc [ row_sel , col_sel ]`여러 개의 위치도 한 번에 출력할 수 있음. (역시나 이중 리스트 씌워주기)슬라이싱으로도 출력 가능함. (슬라이싱은 이중 리스트 필요 없음!!)     *본 포스팅은 이전에 Velog(https://velog.io/@simon919)에서 작성했던 글을 Tistory로 옮긴 것입니다.