빅데이터 분석을 위한 파이썬 총정리

반응형
    반응형

    빅데이터 분석을 위한 파이썬 목차

    블로그를 대학원 때 코딩이 너무 헷갈려서 지식 저장공간으로 사용하려고 시작했습니다. 글을 정리하다보니 정말 많은 글을 썼다는 걸 새삼 느낍니다. 한때 블로그가 잘 되서 수익화를 어떻게 할 수 있을지 공부하다보니 현재 제가 하고 있는 방법은 온전히 블로그로 수익화하기에는 거리가 멀다는 걸 알게 되었고 이 글을 볼 사람들보다는 제가 보기 편하게 만들어서 두서도 없었습니다. 그래서 그나마 보기 편하게 만들려면 아예 이렇게 목차로 만들어보면 어떨까 해서 지금까지 공부하고 모아논 것을 버리기는 아까워서 지금까지 쓴 글 중에 주세에 맞는 것만 모아봤습니다.

    대학원 다닐때는 지식 위주의 글을 열심히 쓴 것 같은데 졸업 이후로는 지식보다는 사람들이 볼만한 글에 초점을 맞추다보니 뒷내용이 부실하다는 걸 이렇게 정리해보니 알게되네요. 수익에 큰 도움이 되지 않는다는 걸 아는데 뒷부분을 채워야 하는지 고민이 많습니다. 일단은 누군가에게는 보기 편하면 좋을 것 같아서 지금까지 쓴 글 중 빅데이터분석과 관련된 내용을 목차형식으로 남겨둡니다. 빅데이터 분석을 위한 파이썬 공부하는데 도움이 되시길 바라겠습니다.

     


    1부: 빅데이터 분석의 기초

    1. 빅데이터의 정의와 중요성

    빅데이터란
    빅데이터 분석이 뜨고 있는 6가지 이유
    빅데이터 분석의 흐름 단계
    빅데이터 분석 생태계

     

    2. 파이썬 설치 개발환경 구축

    파이썬 설치하기(아나콘다 22년5월 기준)
    우분투 아나콘다 설치하기
    파이썬,모듈 버전 확인
    가상환경 64bit,32bit인지 확인
    패키지 설치 목록으로 나의 개발환경 가져오기
    파이썬 패키지 삭제
    터미널없이 파이썬내에서 패키지 확인하기
    pip 패키지 설치제거, 버전 업그레이드
    pip 직접설치하기
    conda 기본 명령

    1. 쥬피터 사용법
      Jupyter Notebook 사용법
      마크다운 사용방법(jupyter)
      Jupyter 알면 유용한 단축키
      jupyter 자동채움기능 안될때
      Jupyter notebook 기본폴더 변경해서 시작
      vscode에서 jupyter 실행하기
    2. 편집기
      파이참 설치하기Github와 Pycharm 연동
      깃허브에 올리면 안되는 파일 목록 만들기
    3. 쥬피터 오류 해결방법
      OPub data rate exceeded
      Jupyter Notebook Autosave failed

    3. 파이썬 다루기

    간단용어정리
    Python 기본 데이터 타입
    변수 이해
    전역변수, 지역변수
    이스케이프 문자
    문자열(string) 다루기
    문자열 포맷 설정
    문자열 공백 없애기
    여러문자 한번에 치환하기
    문자열 포맷팅과 부등식
    돈 금액 숫자 콤마 표시하기
    대소문자 변경하기
    절대값 출력하기
    파이썬 파일모드
    파이썬 파일처리 총정리
    OS 모듈 다루기

     

    리스트,딕셔너리,튜플
    리스트 다루기(생성,추가,인덱싱)
    리스트 모든 원소 하나의 문자열로 변환하기
    리스트 특정 문자열 제거하기
    리스트 각 원소 타입 바꾸기
    리스트 최대 최소값 구하기
    리스트 복사하기
    리스트 같은 원소값 가져오기
    집합
    딕셔너리
    딕셔너리 정렬하기
    Python 딕셔너리 value 값으로 key 값 찾기
    딕셔너리 key 변경하기
    딕셔너리,리스트 저장하기(pickle)
    딕셔너리,리스트 메모장에 저장하기
    리스트 csv로 저장 불러오기
    딕셔너리 합치기(key 같을때 )
    튜플 정렬하기
    Generator

     

    조건문, 함수, 클래스
    조건문(if, elif, else)
    while 반복문 쓰기
    for 반복문
    range,enumerate 차이
    args, kwargs
    예외처리
    에러라인 출력하기
    Lambda(람다) 함수
    comprehension
    데코레이터
    클래스 선언과 상속
    클래스 상속연결하기
    패킹과 언패킹
    특정 확장자 파일찾기
    현재 시간 날짜 구하기

     

    2부: 빅데이터 분석 실습

    • 데이터 분석 필수 패키지: NumPy, Pandas, Matplotlib, Scikit-learn

    1. 데이터 전처리

    2. 데이터 분석을 위한 NumPy

     

    NumPy 기본 개념
    Numpy란
    Numpy 차원의 이해

    ndarray 생성하기
    ndarray 저장,불러오기
    numpy ndarrary에 값 추가하기
    ndarray 랜덤한값 생성
    ndarray 인덱싱,슬라이싱
    Numpy 모양 바꾸기 Reshape
    numpy 행렬곱과 내적 그리고 별연산
    numpy 조건문 걸어서 값넣기
    numpy 소수점 반올림하기
    numpy 연산,통계,집계함수
    분포함수 만들기
    numpy bool 이용하기
    배열 합치기
    배열 분할하기
    소수점 반올림하기
    행렬식, 고유값 구하기np.linalg

     

    고급 기능 (브로드캐스팅, 벡터화)
    numpy axis 이해
    Numpy 브로드캐스팅
    격자 그리드 만들기
    다차원 배열 평탄화

     

    3. 데이터 조작을 위한 Pandas

    pandas 메쏘드 요약 cheatsheet

     

    파일 불러오기
    판다스 IO output
    파일경로 표기법
    엑셀 시트네임부터 확인하기
    엑셀 시트 여러개 불러오기
    xlsx csv로 변환하기
    데이터프레임 엑셀 저장, 불러오기
    데이터프레임 csv 저장, 불러오기
    csv 한글 깨짐 문제해결
    sql 데이터베이스 저장, 불러오기
    mysql 테이블 데이터프레임으로 불러오기

    Pandas 데이터 구조 (Series, DataFrame)

    4. 데이터 시각화

     

     

    3부: 머신러닝을 이용한 빅데이터 분석(scikit-learn)

    통계적 분석

    기술 통계 및 데이터 분포
    사분위수란
    파이썬으로 정규분포 그리기
    공분산과 상관계수
    상관계수와 회귀계수의 관계 

    검정통계량 종류

    머신러닝이란? 


    머신러닝이란

    지도학습

     

    4부 : 딥러닝

    딥러닝 라이브러리
    tensorflow
      tensorflow설치

     

    GPU를 활용한 딥러닝 구현
      CUDA 설치 및 버전 확인

    5부 자연어 처리

    NLTK 설치 및 소개

    부록

    python37.dll(파이썬 3.7.6기준)
    Jupyter Notebook Autosave failed
    Pandas로 xlsx 안 열어질 때
    TA-lib.whl파일 설치하기
    파이썬 CobberError 마구 뜰 때 해결방법
    터미널에서 경로 띄어쓰기 처리

     

    - 파이썬 속도 개선

    속도 개선 방법
    속도 개선 방법 Loop편
    속도 개선 방법 알고리즘편
    속도 개선 방법 알로리즘(recursive)
    속도 개선 -recursive pandas

     

     

    추신 : 글의 예제 대부분은 제가 오랜후에 다시 볼 때 추후에 기억날 수 있게 직접 만든 것입니다. CC 라이선스에 맞게 출저표시를 해주시고 영리 목적은 금합니다.

    댓글

    Designed by JB FACTORY

    ....