데이터를 수집하면 전산오류나 사람의 실수로 결측치가 발생하게 됩니다. 특히 외부에서 데이터를 가져오면 더욱 그럴 수 밖에 없는데 결측치를 방치하고 알고리즘에 데이터셋을 넣게 되면 아무리 좋은 알고리즘이라도 성능이 떨어지고 엉뚱한 결론에 도달할 수도 있습니다. 돈과 관련된 것이라면 아주 치명적인 결과를 만들수도 있습니다. 따라서 본격적인 분석을 하기 전에 결측치를 먼저 처리하는 과정이 필요합니다. 결측치를 처리하는 방법을 몇 가지 소개하겠습니다. 먼저 간단한 DataFrame을 만들겠습니다. import numpy as np import pandas as pd r1 = [1,np.nan,2,3] r2 = [4,5,np.nan,6] r3 = [7,8,9,np.inf] df = pd.DataFrame({'r1..
Series 로도 연산이 가능합니다. Series는 인덱스를 정할 수 있었기 때문에 그 부분을 생각하고 ndarray에서 하던식으로 하면 연산이 잘 됩니다. 다만 주의할점은 짝이 맞아야 된다는 것인데 짝이 맞지 않으면 NaN으로 출력하게 됩니다. import numpy as np import pandas as pd s1 = pd.Series([1,2,3,4],['a','b','c','d']) s2 = pd.Series([4,2,3,1],['d','b','c','a']) s1+s2 s2의 value 값의 순서를 바꿔도 그에 대응하는 인덱스값을 설정을 해놓으면 Series에서는 인덱스에 대응하는 value 값으로 연산을 하게 됩니다. 가능한 연산을 살펴보겠습니다. 먼저 사칙연산 가능합니다. print(s1-..