2022년 8월 2일 화요일

2022-04 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나 (황보현우, 김철수)

2022-04


(모형의 적합도) 중요한 것은 모형의 유의확률p-value, 결정계수R2, 개별 요인의 유의확률, 계수Parameter Estimates, 네 가지예요.


점장 역량을 구성하는 요소에 매장 관리 역량, 고객 대응 역량, 영업 역량, 위기 대응 역량


독립변수가 여러 개 있으면 X1, X2, ··· Xp와 같이 표현합니다. 데이터 분석에서 독립변수가 2개 이상이면 다중Multiple이라는 용어를 사용해요. 우리가 앞에서 봤던 선형 회귀에서 독립변수가 2개 이상일 경우 다중선형 회귀라고 얘기합니다.


원인과 결과 간 관계를 분석하는 방법에는 회귀와 분류가 있어요. 회귀는 결과가 수치로 나와요. 정수 1, 2, 3으로 나오거나 음수, 분수, 소수처럼 수치형으로 나오죠


재구매 여부도 숫자로 보이지만 범주예요


분석가 입장에서는 데이터가 많으면 천국이지만 차원이 높으면 지옥과 같습니다


여기서 중요한 것은 표준편차Standard Deviation입니다. 표준편차는 각각의 값이 평균에서 얼마나 떨어져 있는지 알려줍니다. 예를 들어 나이 평균이 56세고 표준편차가 25세라고 해보죠. 이 말은 데이터가 56세를 기준으로 평균 25세만큼 떨어져 있다는 뜻입니다. _표준편차는 σ(시그마)로 표기하는데요, 이 분포가 정규 분포라고 가정하면 ‘평균-1σ’는 평균 56세에서 표준편차 25세를 뺀 31세가 됩니다. ‘평균+1σ’는 평균 56세에서 표준편차 25세를 더한 81세가 되겠네요. 즉 고객의 연령이 31세부터 81세 안에 분포할 확률이 68.3%라는 거죠.  


추천 시스템이 추천하는 것은 크게 세 가지입니다. _첫 번째는 대체재예요. 대체재는 이 상품을 봤던 사람이 많이 봤거나 산 다른 상품이에요. 이건 안 살 사람을 사게 만드는 기술입니다. 일종의 경쟁 상품 추천이라고도 볼 수 있어서 같은 카테고리 내에서 추천을 해주죠. 카메라 상품이라면 유사한 카메라 상품을 추천하겠죠. _두 번째는 보완재입니다. 보완재는 이 상품을 산 사람이 추가로 산 제품이에요. 이건 제품을 더 사게 만드는 기술입니다. 좀 더 큰 카테고리에서 추천해주는데요, 카메라 상품이라면 카메라 액세서리나 렌즈 같은 상품을 추천합니다. 세번째는 베스트셀러입니다.