
★ 수치형 -> 범주형 시각화: Histogram, Density plot (x와 hue로 줘야됨! y로 주면 이상한 그래프 나옴)★ 수치형 -> 범주형 수치화: 로지스틱 회귀모델(p-value) 1. 시각화 - Seaborn 사용 1) histplot()Age(수치형) -> Survived(범주형)hue를 사용해야된다.sns.histplot(x='Age', hue='Survived', data=titanic, bins=20)plt.show() Fare(수치형) -> Survived(범주형)sns.histplot(x='Fare', hue='Survived', bins=20, data=titanic)plt.show() 2) Density Plot - Seaborn 사용kdeplot() Age(수치형) -..

★ 범주형 vs 범주형- 교차표: crosstab()- 시각화: 100% stacked Bar, Mosaic Plot- 수치화: 카이제곱 검정 1. 교차표 범주형 vs 범주형을 비교하기 위해서는 교차표를 먼저 만들어야된다. - Pandas 사용crosstab() Sex(범주형) -> Survived(범주형) 교차표pd.crosstab(titanic['Sex'], titanic['Survived']) Embarked(범주형) -> Survived(범주형) 교차표pd.crosstab(titanic['Embarked'], titanic['Survived']) ※ 교차표의 속성값(normalize)'index': 각 행의 상대적인 비율(각 행의 합이 1)'columns': 각 열의 상대적인 비율(각 열의 합..

범주형 -> 수치형 그래프를 나타내려면 어떤 도구를 사용할까?★ 범주형 -> 수치형 시각화 도구 barplot(), boxplot() 데이터 불러오기 전처리 과정은 타이타닉으로 했다. 1. 시각화 - Seaborn 사용1) barplot(): 범주값의 평균을 비교 할 수 있다.sns.barplot(x='Survived', y='Age', data=titanic)plt.show() 생존자와 사망자 각각의 나이 평균을 볼 수 있는 것사망자: 31세생존자: 28세 2) boxplot(): 범주값 간의 값 분포를 비교sns.boxplot(x='Survived', y='Age', data=titanic)plt.show() 생존자 사망자 각각의 평균, 중앙값, 사분위수, 이상치 판단을 할 수 있다. 생존자 중..

상관 분석은 수치형 변수 x에 대한 수치형 변수 y의 관계를 분석할 때 사용상관 분석은 산점도를 사용해 시각화 두 수치형 변수 x와 y가 어떤 관계를 보이는지, 얼마나 강한 관계인지 판단하는데 중요한 관점이 직선이다. ★ 수치형 vs 수치형 시각화는 산점도(Scatter Plot, Pair Plot, Joint Plot) 사용★ 수치형 vs 수치형 수치화는 상관계수(상관 있냐/없냐?), p-value(이 대립가설 신뢰 할 만해?) 사용★ 귀무가설 vs 대립가설 개념 1. 시각화 1) 산점도산점도는 두 변수간의 관계를 나타내는 그래프 - Matplotlib 사용 scatter() plt.scatter(x='Temp', y='Ozone', data=air)plt.xlabel('Temp')plt.ylabel(..

범주형은 분류개념이다.타이타닉 데이터에 Pclass는 1, 2, 3 이렇게 주어지는데, Pclass는 1>2>3 이런 순서의 개념을 가지고 있는 것이 아니고 분류의 개념을 가지고 있기때문에 범주형인 것이다. ★ 범주형(질적 데이터)을 수치화하려면 범주별 빈도수, 비율 등을 통해 할 수 있다.★ 범주형(질적 데이터)을 시각화하려면 Bar Plot, Count Plot, Pie Chart 등의 시각화 도구를 사용한다. 데이터는 타이타닉 파일로 진행된다. 1. 수치화 범주형 변수는 범주별 빈도수와 비율을 기초통계량을 통해 확인한다. Pclass 별로 1등석은 몇 명이 탑승했는지, 2등석은 몇 명이 탑승했는지 등을 알 수 있다.비율로 나타내고 싶으면 normalize=True로 설정한다.print(titani..

Seaborn은 Matplotlib 기반으로 작성된 고수준 인터페이스 시각화 도구Matplotlib보다 훨씬 다양한 스타일 테마를 지원Matplotlib 보다 좋다는 말은 아니다! 데이터 읽어오기, 전처리 과정 생략~ 타이타닉 데이터 실습이다. 1. 기본 그래프 1) Histogram histplot(): 단일 변수의 데이터 분포를 히스토그램으로 표시 => 빈도수 표시로 이해 Age 열의 분포를 확인 => 20대는 몇명?, 30대는 몇명?, 70대는 몇명?sns.histplot(x='Age', data=titanic, bins=16, ec='k')plt.show() Age 열 분포에 Survived라는 열을 hue로 설정해주면 나이 별로 생존자를 표시해준다.sns.histplot(x='Age', hue=..