수리통계학회 Sample 학회
경영경제학부 임정훈(21400641) & 상담심리사회복지학부 안동현(21500386)

버스비가 500원일 때부터 버스를 타 온 나로서 302번 버스 도입은 근래 가장 큰 일상의 변화가 아닐까 싶다. 외부거주를 처음 했을 당시, 지금처럼 택시나 카풀이 활성화되어 있지 않아 2, 3교시 전 학교에 들어가는 버스는 항상 만석이었으며, 좌석에 앉기 위해서는 적어도 5분 일찍 나와야 했던 기억이 아직도 생생하다. 해당 프로젝트는 위 ‘2, 3교시 전 학교에 들어가는 버스는 항상 만석이었다.’라는 나의 기억 속에서 출발한 ‘그렇다면 302번 버스만으로 원활한 등교가 가능할까?’라는 지극히 개인적인 질문에서 시작되었다.

본 프로젝트는 2018~19년 1, 2학기 학교 버스 데이터를 바탕으로 302번 버스만으로 원활한 등교가 가능한지를 알기 위해 ‘연도, 학기 상관없이 요일 별, 교시 별 등교하는 유입 인구 분포는 같다.’라는 가정에서 2020년 2학기 요일 별, 교시 별 유입 인구를 예측하였다. (위 예측은 2020년 2학기가 전 학기들과 같이 코로나 상황이 없다고 가정한 예측이다) 우선 위 데이터의 요일 별, 교시 별 유입 인구를 다음과 같이 나타냈다. x축은 1~6교시를, y축은 비율을 (교시마다 등교하는 인구 수 / 해당 학기 외부거주자 전체 수) 의미한다.

 

시각화한 결과, 2018년 1학기 수요일, 2019년 1학기 금요일 빼고는 연도, 학기 상관없이 요일 별, 교시 별 분포 모양이 비슷하다는 것을 알 수 있다. 이는 연도, 학기 상관없이 요일 별, 교시 별 유입 인구 분포가 같을 가능성이 크다는 뜻이다. 다음으로는 요일별로 연도, 학기에 따른 교시 별 유입 인구 분포 간의 차이가 있는지를 알기 위해 비모수적 검정 방법인 Kruskal-Wallis H test (귀무가설 : 모든 집단의 중위수가 같다 vs 대립가설 : 한 집단이라도 중위수가 같지 않다)를 통해 검정하였다. (현재 데이터가 one-way ANOVA의 전제 조건인 정규성을 불만족하기에 Kruskal-Wallis H test를 사용하였다)

검정한 결과, 모든 p-value가 0.05보다 높기에 연도, 학기 상관없이 요일 별, 교시 별 유입 인구 분포 간의 차이가 없는 것을 알 수 있다. 즉 연도, 학기 상관없이 요일 별, 교시 별 유입 인구 분포의 모양이 비슷하고, 서로 간의 차이가 없기에 2018~19년 1, 2학기의 요일 별, 교시 별 유입 인구 분포들은 같은 분포라 할 수 있다. 그러므로 ‘연도, 학기 상관없이 요일 별, 교시 별 등교하는 유입 인구 분포는 같다.’라는 가정을 만족하기에 위 분포를 바탕으로 2019년 기준 외부거주자 수(950)와 2018~19년 1, 2학기의 요일 별, 교시 별 유입 인구 비율들의 평균을 곱하여 2020년 2학기 요일 별, 교시 별 유입 인구 수를 다음과 같이 예측하였다.
 
현재 교시 사이마다 총 6번, 버스가 학교에 들어온다. 버스 한 대당 최대 30명을 태울 수 있다고 가정하면 교시 사이마다 원활하게 등교할 수 있는 인구 수는 최대 180명이다. 하지만 예측한 결과, 월, 화, 수, 목, 금요일 2교시 유입 인구 수가 180명보다 많기에 302번 버스만으로는 해당 시간대에 원활한 등교가 힘들 것으로 예상된다.

해당 예측은 현재의 코로나 상황을 배제하였고, 카풀 및 택시 요소를 반영하지 않았기에 정확한 예측이라 할 수 없다. 그러나 월, 화, 수, 목, 금요일 2교시 유입 인구 수는 기본 200명에서 최대 280명으로 예측되기에 카풀 및 택시 요소를 반영하여도(2018~19년 1, 2학기 버스 데이터도 어느정도 카풀 및 택시 요소를 반영된 데이터이기에) 해당 시간대에는 추가 버스 운영이 필요하다고 판단된다.

*본 프로젝트는 손중권, 김헌주 교수님 지도 하에 있는 수학통계학부 Sample 학회에서 진행되었습니다

 

저작권자 © 한동신문 무단전재 및 재배포 금지