서론, 세계 최대 비디오 스트리밍 서비스 기업 넷플릭스! 여러분, 이용하시는 거죠? 넷플릭스는 2019년 당시 7,787개 이상의 콘텐츠를 보유하고 있으며 전 세계 1억3,500만명의 유료 고객과 계약을 맺었다고 발표한 바 있습니다. 많은 사람들이 넷플릭스를 이용하고 있는 만큼 수년간 넷플릭스 트렌드를 파악하는 것은 곧 현대인의 트렌드를 파악할 수 있는 방법이라고 생각됩니다. 따라서 이번 글에서는 넷플릭스 영화와 TV쇼 타이틀의 데이터셋을 분석하여 몇 년간 어떤 경향이 있었는지 알아보려고 합니다. 이 글을 통해 넷플릭스가 어떤 방식으로 빅데이터를 수집, 분석하고 사용자 기반 서비스를 확장해왔는지 알 수 있을 것입니다.데이터셋 데이터셋은 데이터 분석 플랫폼인 kaggle에서 획득하였으며 추가적으로 다양한 변수를 포함하고 있습니다. 영화나 텔레비전 프로그램의 제목과 함께, 감독, 출연자, 날짜, 개봉 연도, 설명, 기간등을 추가했습니다. 이런 변수를 사용해서 좀 더 다양하게 관찰하고 시각화 결과를 만들 수 있었습니다.
분석
이 차트를 보면 영화 타이틀 수가 TV 쇼보다 많다는 것을 알 수 있습니다. 하지만 2020년이 다가오면서 영화의 수는 떨어지고 TV쇼가 증가합니다. 왜 그럴까요?
유력한 원인 중 하나는 코로나19 유행입니다. 코로나19 유행으로 인해 영화 산업이 축소된 것입니다. 또 동시에 넷플릭스 오리지널 시리즈는 흥행하고 TV쇼는 확대된 것으로 분석할 수 있습니다.
이 두 채팅은 2010년부터 2020년까지 매달 추가된 콘텐츠 수와 월평균 타이틀 수를 나타내고 있습니다. 보시다시피 2월에 추가된 콘텐츠의 양이 가장 적고 10월이 가장 많습니다.
이 boxplot에서는 상위 11개국의 넷플릭스 영화 상영 시간을 볼 수 있습니다. 주목할 만한 것은 2001년 119분에서 2020년 90분으로 수년간 평균 상영시간이 감소했다는 것입니다.
이 차트에서는 등급별 영화/TV 쇼 타이틀 수와 출연진의 반복 횟수를 볼 수 있습니다. R등급 영화나 발리우드 배우가 많이 나타나는 것을 볼 수 있지요.
넷플릭스 제목에서 가장 많이 나타난 단어를 워드클라우드로 만들어 보면 다음과 같습니다. 사랑과 크리스마스에 관한 주제가 많은 게 눈에 띄네요.
결론 넷플릭스가 성공한 핵심 요인 중 하나는 빅데이터 활용에 있습니다. 고객의 이용 정보나 패턴을 수집하고 그들이 다음에는 어떤 콘텐츠를 보면 좋을지 추천해 주세요. 넷플릭스는 이러한 형태의 데이터 수집 및 분석을 지속적으로 진행함으로써 매년 더욱 발전할 수 있었습니다. 세계 어느 지역에 어떤 콘텐츠를 추가하는지 파악하고 계속해서 사용자 기반 서비스를 향상시키는데 있어서 그들이 수집한 빅데이터는 매우 중요하게 작용했다고 생각합니다.
데이터 활용, 넷플릭스 같은 기업만 가능한 건가요? 아닙니다! 우리도 충분히 많은 양의 데이터를 수집하고 이를 분석하여 다양한 분야에 적용할 수 있습니다. 스파이더 김으로부터 원하는 정보를 빠르게 수집해보세요!
출처 : https://nycdatascience.com/blog/r/eda-on-netflix/
데이터를 바탕으로 연구해 보고 싶은 분야가 있습니까? 스파이더킴으로 손쉽게 원하는 데이터를 수집해보세요!