"우리는 현재 빅데이터 시대에 살고 있다. 빅데이터라고 하면 소셜 데이터 분석이란 표현과 자주 혼용돼 소셜 네트워크 서비스의 데이터만을 의미하는 것으로 알고 있는 사람들도 있다. 그러나 실제로 빅데이터는 다양한 곳에 다양한 형태로 존재하는 데이터를 모두 말하며, 빅데이터는 우리가 인지하지 못한 채로 우리의 생활에 이미 깊숙이 다가와 있다.
빅데이터 분석을 통해서 과거 불가능한 것으로 여겨졌던 사용자에 대한 보다 심층적인 이해가 가능하기 때문에 기업과 정부 등에서 적절히 활용을 하면 다양한 부문에서 효과를 기대할 수 있지만, 빅데이터 수집과 분석 과정에서 문제가 될 수 있는 개인정보는 현실적인 해결책을 적용해 개인정보에 대한 침해가 되지 않도록 세밀한 주의가 필요하다.
빅데이터와 비정형 데이터의 활용
빅데이터의 데이터 증가량은 매년 폭증하고 있다. 시장조사기관 IDC에 따르면 2020년에는 44 제타바이트(Zettabyte, 1ZB=1000EB)에 이를 것으로 예측되는데, 그 중 비정형 데이터(Unstructured data)가 90%에 달할 것이라는 전망이다. 현재 이 시간에도 생산되는 디지털 데이터의 80% 이상이 비정형 데이터라는 것은 비정형 데이터 분석의 중요성과 활용 가치에 대한 잠재성을 말해준다.
비정형 데이터는 사물인터넷(IoT) 데이터, 이메일, 팩스, 이미지, 텍스트 등 다양한 형태로 존재하는데, 이번 글에서는 비정형 분석 방법론을 사용하는 비정형 텍스트 데이터에 대해 다루고자 한다.
비정형 데이터는 언론사를 통해 나오는 뉴스 데이터부터 민간 및 공공기관이 생산하는 데이터, 그리고 사용자들이 국내외 서비스를 통해 생산하는 모든 데이터를 포함해 그 양을 가늠해 볼 수 있다. 정확한 통계 수치가 나와 있지는 않지만 트위터·페이스북·인스타그램 등의 SNS, 블로그·카페, 포털 서비스, 커뮤니티, 뉴스, 공공·민간 보유 사이트 등에서 수집할 수 있는 양을 가늠해 보면 하루 약 1000만 건을 상회하는 것으로 보인다. 이런 추세라면 한 달에 약 3억 건 이상, 1년이면 약 40억 건 이상이 될 것으로 추정된다. 추정 수치는 댓글을 제외한 순수 게시글의 수다.
이 양이 정확한 것은 아니지만 데이터의 총량을 대략적으로 알고 있는 상태에서 필요한 데이터를 수집했을 때 모수에 근접한 데이터를 확보했는지를 가늠할 수 있다는 점이 중요하다. 데이터 수집에서 입맛에 맞는 데이터만 추출하게 되는 추출 오차(Selection bias)가 발생하면, 후속 분석의 결과를 신뢰하기가 어려울 수 있다는 점에 유의해야 한다.
==중략==
관련기사 전체보기 "