"1972년 설립된 한국방송통신대학교(이하 방송대)는 국립원격대학으로 우리나라 국민 모두가 언제 어디서나 학습할 수 있는 온라인 교육 환경은 물론 오프라인에서 학습할 수 있는 지역 캠퍼스를 제공하고 있다. 2018년 현재 방송대에는 직업과 나이가 다른 약 11만 명의 학생들이 온라인 교육 환경을 이용하여 학습하고 있다.
특히 방송대는 장애학생들이 어려움 없이 강의를 들을 수 있도록 다양한 편의를 마련하고 있으며, 이러한 편의기능 중 하나로 청각장애 학생들을 위해 일부 동영상 강의에 자막을 덧붙여 제공하고 있다. 최근 방송대는 해당 기능에 딥러닝 기반의 실시간 자막 생성 기술을 도입해 강의 자막 자동 생성 프로세스를 고도화함으로써 학생들의 편의를 높이고 있다.
속기사가 손수 자막 제작…지원 가능한 강의 제한돼
방송대는 매년 학부와 대학원 강의로 천 여 개의 과목을 서비스하고 있다. 일반적으로 과목당 15강의 온라인 동영상 강의를 제공하고 있다. 동영상 강의는 제작 후 최대 3년간 사용할 수 있기 때문에 매년 평균적으로 300개 이상의 과목에 대해 과목당 15개 강좌를 새로이 만들어야 한다. 기존에 제작돼 있는 수많은 동영상 강의에 더해 매년 수천 개의 강의가 새롭게 제작되는 셈이다.
하지만 이러한 환경에서 기존에 방송대가 보유하고 있던 자막 생성 방법으로는 모든 동영상 강의에 자막 서비스를 제공하는 것이 불가능하다. 방송대는 속기사가 직접 동영상을 시청하며 자막을 작성하고 이를 동영상 내에 제공해왔지만, 속기사들이 시간당 작성할 수 있는 자막의 양에는 한계가 있다. 또한 해당 분야에 대한 전문 지식이 부족해 특수한 단어를 알아듣지 못하는 경우가 있어 다른 사람의 점검 및 후보정 작업이 요구됐다.
강의 내용이 제대로 전달되지 못하면 시험에서 불이익을 받는 학생이 나올 수도 있으므로 정확한 자막 생성은 매우 중요하다. 정확한 자막을 만들기 위해서는 많은 인력과 시간이 소요되기에 일부 동영상 강의에만 자막 서비스를 제공할 수 있었다. 따라서 자막이 꼭 필요한 청각장애 학생들은 수강할 수 있는 강의가 매우 한정적이다.
이를 개선하기 위해 방송대는 코난테크놀로지가 보유한 자연어 분석 기술 및 음성 인식 기술을 활용해 자막 생성 시스템 구축에 나섰다. 멀티미디어 자산 관리 솔루션(Multimedia Asset Management, MAM) ‘코난 디지털아크(Konan DigitalArc)’를 기반으로 인력에 의존하던 기존 방식을 일신해 자동화된 자막 자동 생성 프로세스를 구성함으로써 빠르고 정확한 자막을 제작할 수 있다는 설명이다.
신속·정확한 자막 생성 시스템 마련
자동화된 자막 생성에서 가장 중요한 것은 정확도다. 특히 정확도 측면에서는 강의 내에서 교수가 강의하는 내용을 정확히 캐치해 텍스트로 옮기는(Speech to Text, STT) 것이 중요한데, 대학 강의의 경우 일반적으로 사용되지 않는 전문용어나 고유명사가 빈번하게 사용된다는 어려움이 있었다.
보편적인 학습 모델을 활용한 프로젝트 초기에는 자막 생성의 정확도가 80% 수준에 머무르기도 했다. 방송대 측은 자막 자동 생성 기능을 제공하고 있는 타 온라인 동영상 사이트들이 영상에 따라 자막의 정확도가 심하게 차이가 난다는 점을 지적하며, 학생들이 방송대에서 제공하는 모든 강의에 대해 정확한 자막을 제공받을 수 있어야 한다고 강조했다.
이에 따라 방송대와 코난테크놀로지는 속기사들이 수작업으로 제작했던 자막이나 학습교재와 같은 텍스트 데이터를 활용해 학습시킴으로써 자막 정확도를 높였다. 특수기호나 자막 데이터에 포함된 타임레코드를 제거하는 등 학습용 데이터를 통합하는 과정을 자동화하고, 이렇게 축적한 데이터로 학습시킨 결과 고유명사나 전문용어를 높은 확률로 잡아낼 수 있게 됐다.
여기에 코난테크놀로지가 보유한 자연어처리 기술을 적용함으로써 90~95%에 달하는 정확도를 확보했다. 남아있는 오류를 잡아내고 품질을 개선하기 위해 여전히 인력에 의한 후보정 작업을 병행하기는 하지만, 이전에 비해 훨씬 적은 인원으로 향상된 수준의 자막을 제공할 수 있게 됐다는 설명이다.
= 이하 생략 =
관련기사 바로가기(컴퓨터월드 7월호)"