KONAN TECHNOLOGY

Deep Speech D:Listener

D:Listener를
사용해야 하는 이유

실시간 자막 생성부터 전송까지 한번에!
자막 데이터를 통한 학습 콘텐츠 제작이 필요하다면
D:Listener가 해답이 되어 드리겠습니다.

D:Listener는 품질 높은 화자 적응
end-to-end 방식의 음성인식 엔진,
영상 처리, 자연어 처리(NLP) 등
기술을 활용하여
대학,
공공교육 등 다양한 콘텐츠에서
자막을 자동으로 생성하는 솔루션
입니다.

BENEFITS

Benefit 01.

자막 제작 비용 및 시간 절감

과거 속기사에 의뢰하여 오프라인으로 자막을 제공받는
방식에 비해 자막 서비스 제공 시간 단축 및 자막 생성 비용이
½ 수준으로 절감됩니다.


Benefit 02.

업무 효율성 향상

자막 등록 자동화로 인한 업무 효율성 향상을 가져옵니다.
또한 자막 생성부터 관리 및 전송까지 전 과정을 자동화하여 체계적인
자막 파일 관리를 할 수 있습니다.


Benefit 03.

학습 자막 관리 편의성 증대

메타데이터를 활용한 신속한 내용 검색 및 유관 시스템 연계를 통한 학습 자막 관리 편의성 증대 효과를 기대할 수 있습니다.

FEATURE

D:Listener는 End-to-end 음성인식 기술의 최신 인코더 기법인 컨포머 신경망을 적용하여 트랜스포머 신경망 기반
인코더를 사용하는 경쟁사의 주요 기술보다 오인식률을 17% 정도 개선했습니다.
또한, 인식 결과를 반자동으로 수정할 수 있는 타임코드 기반 편집 환경 및 맞춤법 교정기를 통하여 사소한 인식 오류조차도 완벽하게 교정하여 고객 서비스에 즉각 반영됩니다.

후보정 관리

  • 영상 재생과 자막 편집이 독립적으로 동작하여 재생과 동시에 편집
  • 자막 편집과 동시에 영상 재생 화면에서 실시간으로 편집된 자막 검수
  • 신속한 편집을 위한 다양한 편집 단축키 제공
  • 타임코드(영상 프레임 단위) 기반으로 자막 노출 구간 상세 조정
  • 음성 파형(묵음 구간) 기반 빠른 자막 노출 및 분할 구간 설정
  • 구간반복, 현재 구간 재생, 배속 재생, 자막크기 조절 등 다양한 편의 기능 제공

맞춤법 검사

  • 문단분리, 구두점 표시, 맞춤법 보정 기능
  • 철자, 오타, 띄어쓰기 기능
  • 수동형 문장을 능동형으로 겹치는 표현 보정 및
    삭제 기능

End-to-end 음성인식 모델

  • 특정 화자에 대한 화자적응 학습으로 특정 화자에 대한 인식률 개선
  • 언어 및 음성 모델의 메타 정보 확인 및 관리 기능

D:Listener

  • 최신 딥러닝 학습 기반의
    음성인식 엔진을 통해 실시간 환경에서도
    높은 인식률을 자랑합니다.

  • 발음, 발성 및 사투리 등 의 표준어에 맞는
    맞춤법 검사 기능을 제공합니다.

  • 타임코드 기반의 다양한
    자막 편집 기능을 제공하여, 효율적인
    자막 편집 기능을 지원합니다.

  • 자연어 처리 기능 및 동의어, 불용어
    사전 등의 관리기능을 제공하여 자막
    정확도가 향상됩니다.

  • 화자적응 end-to-end
    음성인식 모델을 제공하여, 특정 화자의
    인식률 향상이 가능합니다.

  • LCMS 및 원격화상강의 등의
    교육 플랫폼과 연동할 수 있는 표준
    RESTful API를 제공합니다.

TECHNOLOGY

개념도 - D:Listener

USE CASES

D:Listener는 전통적 캠퍼스 중심에서 벗어나 비대면 학습체계로 변화하는 시기에 발맞추어 교육 패러다임 변화와 글로벌 환경 변화에 부응할 수 있도록 교육과 ICT 사업이 융합된 차세대 교육 플랫폼인 에듀테크(Edu-Tech)를 활용하여
온라인 교육 환경 구축 및 교육 환경의 질적 성장을 이끌고 있습니다.

화상수업에 청각장애학생을 위한 ‘실시간 자막 서비스’ 와 일반인이 속기사 이상의 속도로
자막 편집을 수행할 수 있도록 해주는 ‘맞춤법 검사 및 자막편집기’ 를 제공하고 있습니다.

CASES01. AI기술기반 음성인식 자막지원 프로그램 개발

  • 특수 장애 학생의 균등한 학습 환경 구축 도모
  • 원격 화상 강의 및 학습지원 플랫폼과 연계한 AI음성인식 엔진 기반의 자동자막 지원 서비스
  • 다양한 학습 환경에 맞춰 직관적인 UI/UX 개발을 통한 접근성 향상
  • 자막 편집 및 관리 기능, 모니터링 및 통계 기능을 제공

CASES02. 대학교 온라인 학습, 방송 지원 시스템 구축 및 개발

OUN 방송 음성인식 자막생성 시스템 구축

  • 방송 및 강의 영상 콘텐츠 관리 시스템 구축
  • 기존 CMS와 연계된 음성인식 기술을 적용하여 자동화된 자막 정보를 제공하는 환경을 구축
  • 화자 별 음성 및 언어모델 학습, 후보정을 통해 자막의 품질을 향상
  • 일반학생을 비롯한 청각장애 학생 및 외국인 학생학습 교재로 활용
한국방송통신대학교

자동 자막 생성 음성인식 시스템 개발

  • 최신 음성인식 기술을 활용한 자동 자막생성 방식
  • 자막관리 시스템의 재생/업로드/다운로드, 자막정보 업데이트, 수정, 전송 워크플로우를 적용
  • 음성인식으로 인한 자막 자동추출은 80%이상의 정확도를 확보, 80% 미만의 정확도는 향후 80% 이상의 정확도를 확보할 수 있도록 구성 및 적용
  • 최종 결과에 대한 검수 및 수정이 용이하게 이루어지도록 설계
아주대학교

고품질 자막 서비스 및 사용자 편의 기능 제공

  • 학부 매체강의 청각장애 학생을 위한 지속적인 고품질 자막 서비스 제공
  • 학습 모델 업그레이드 및 후처리 기능 개선을 통한 자막 정확도 향상
  • 영상 자막 가독성 향상을 위한 웹 및 앱 기능 개선을 통한 사용자 편의 기능 제공
  • 자막 플레이어 기능 개선을 통한 영상 자막의 가독성 및 품질의 완성도 극대화
경희사이버대학교
D:Listener는 국립특수교육원, 한국방송통신대학교, 아주대학교, 경희사이버대학교 등의 기관에 구축 및 적용됐습니다.

국립특수교육원 한국방송통신대학교 아주대학교 경희사이버대학교