KONAN TECHNOLOGY

홍보센터 보도자료

Press release 보도자료

순식간에 4천字 보고서가 ‘뚝딱’… 성능∙비용∙보안 다 잡은 ‘코난 LLM’ 베일 벗었다

2023.08.17


- 코난테크놀로지, 17일 기자간담회 통해 자체개발 대규모 언어모델 Konan LLM 최초 공개


- 20억 건의 고품질 문서 학습전체 토큰 수는 7천억 개로 국내 최다


- 질의답변 가능한 한국어 토큰 수는 4K(4천개)… 한국어 답변성능 매우 우수


- 보고서 초안 생성부터 문서 첨삭까지, 벡터검색으로 답변 근거까지 제시해 신뢰도 확보


- 온프레미스로 제공, 성능비용보안 다 잡은 국내 최초 B2BB2G LLM으로 승부수

 




<이미지1. 코난테크놀로지가 17일 서울 콘래드 서울에서 기자간담회를 갖고 자체개발 초거대 언어모델 ‘Konan LLM’을 최초 공개했다.>

 

인공지능 소프트웨어 전문기업 코난테크놀로지(대표이사 김영섬 www.konantech.com) 17일 오전 11시 콘래드 서울에서 기자간담회를 갖고 자체개발 대규모 언어모델 ‘Konan LLM’(이하 코난 LLM)을 최초 공개했다.


최근 생성형 AI에 대해 높아진 관심만큼이나 그 사용수요 또한 늘어나는 가운데, 보안과 비용 부담 그리고 정확하지 않은 답변을 생성하는 등 여러 기술적 한계도 드러나고 있다.

코난테크놀로지는 이러한 문제들을 해결하고자 보안 우려와 고객 비용 부담은 덜고 답변 신뢰성은 높일 수 있는 최적화 된 모델을 개발해 냈다. 또한 한국어 특성에 기반한 구조로 답변 성능이 매우 뛰어나고 보고서 초안생성에 특화된 B2BB2GLLM을 표방한다. 이렇듯 코난 LLM퍼포먼스와 비용 효율성 그리고 서비스 특색을 모두 갖춘 파운데이션 모델로, 차별화 포인트는 △국내 최다 학습 토큰 △20억 건에 달하는 양질의 문서기반 데이터 그리고 △ 벡터검색 기술이다.


기업 전용 온프레미스 LLM으로 보안 우려 줄이고, 벡터검색 지원으로 답변 신뢰성 높인다


먼저 코난 LLM '보안'를 강점으로 내세운다. 기업 전용 LLM On-premise(이하 온프레미스)로 제공해 기업 내부 데이터 유출을 막겠단 전략이다. 온프레미스형 LLM은 회사의 기밀이 외부로 유출되거나 LLM 학습에 회사의 데이터가 사용되는 것을 원천적으로 방지할 수 있기 때문에, 보안에 대한 우려가 없다. 따라서 보안을 중시하는 기업과 기관에게 매력적인 방식이다.


또한, 벡터 검색 엔진 구동으로 잘못된 정보를 내놓는 할루시네이션을 줄인다. 벡터 검색기반의 ‘Konan Search’(코난 서치)가 연동돼 답변과 함께 명확한 근거 및 출처가 참고문서형태로 제시되기 때문이다. 코난테크놀로지는 자체 개발한 디스크 기반 벡터 검색 기술을 상용화 한 국내 유일기업으로, 10억 건 이상의 문서에서 결과를 도출해내는 하이엔드 검색 기술을 축적했다.


국내 최다 7천억 개 토큰 학습 파라미터 사이즈는 줄여 비용은 합리적, 성능은 최대화


한편, 거대언어모델의 고비용 이슈를 해결하기 위해 학습 토큰은 많이, 파라미터(매개변수) 크기는 줄이는 방식을 택하며 비용 효율성도 달성했다. 적절한 파라미터로 고객의 운영부담은 낮추고, 토큰은 늘려 LLM의 품질을 향상시키는 방침이다.


이번에 공개한 코난 LLM은 전체 토큰 4,920억 개, 한국어 토큰 2,840억 개를 학습했다. 11월께 내놓을 모델에는 전체 학습 토큰이 7,000억 개, 한국어 토큰은 3,220억 개가 쓰인다. 코난 LLM의 토큰 규모는 국내 최대 수준이다. 오픈소스 기반의 LLAMA2보다 한국어를 270배 많이 학습했다.


한편 파라미터는 각각 131억 개(13.1Billion), 410억 개(41.0B) 버전으로 제공된다. 오픈AI GPT-3.5 1750억 개, 네이버 HyperClova2,040억 개 인 것과 비교하면 차이가 크다.

즉 파라미터 사이즈는 줄이고 학습 토큰은 늘려 비용은 합리적으로 성능은 최대화 시키겠단 전략이다. 기업이 ChatGPT와 같은 LLM을 도입하기 위해서는 다수의 GPU 서버가 필요해 비용이 늘어난다. 고객 입장에서도 원하는 용도나 예산에 맞춰 13.1B 또는 41B 중 최적화 된 파라미터 사양을 선택함으로써 비용 부담을 덜 수 있다.


비결은 자체 보유 데이터에 있다. LLM을 개발하기 위해서는 최소 1천억 개 이상의 토큰을 확보할 수 있는 ‘양질’의 문서를 가지고 있어야 하며, 좋은 글을 생성하고 글의 내용을 채울 정보와 지식도 모두 토큰에서 나온다. 학습 토큰이 많을수록 뛰어난 성능을 지닌 LLM을 개발할 수 있으며, 토큰의 원천이 되는 문서 자체의 품질 또한 매우 중요한 이유다. 코난테크놀로지는 2007년부터 국내외 데이터를 실시간 수집분석해 온 온라인 미디어 심화 분석 서비스 ‘PulseK’(펄스케이)를 통해 약 205억 개 문서를 자체 확보했다. 이 중 트위터나 뉴스 댓글 등 단문을 제외한 20억 건을 학습에 사용했다.


보고서 초안생성에 특화질의답변 가능한 한국어 토큰 수는 4천개


코난 LLM은 문서를 다루는 모든 기업의 △문서 초안 생성 △문서 요약 △질의응답을 지원한다. ‘문서 초안 생성’에 집중해 파인 튜닝 함에 따라 각종 문서, 보고서, 보도자료 등의 초안을 빠르고 손쉽게 생성해주는데 최적화됐다. 간단한 프롬프트 만으로 4천자 분량의 문서를 만들어내고, 문서생성 중 추가적인 질의, 첨삭 및 참고자료 생성도 동시에 수행한다. 따라서 문서 작성에 할애되는 시간과 비용을 절감시키고 작업 생산성을 대폭 향상시킨다.


비결은 Context length*에 있다. Context Length가 크다는 것은 한번에 보다 긴 글을 생성할 수 있다는 것을 의미한다. 코난 LLM 41B는 한번에 처리할 수 있는 토큰이 4K. Polyglot-ko 2K 등 공개돼 있는 오픈소스 모델보다 2배 이상 뛰어나다. LLAMA2에서 생성되는 한국어 단어 숫자는 코난 LLM 20% 정도에 불과하다. 코난 LLM이 문서 초안 생성 등에서 경쟁사 대비 뛰어날 수 밖에 없는 이유이자 곧 매우 우수한 한국어 생성 및 답변 능력이 기대되는 지점이기도 하다. *프롬프트와 답변을 묶어서 한번에 처리할 수 있는 토큰의 최대 갯수


코난 LLM은 온프레미스로 고객에게 제공되며, 라이선스 또는 연간 구독모델로 판매된다. 또한 ‘Konan Chatbot’(코난 챗봇) AICC(AI for Contact Center) 비즈니스를 지원하는 ‘Konan VoiceBot’(코난 보이스봇)과 같은 자사의 서비스에도 코난 LLM을 도입해 여러 비즈니스 수요에 대응할 계획이다.  


기자간담회서 최초 시연답변 성능과 뛰어난 분량, 문서 초안생성부터 첨삭까지 지원해 호평


한편, 출시를 기념해 열린 17일 기자간담회는 김영섬 대표이사의 오프닝으로 시작됐다. “생성형 AI시장에 빠르게 대응하고자 기술개발과 장비투자를 이어 왔고, 오늘 이 자리에서 노력의 결실을 공개하게 돼 기쁘다앞으로도 기술 고도화에 매진하겠다고 전했다.


이어서 임완택 전략기획본부장이 코난테크놀로지, 온프레미스 LLM 시대를 열다라는 주제로 △국내 생성형 AI 시장 개요 △생성형 AI시장 참여자 분류 등에 대해 개괄적으로 짚은 뒤 △코난 LLM 특장점 및 비즈니스모델에 대해 소개했다. 이후 자체 개발환경을 소개하고 실시간 제품 시연이 최초로 이뤄졌다. 시연은 도원철 상무이사가 맡았다. 어떠한 프롬프트에도 뛰어난 답변 성능을 보여주었고, 답변 분량도 3~4천字 규모로 풍부했다. 또한 채팅 방식을 통해 문서 생성 중에도 질의가 대화형으로 지원되는가 하면, 도표(테이블), 이어쓰기, 요약하기 등 문서 첨삭까지 차별화된 기능들이 소개돼 현장에서 호평을 받았다.


발표 이후 Q&A 세션에서는 즉석 질문에 대해 심도 있는 답변을 제시하고, 취재진과 다양한 인사이트를 나누며 행사가 마무리됐다.


코난테크놀로지는 1999년 설립 이후 자연어 심층 처리 분야에서 국내 최고 수준의 입지를 다지고 인공지능 원천 기술을 축적해왔다. 그리고 생성형 AI 시장에 대한 선구안으로 자체개발 거대언어모델 보유 기업으로 도약했다. 신규 동력을 내걸은 앞으로의 기술 행보도 주목된다.().




<이미지2. 임완택 코난테크놀로지 상무이사가 코난LLM을 발표하고 있다.>



<이미지3. 도원철 코난테크놀로지 상무이사가 코난LLM을 시연하고 있다.>

 

<이미지4. 코난 LLM 기자간담회 Q&A 모습.>

 


<이미지5. 채팅방식을 통해 문서생성 중에도 대화형으로 문서첨삭이 이루어지고(), 답변 근거로 참고자료가 제공돼 신뢰성을 높인다.().>



<이미지6. 코난 LLM 사용화면_문서초안 생성_질의가능한 한국어 토큰 수가 4K로 뛰어난 한국어 답변성능을 자랑한다.>



<이미지7. Konan LLM BI.>




<이미지8. 코난테크놀로지 CI.>