KONAN TECHNOLOGY

홍보센터 뉴스룸

Press news 뉴스룸

[컴퓨터월드] 빅데이터·인공지능·클라우드 통해 진화 중인 ‘검색엔진’

2022.12.01

다양한 기술 통해 기술 성숙도 향상, 데이터 검색 수요 꾸준히 증가

[컴퓨터월드] 우리는 정보 홍수 시대에 살고 있다. 정보가 기하급수적으로 늘어나면서 필요한 정보 또한 이에 비례해 늘어나고 있다. 그러나 필요한 정보를 찾아내는 것은 쉬운 일이 아니다. 빅데이터 분석을 위한 검색 기술의 필요성이 높아지고 있는 이유다. 과거 웹 문서 또는 기업 내 문서를 위한 검색 중심에서 이제는 빅데이터 중심의 검색으로 검색 시장이 변화하고 있는 것이다. 대용량 데이터를 체계적으로 관리하고 필요한 정보를 빠르게 찾을 수 있는 검색엔진 서비스를 제공하고 있는 기업들을 만나 이야기를 들어봤다. 


 

늘어나는 데이터에 비례해 검색 시장도 성장

한국데이터산업진흥원에 따르면 검색엔진은 구글이나 네이버 등 포털업체들이 웹상에서 불특정 다수를 대상으로 검색 서비스를 제공할 수 있도록 해주는 핵심 소프트웨어다. 기업이나 공공기관에서 그동안 축적해온 방대한 콘텐츠를 관리하기 위한 수단으로 활용하는 경우가 많다. 이것을 기업용 검색엔진(이하 검색엔진)이라고 한다.

검색엔진은 데이터베이스(DB)에 축적되고 정리돼 있는 정보 가운데 사용자가 필요로 하는 정보를 신속하게 찾아내는 소프트웨어다. 방대한 양의 기업 정보를 효율적으로 관리하고 신속한 의사결정을 뒷받침하기 위해서 반드시 필요한 솔루션이다. 기업 내부의 애플리케이션들을 통합하고, 기업 정보에 접근하는 방법을 단일화하려는 요구가 늘어나면서 검색엔진의 중요성은 더욱 강조되고 있다. 기업이 적재하는 데이터의 종류가 다양해지고 데이터의 양 또한 기하급수적으로 늘어나고 있어 이를 손쉽게 검색 및 분석, 처리해 활용하고자 하는 수요 또한 증가하고 있다.

IBM의 2021년 자료에 따르면, 전체 데이터의 80% 이상이 비정형 데이터로 기업의 95%가 비정형 데이터를 우선적으로 관리, 분석하고 있는 것으로 조사됐다. 그러나 이전에는 활용하지 않았던 비구조적 데이터들이 분석 대상에 포함됨에 따라 이를 어떻게 검색하고 분석해 활용해야 할지 모르는 기업들이 아직 대다수인 것으로 나타났다. 방대한 양의 데이터를 검색 및 분석할 수 있는 기술 및 제품에 대한 요구가 커지면서 검색 기술을 필요로 하는 시장 역시 지속적으로 성장할 것으로 예상된다.

 

옛 기법과 새로운 기법의 적절한 조화 필요

과거에는 사용자가 입력한 검색어와 잘 매칭된 결과를 제공하면 좋은 품질의 검색 서비스로 인식됐다. 이런 이유로 많은 검색 관련 회사들은 양질의 검색 결과를 제공하기 위해 사전 및 랭킹을 기반으로 확장된 검색 내에서 사용자가 만족할만한 결과를 내보내는 방식에 대해 고민했다. 하지만 최근 사용자들은 단순히 색인 데이터베이스에 매칭된 결과가 아닌 의미적으로 정확도가 높은 결과를 원하고 있다. 검색 서비스를 제공하는 기업 입장에서는 그만큼 어려운 과제가 생겨난 것이다.


(기사 중략)


코난테크놀로지 오창민 기업부설연구소 인텔리전트엔진그룹 상무는 ‘문서 추천’과 ‘쿼리 추천’을 언급했다. 문서 추천은 검색 결과 이외에도 사용자가 관심을 보일만한 문서를 추가로 보여주는 것이다. 쿼리 추천은 검색 버튼을 누르기 전에 사용자에 입력하는 쿼리를 자동 완성시켜주는 기능이다. 이들 추천은 이미 십여 년 전부터 검색엔진 서비스에서 일반적인 기능으로 제공하고 있다. 오창민 상무는 “최근 사용자 검색 로그를 정교하게 분석해 자동완성 기능의 정확도를 높이는 연구가 이뤄지고 있다”고 말했다.


(기사 중략)


서로 연관성이 없어 보이는 데이터를 군집화 또는 분류함으로써 좀 더 용이하게 검색 및 분석 할 수 있는 기술들에 대한 요구 또한 높아지고 있다. 이를 위해서는 기계학습과 같은 인공지능 방법론과 함께 전통적인 검색 기법도 필요하다. 다양한 형태의 비구조적 데이터를 검색 및 분석할 수 있는 형태로 저장하는 것은 기존 검색 기법에서 많은 연구가 이루어진 분야다. 이들 데이터를 분석하기 위해서는 인공지능을 활용해야 하기 때문에 기존의 검색 기법과 새로운 방법론을 적절하게 조화시켜 나가야 할 것이다.

코난테크놀로지 오창민 기업부설연구소 인텔리전트엔진그룹 상무는 “인공지능(AI) 기술을 검색엔진에 접목할 수 있는 방법이 무엇보다 중요하다. 생각할 수 있는 한 가지는 AI로 만들어지는 벡터 형식의 데이터를 검색할 수 있게 해주는 것”이라고 말했다. 현재 벡터 검색을 할 수 있는 공개된 알고리즘은 이미 시장에 나와 있다. 다만 대다수 알고리즘은 인-메모리 기반으로만 동작하고 있어 10억 건 이상의 대용량 데이터를 검색하기 위해서는 테라바이트에 가까운 메모리가 필요해 비용에 대한 부담이 크다.

오창민 상무는 “메모리는 휘발성이 있기 때문에 벡터데이터를 디스크에 주기적으로 동기화 해야 하는 문제를 해결해야 한다. 벡터검색 결과와 기존 키워드 검색 결과를 어떤 식으로 결합하고 정렬할 것인지도 고려해야 한다”고 조언했다. 물리적인 측면에서 디스크 기반 초대용량 벡터 검색을 지원해야 하고, 논리적인 측면에서는 기존 검색엔진 로직에 벡터 검색을 자연스럽게 융합시켜야 하는 두 가지 기술적인 이슈가 해결돼야 한다는 것이다.

 

클라우드 속 데이터 관리 방법이 관건

최근 ICT 인프라 환경은 온프레미스에서 클라우드로 변화하고 있다. 정부 역시 클라우드 대전환을 주요 과제로 삼고 디지털 플랫폼 정부를 외치고 있으며 클라우드 환경에 최적화된 소프트웨어(SW)와 인프라에 대한 요구가 지속적으로 증가하고 있다.

그동안은 기업 및 기관들은 솔루션 개발사가 제공하는 라이선스 형태로 솔루션을 도입했으나. 지금은 오픈소스 검색엔진을 활용하는 사례, 클라우드 기반 서비스형 소프트웨어(SaaS)를 활용해 검색 서비스를 제공하는 사례가 증가하고 있다.


(기사중략)

 

품질 유지 위한 지속적인 유지 보수 필수

대부분 검색엔진 서비스는 엔진 설치 후 데이터를 수집하고 색인화하는 구조를 기반으로 하고 있다. 웹 검색 특성상 도메인 데이터 성향에 따라 적용되는 구축 방식과 기법은 천차만별이다. 검색 엔진 솔루션 설치 후 계속해서 추가/수정되는 데이터가 존재하기 때문에 품질 유지를 위해서는 지속적인 유지 보수가 절대적으로 필요하다.


(기사 중략)


코난테크놀로지 또한 자체적으로 서비스하고 있는 실시간 미디어 심화분석 서비스 ‘펄스케이(pulseK)’에서 실시간으로 SNS, 뉴스 등의 데이터를 수집·분석하고 있다. 수집 데이터는 아카이브 성격이라 R-DBMS(관계형 DBMS)와 HDFS(하둡 분산 파일 시스템)로 계속 누적시키고 있고, 여기서 일부 데이터를 추려 내 온라인으로 서비스하고 있다.

 

기업별 솔루션 및 향후 로드맵

코난테크놀로지, ‘코난서치’ / 비정형 데이터는 물론 벡터 타입 데이터 검색까지 가능

코난테크놀로지의 통합검색 엔진 ‘코난 서치(Konan Search)’는 형태소 분석의 풀 텍스트(Full-text) 검색에서 시작해 초대용량 빅데이터 검색을 거쳐 AI 기술을 적용한 강화된 검색으로 발전하고 있다.

정형 데이터 집계 연산에서부터 벡터타입 AI 데이터 검색까지 추상성이 높은 모든 검색기술을 집약해 놓은 제품으로 기술적 차별점이 벡터 검색이다. 벡터 검색이란 인메모리에서만 동작해 10억 단위(billion scale)의 데이터 처리에는 사용할 수 없던 인공신경망(ANN) 검색 알고리즘을 디스크에서 동작할 수 있게 한 기술이다. 물론 벡터검색도 오픈 소스 기반이라 천만 건 정도의 데이터는 가능하나 1억 건이 초과되면 다루기 힘든 부분이 있다.

‘코난 서치6’ 주요 기능
‘코난 서치6’ 주요 기능

그럼에도 코난테크놀로지는 대용량 데이터 처리에 강점이 있다는 점을 내세우고 있다. 오창민 상무는 ‘코난 서치’의 벡터검색으로 경쟁사는 해결하지 못 했던 고객의 문제를 해결한 경우가 있다고 말했다. 바로 행안부의 초대용량 문서 중앙화 검색 윈백 사례다. 정보공개사이트의 경우 13년 동안의 17억 건의 데이터를 검색해야 하는데, 경쟁사의 검색 기술로는 17억 건의 단 3.1%인 0.52억 건만 검색돼 프로젝트가 실패했다. 이에 행정안전부에서 코난테크놀로지에 문제 해결을 요청했고, 코난테크놀로지는 적은 서버로 17억 건의 데이터에 대한 검색을 가능하게 했다는 것이다.

코난테크놀로지는 ‘코난 서치 6.0’에서 부터 제공하기 시작한 벡터검색 기능을 고도화 하고 임베딩이나 자동요약 등 AI모듈 기능을 덧붙여 나가고 있다. 내년 2분기까지 쿠버네티스 기반으로 동작할 수 있도록 기능을 고도화해 6.1을 발표할 계획이다.

출처 : 컴퓨터월드 · 아이티데일리 / 이다은 기자(eunda@itdaily.kr) / 뉴스 원문보기