kotra 해외시장뉴스

kotra

뉴스

일본의 AI 보이스 테크놀로지 현황

  • 2021-09-27
  • 일본
  • 도쿄무역관
  • 나카무라마키

- 일본 음성인식 시장은 2023년까지 1010억 엔 규모로 2019년 대비 5배 성장 전망 -
- 콜센터 업무 등 일본 비즈니스 현장에서 AI 보이스 테크노로지 맹활약 기대 -



스마트폰과 스마트 스피커의 대중화로 인해 최근 음성인식 기술을 이용한
VUI(음성 사용자 인터페이스: Voice User Interface)의 활용 사례가 증가하고 있다. VUI란 음성 언어를 사용해 정보 기기를 제어하거나 정보 서비스를 수신할 수 있도록 말과 글을 음성으로 변환하는 인터페이스를 말한다. 눈으로 보고 키보드나 마우스로 입력하는 그래픽 사용자 인터페이스(GUI)에 대비되는 개념이다. 일본의 AI 보이스 테크놀로지의 진화와 이를 활용한 자동 응답 시스템이 일본의 비즈니스 현장에서 어떻게 활용되고 있는지 소개한다.


보이스 테크놀로지

음성인식이란, 사람의 음성을 컴퓨터가 인식해 텍스트화하는 기술이다. 구체적인 순서는 다음과 같다. ① 우선 잡음 등의 노이즈를 제거하고(잡음·잔향 억제), ② 음성 데이터의 음의 강약이나 주파수, 소리와 소리의 간격, 시계열 여러가지 특징을 추출한다(음향 분석). ③ 특징이 어떤 음소(소재가 되는 소리) 단어에 가까운 지를 판단(음향 모델), ④방대한 데이터를 토대로 단어를 연결한다(언어 모델). 지금까지는 미리 등록해 둔 특징을 패턴화시켜 저장한 후 새로운 음성이 들어오면 기존의 패턴과 매칭시키는 방법을 채택해 왔지만 음성인식 범위에 한계가 있는 등 과제가 있었다.

음성인식 프로세스

자료: 노무라종합연구소 자료를 바탕으로 KOTRA 도쿄 무역관에서 작성


그러나 최근에는
GPU(Graphics Processing Unit)의 성능 향상과 딥러닝의 진화 덕분에 음성인식 기술은 상상을 뛰어넘을 정도로 높은 인식 수준을 실현 가능하게 됐다.

IBM 2017 3, 기계가 사람의 음성을 얼마나 정확하게 문자로 변환시킬 수 있는지를 보여주는 지표인 '단어 오류율(Word Error Rate)'에서 당해 연도 세계 1위인 5.5%를 달성했다. 또 순더 피차이 구글 CEO 2017 5, 회사 주최 이벤트인 '구글 I/O 2017'에서 이 회사 음성인식 기술의 단어 오류율이 4.9%라고 밝혔다. 2016 7월 시점에 8.5%였던 단어 오류율이 1년이 채 지나지 않아 4.9%로 대폭 개선된 점은 주목할 만하다. 한편 IBM과 음성인식 정확도로 개발 경쟁을 벌여온 마이크로소프트는 2017 8 21일 단어 오류율 5.1%를 달성했다고 발표했다. 마이크로소프트에 따르면 단어 오류율 5.1%는 속기자의 인식률과 비슷한 수준이라고 한다.

각 사의 테스트 실시 조건이 동일하지는 않기 때문에 단순히 우열을 비교할 수는 없다. 하지만 4.9%라는 가장 뛰어난 단어 오류율을 기록한 구글은 스마트폰과 스마트폰 스피커 '구글 홈'에 대한 음성인식 기술 탑재를 적극 추진해왔다. 구글은 음성인식 분야에서는 후발주자이지만 딥러닝 연구에 적극적으로 투자해온 것이 단어 착오율 개선에 크게 기여한 것으로 보인다.

나아가 2018년경부터는 입력한 음성 신호로부터 단어열(string)을 직접 출력하는 '엔드 투 엔드 음성인식'이라 불리는 새로운 방법의 연구도 진행되고 있어 향후 음성인식의 정확도 향상을 기대할 수 있다.

음석인식 기술은 음성인식 정확도의 향상에 수반해 실제 비즈니스 현장에서도 널리 적용되고 있다. 예를 들면 콜센터에서는 전화 응대 품질의 향상이나 컴플라이언스상 문제가 있는 발언의 수집을 목적으로 음성인식 기술이 이용되고 있다. 하지만 기술실증 테스트에서 높은 정확도를 기록해도 실제 기술을 업무에 적용했을 때 동일한 정확도를 실현하기는 쉽지 않다. 콜센터에서 대응해야 하는 상대는 사는 곳도 말투도 다르다. 억양의 차이나 사투리는 물론, 옥외인지 옥내인지 등 주변 환경도 음성인식에 영향을 주기 때문에 일반적 인식률은 기껏해야 80% 정도. 반면 일정한 속도의 표준어로 말하는 훈련을 받은 안내원의 음성이면 95% 정도의 정확도로 인식할 수 있다. 실제 현장에서는 고객의 문의 내용을 안내원이 다시 한 번 복창하게 함으로써 고객 문의의 누락을 막고 있다.

VUI의 등장으로 GUI NUI로 진화

음성인식의 정확도 향상은
VUI(음성 사용자 인터페이스)의 보급 확대에도 공헌하고 있다. VUINUI(내추럴 유저 인터페이스: Natural User Interface)를 구성하는 인터페이스 중 하나다. 디스플레이의 화상을 보고 마우스를 조작하는 GUI(그래피컬 유저 인터페이스: Graphic User Interface)와 달리 NUI는 대상물을 직접 만지거나 음성을 사용하는 등 사람의 자연스러운 동작을 통해 디지털 기기를 제어하는 환경을 말한다. GUI를 대신하는 차세대 인터페이스로서 NUI에 기대가 모아지는 것은 자연스러운 흐름이라고 할 수 있다.


유저 인터페이스의 진화

 자료: 닛케이신문 자료를 토대로 KOTRA 도쿄 무역관 작성


NUI의 가능성에 주목해 2000년경부터 음성인식 기술을 이용한 자동응답 시스템의 도입에 힘써온 기업도 있었다. 그러나 당시에는 음성인식의 정확도가 향상되지 않아 널리 보급되지는 못했다. 예를 들어 전화 주셔서 감사합니다. 고객님의 생년월일을 여쭤보겠습니다. 삐 소리가 울리면 고객님의 생년월일을 말씀해주세요.’라는 음성 안내 뒤에 고객이 ‘1990 1 1로 응답하는 정도에 머물러 있었다. 게다가 고객의 문의 의도를 이해하고 적절히 대응하는 처리 능력도 부족해 VUI 본연의 목적인 기계와의 자연스러운 대화와는 거리가 멀었다.


그러나 최근에는 정확도가 향상한 음성인식 기술과 음성 대화 시스템을 활용한 AI 음성 안내원이 VUI 가상 에이전트가 등장하고 있다. 챗봇에서 활용되는 대화 시스템을 응용해 콜센터의 자동응답 시스템이나 상업시설의 인포메이션 센터 등에서도 활용되기 시작했다. 이른바 진화한 스마트 스피커가 창구 업무나 리셉션 업무는 물론, 호텔의 컨시어지나 비서 역할에 이르기까지 활동 영역을 넓혀나가고 있다.


AI 보이스 테크놀로지 활용 사례


1. ebisol(에비설) (AI 음성 안내원이 전화 접수부터 예약까지 대응)


음식점 예약관리 시스템 'ebica'(에비카) 운영하는 ebisol사는 LINE AI 전화 응대 서비스 '라인 아이 (LINE Ai Call)'과의 협업을 통해 AI 전화 예약 응대 서비스 'AI 리셉션' 2020 10월부터 제공하고 있다.


AI리셉션에서 고객 전화에 응대하는 직원은 AI스탭 '사유리'. 고객이 음식점 점원에게 예약 가능 여부를 확인할 때 오늘 방문하고 싶은데 지금 예약 가능한가요?’ 라는 말을 이해하고 인간에 가까운 음성으로 전화를 응대하면서 예약 현황 데이터를 참조해 예약 완료까지 맡아서 진행한다. 예약접수는 물론 예약 확인 전화도 AI 음성으로 대응한다. 희망하는 예약 시간대가 만석일 경우에는 앞뒤 시간이나 인근 체인점의 예약 현황을 실시간으로 안내해준다.


AI 리셉션

자료 : ebisol 공식 홈페이지 자료를 토대로 KOTRA 도쿄 무역관에서 작성


음식점
예약관리 서비스에 이용되는 VUI LINE AiCall 스마트 스피커 'LINE CLOVA'에서도 적용되고 있는 'CLOVA Speech(음성인식) ' 'CLOVA Voice(음성합성)' 회화제어의 조합으로 구성돼 있다. LINE사는 CLOVA Voice 딥러닝 기술을 도입해 인간에 가까운 자연스러운 음성을 재현해내는데 성공했다. LINE AiCall AI리셉션의 도입처인 음식점 점포뿐만 아니라 대형 운송 회사인 야마토 운수에서 배송 의뢰인의 문의 응답에서도 이용되고 있다.


콜센터 업무에 있어서 AI 음성의 역할은 크다. 성수기의 통화량 폭증에 대한 대책으로써 활용될 수 있을 뿐만 아니라 24시간 365일 대응이 가능하기 때문에 기회 손실의 경감과 인력부족 해소로 이어진다.

 

2. Hmcomm(에이치엠컴)(AI 음성 자동 응답 시스템)


음성인식 벤처기업 Hmcomm(에이치엠컴)AI 음성 안내원을 통한 전화 대행 서비스 'Terry'를 제공하는 기업이다. 해당 사는 일본의 국립 연구개발 법인 산업기술 종합연구소(이하, 산업기술 종합연구소) 초고성능 인식 엔진을 기반으로 자연어 처리를 통해 AI 음성 안내원이 자연스러운 회화를 구사하는 것을 가능케 했다.

 

AI 음성 안내원 'Terry'

자료: Hmcomm (에비설) 홈페이지

 

대화 시나리오는 간단한 GUI로도 구축할 있어 고객사 업무에 맞추어 자유롭게 작성할 있다. AI 음성 안내원의 응답 데이터를 열람해 수정하거나 대시보드로 당일 이용 상황을 확인할 수 있는 기능도 갖췄다. API 연계도 가능므로 고객이 행사 일정을 물어볼 경우, 다른 데이터베이스를 참조해 날짜를 확인하고 최신 정보를 안내하는 것도 가능하다.


대형 전자제품 매장 야마다 전기는 2019 12월부터 'Terry'를 도입했다. 영업시간 외에 걸려온 야간의 출장수리 요청전화를 'Terry'로 접수함으로써 고객의 요구에 보다 빠르게 대응할 수 있게 됐다.


시사점


비즈니스 현장에서 음성인식 기술이 활용되는 영역이 확대되고 있다. 일본능률협회 종합연구소에 따르면 음성인식 시장은 2023년에 2019년도( 200억 엔)의 약 5배인 약 1010억 엔이 될 것으로 전망된다. 구글이나 IBM은 음성인식 API를 공개하고 있으며, 스타트업을 비롯한 복수의 벤더가 음성인식 API를 이용한 회의록 작성 서비스를 제공하기 시작했다.


고객 서비스 현장에서도 고객의 음성을 텍스트화한 데이터를 분석하면 빈출 키워드나 고객의 요구·불만사항 등을 정확히 파악할 수 있기 때문에 업무 개선 및 효율화로 이어지고 있다. 또한 최근 코로나19 확대로 인해 수요가 급증한 'Zoom', 'Microsoft Teams'등의 화상회의 툴의 영어 버전에도 회의 내용의 실시간 텍스트화 기능이 도입돼 활용되고 있다.


이처럼 음성인식 기술은 최근 일본의 비즈니스 영역 전반에 걸쳐 활용되며 새로운 부가가치를 창출하고 있다. 뛰어난 음성인식 기술을 보유한 한국 기업이라면 일본 시장에 문을 두드리기에 최적의 타이밍이다.

 


자료: 닛케이신문, 노무라종합연구소, 일본능률협회종합연구소, 각 사 홈페이지 등 KOTRA 도쿄 무역관 자료 종합

댓글 (0)
로그인 후 의견을 남겨주세요.
댓글 폼