hanbert base tbai 제품소개서 · 2020. 9. 17. · fine tuning domain 특화기계독해 fine...

TBAi 제품소개서

2020. 10

㈜투블럭에이아이

✓ HanBert_Base

✓ HanBert_MRC

✓ HanBert_NER

✓ MorAn

✓ OCR + NLP

ButterBlockTM Suite

Deep NLP 필요성 : 70점짜리키워드분석수준의 NLP 한계

• 정보량의법칙( tf/idf )의한계

• 문서에서중요한단어추출하여문서의의미를대신하는방법

• "문서를자동으로요약하고싶은데, 지금수준으로는못쓰겠어요."

• "게시판댓글을분석하려는데, 시스템을 구축하는비용이부담스러워요."

• Classical NLP의구축절차와비용

• 사전, 문법, 동의어사전, 온톨로지, 의미분류등의지식베이스구축이필요

• 패턴수집과규칙작성의일관성과상호간섭을고려하기가어려움

• 시장에서기대하는성능을만족시키지 못하고있음

NLP 성능리비히의법칙

NLP

Deep NLP 필요성 : BERT의놀라운성능

적용기술 성능 속도 학습비용

임의로긍/부정판별 50점 0ms 0원

Symbolic NLP 기술 75점 수준 50ms ~1000ms 1억원수준

범용딥러닝기술을활용 85점 수준 10ms ~ 30ms 100만원

BERT에추가학습 91점 15 ~ 20ms 10만원

예) 네이버영화평 DB에서긍정과부정의판별

예) 논문에발표된 BERT와의성능비교

• 과거기술을통한언어이해성능을혁신적으로추월

• BERT는구글이공개한모델이며업체마다자신들만의 Corpus와다양한전처리방법을사용하여자신들만의모델로

학습을시켜야함. ( 자체 한국어 Bert모델보유기업은많지않음 , ETRI가공개한 KoBert가대표적 )

TBAi Deep NLP Package 의구성

HanBert_NER( 개체명인식 Task )

HanBert_MRC( 기계독해 Task )

HanBert_Sentiment( 감성분석 Task )

MorAn( 형태소분석기)

GeneralNER , MRC 등 Task 가능

HanBert_Base ( 90k , 54k )TBAi Deep NLP Base Model

Domain 특화개체명인식Fine Tuning

Domain 특화기계독해Fine Tuning

댓글 , 감성분석Fine Tuning

* 54k의경우연구목적으로 Open Source 공개중

• TBAi의 Deep NLP Package는자체기술로개발한 HanBert_Base모델을기본으로하여고객의다양한요구사항에

대응하기위한 Task block으로구성됨

• 자체형태소분석기를통해산업별로다양한언어모델을적용 Fine Tuning의자유도가매우높은것이특징 .

• Task block간의유기적인 Pipe Line구성으로 RPA , Text Analysis등다양한목적으로구축활용가능

TBAi ButterBlockTM Suite

OCR + NLP자동오류수정 , 중요단어보정등

HanBert_Base

• 자체기술로정제한대규모코퍼스를활용하고특허출원한한국어표기법을 Deep NLP에적용하여 BERT 모델학습

• 용도에따라 2가지의 Vocab과 3가지크기의 HanBERT모델을개발하여활용용도에맞추어적용

• 최고성능의한국어범용심층언어모델을기계독해, 감성분석, 개체명인식등에활용

▪ 다양한형식과 내용의 110G 한국어코퍼스

▪ MorAn을활용, 한국어코퍼스 정제, 선별

▪ 54k, 90k Vocab, 3가지크기의모델

▪ 건당 30 ms 수준의처리 속도, 초당 50K 문서 처리

HanBert_BaseBert + Corpus

TBAi의심층언어모델 HanBERT를 다양한응용에적용합니다.

모델코드 설명

54k 90kVocab의 크기

54k : 54000표제어

90k : 90000표제어

S/N/ML

모델의크기와 학습량

S : 6층, 히든 : 768, 3.8M 학습

N : 12층, 히든 : 768, 5M 학습

ML : 18층, 히든 : 1024, 10M 학습

HanBert_Base Features

• Basic

• 한국어분석기 Moran 기본탑재

• 모델사용라이센스

• 용도에맞게모델선택

• 빠른처리속도 ( < 30 ms )

• 다양한크기의모델 ( 54k ,90k )

• Vocab에충분한여유공간

• Premium

• 고객데이터학습지원

• Task별추가학습을위한기술지원

TBAi HanBert_Base 를만드는과정

HanBert_MRC ( 기계독해 )

HanBERT_MRC는다양한분야의문서와질문에우수한성능을발휘

• HanBERT에기계독해학습용데이터를추가학습하여 HanBERT_MRC모델생성

• 기업문서에많이포함되어있는테이블을처리하기위해서 HTML 문서에대한독해기능을제공

• OCR 엔진과연동하여사용가능

• 한국어분석을위한MorAn과연동되어 CPU/GPU 서버에서수행되며, Cloud 서비스를위한 API도제공

HanBert_MRC Features

• 2019 Ai Starthone, 기계독해분야 1위

• 2020 인공지능온라인경진대회, 기계독해1위 / 문자인식 1위로 종합 1위

• KoQuAD 1.0, 2.0 리더보드리스팅

• 검증된 MRC 분야최고수준의성능

• 띄어쓰기에강한언어모델적용

• 딥러닝을위한한국어표현 ( 자사특허 ) 로모델성능향상

• RPAi 에활용가능하도록중요단어사전지원

• OCR 솔루션과연동하여 OCR 성능향상 ( +% 3~ 5% )

• 고객데이터학습지원

• Q&A 세트추가학습지원

사전, 규칙, 통계 : 정확하지만범위제한

데이터, 학습장비 : 빠르고만들기쉬움

Hanbert_NER ( 객체명인식)

HanBERT_NER은 최신학습데이터와대규모명칭어 DB를활용

• 최신대규모개체명인식학습데이터를 HanBERT에적용하여, HanBERT 90k에서최상의성능을발휘

• 500만개체명 DB를동시에활용하여 Deep NLP에서학습되지않은명칭어의경우에도추출

• 한국어분석을위한MorAn과연동되어 CPU/GPU 서버에서수행되며, Cloud 서비스를위한 API도제공

0.908

0.91

0.912

0.914

0.916

0.918

0.92

0.922

0.924

0.926

0.928

90k-N (31ms) 90k-S (22ms) 54k-N (32ms) 54k-S (23ms)

HanBert_NER

F1 Precision Recall

NE 데이터베이스 개체명인식

MorAn ( 형태소분석기 )

• C 언어로작성되어 20년넘게다양한레퍼런스를보유하고있으며, 표준태그와도호환되며튜닝이쉽습니다.

• 한국어분석의기본이되는형태소분석의원천기술, 자체 TRIE 구조, 융통성있는분석결과등을보유하고있습니다.

• 초당 0.5~1.0MB의처리속도, Python, Java 와연동되며, 딥러닝을위한한국어표현방식을제공합니다.

Reference

MyScript, 네이버, 다음커뮤니케이션, SKT,

LG CNS, LG U+, 삼성전자등

Flexibility

50만기분석사전100만형태소사전400만명칭어사전

분야별사전

Technology

통합 TRIE 사전구조한글전용내부코드

Weighted 문법다단계프로세싱

Specification

100~200M 메모리초당 0.5~1MB 처리속도

Java, Pathon 연동다양한 API 제공

Deep Learning

딥러닝을위한한국어표기방법제공 (특허출원)

• 조사/어미등의기능어구별이가능• 복합명사를구성하는단어들의위치구별이가능• 형태소를글자단위로분리해서토큰화가가능

• 분석후원문으로복원하는것이가능

연세대학교학생이농민 폭력시위를 주도한혐의로 지명수배된 날은 ?

연세대 ~학교 ~학생 ~~이 농민 폭력시위 ~~를 주도 ~~한 혐의 ~~로지명 ~수배 된 날 ~~은 ?

OCR + NLP Package

OCR엔진

( ABBYY )

NLPPost Processing

Scanned Image

NLP 적용시 OCR 인식율 +3%~+5% 향상가능

• OCR 엔진과결합하여전체적인문서의인식율제고

• 언어모델및 NLP 후처리기술의적용으로인식오류 ( 띄어쓰기 , 오탈자등 ) 자동제거가능

• 문서에포함되어있는단어들과언어모델을참조하여낱글자로인식된결과를단어로조합수행

NLPTask

변화하는만큼 변화하는 만중한국야쿠르트는 한국앙국르트는주원료로한 주원금로한

기재된기재된손해배상을 손해배상을용역계약서 용역계약서

* OCR 엔진은세계최고수준의 ABBYY사와제휴를통해제공합니다

OCR + NLP Package Features

• 대규모코퍼스에서기본언어모델을자료화하고, 분야별코퍼스에서해당분야언어모델을자료화하여활용

• 문서에포함되어있는단어들과언어모델을참조하여낱글자로인식된결과를단어로조합수행

• 최종적으로MorAn의기능을활용해서문장단위분리작업, 철자교정작업을수행

대규모일반코퍼스언어모델

분야별코퍼스언어모델

대상문서언어모델

Moran 문장후처리

총 110G 코퍼스에서추출한 16M patterns

법률, 경제, 특허등의분야코퍼스에서추출한각 10M patterns

스캔된문서에서단어를추출해서대상문서에 1차적용

숫자, 날짜, 요일등의규칙형토큰과문장분리, 철자교정수행

4단계의처리를거쳐서문자인식된문서의오류를자동보정합니다.

TBAi 회사개요

▪ Deep NLP , 검색등 언어처리분야전문개발진

창업

설립일 | 2019년 7월

▪ 투블럭사무실 - 성남시분당트라팰리스, 양재 Ai 혁신허브

사업분야 | NLP와대화형 Ai

▪ 딥러닝 NLP 핵심기술 - 한국어 BERT & GPT-2 컨설팅

▪ RPAi를위한 Machine Reading 기술제공

▪ HanBert (한국어 BERT 모델)과기계독해학습모델, 예제등공개

기술력 |

▪ 2019 Ai Starthone, 기계독해분야 1위

▪ 2020 인공지능온라인경진대회, 기계독해 / 문자인식 1위

▪ Conversational Ai Chat Bot

주요파트너및고객 |

대화형 NLP & Ai 분야의 전문가로 국내 굴지의 분야 선도 기업에서 HCI & 검색 엔진의 연구와 서비스

기획및 사업 운영 등의 경험이 풍부함. 자연어처리 기술 전문 회사를 설립하여연구 개발하여 판매

하였으며, 다양한 챗봇 응용 서비스를 제작하였음. 특히, 프랑스의 필기인식 Ai 기업에서 글로벌 SW

엔지니어링과 인공지능연구원에서 연구실장으로 딥러닝과 대화형 Ai를 연구 개발하였음.

최근에 ㈜투블럭Ai를 창업하여 딥러닝 기반의 자연어 처리와 대화형 RPAi 서비스를 개발하고 있음.

연세대학교전산과학과학사(1989), KAIST 전산학과석사, 박사 (1997)

KAIST 박사학위논문 : "작업수행대화시스템에서혼합주도형응답생성모델" | NLP / 대화형 Ai

| 검색기술 / 포탈 서비스

| NLP 상용기술

| 글로벌 & Deep Ai

투블럭 Ai 대표이사 조영환

1999 Voice Portal 서비스, 음성인식전화비서서비스창업

2001 대규모검색기술기업, 서치솔루션 Naver에피인수

2004 다음검색포탈본부장, 연관검색어 / 미디어로써의검색

2007-2012 자연어처리기술연구개발기업, 모란소프트

2014-2017 프랑스필기체인식기술기업, MyScript Lab.

2018 인공지능연구원 (AIRI) 연구실장

04

말을알아듣는 Ai 가만들어가는 편리한 세상

사람에 대한관심과호기심이 세상을 바꿉니다.

투블럭 Ai Team

▪ 기술자문 - 이공주 (현 충남대교수 / KAIST 박사 / 자연어처리전공 )

자문단

▪ 고문 – 김진형 (전 AIRI 원장 / 전 KAIST 교수 / 현중앙대석좌교수)

경영진

▪ 감사 – 서병락 / 서울대전산학박사 / 자연어처리전공 / AIRI NLP 팀장 / 번역 / 검색솔루션등

▪ 대표 – 조영환 / KAIST 전산학박사 / 자연어처리전공 / AIRI 연구실장 / 검색포탈서비스등

▪ 이사 – 김영훈 / 서울대제어계측학사 / 의용생체공학과석사 / 마인즈랩 / 메디슨 / 능률교육 / 웅진씽크빅등

03

말을알아듣는 Ai가만들어가는편리한세상

서울특별시 서초구 양재1동 태봉로 114 양재 Ai 허브 6층

찾아오시는방법

양재역, 선바위역에서 버스, 지하철 양재시민의숲역,

한국교총회관 6층

경기도 성남시 분당구 수내동 황새울로 234

분당트라팰리스 1149호

찾아오시는방법

분당선 수내역 4번출구 50m, 분당트라팰리스,

김 영 훈사업개발이사 | 010 6213 7749 | [email protected] | www.twoblockai.com

서비스 / 사업 연구개발

mailto:[email protected]

http://www.twoblockai.com/

hanbert base tbai 제품소개서 · 2020. 9. 17. · fine tuning domain 특화기계독해 fine...

Documents