6.최광선 semantic search and mining

27
Korea Use Case Semantic Search and Mining 언어 통계적 을 활용한 검 스의 족도 향 2010. 11. 12 최광선 부장 / 시맨틱그룹

Upload: saltlux-inc

Post on 18-Dec-2014

666 views

Category:

Technology


5 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 6.최광선 semantic search and mining

Korea Use Case

Semantic Search and Mining 언어 통계적 분석을 활용한 검색 서비스의 만족도 향상

2010. 11. 12

최광선 부장 / 시맨틱그룹

Page 2: 6.최광선 semantic search and mining

Contents

Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

2. Saltlux’s Approach to Semantic Search

3. Saltlux’s Experiences

2

Page 3: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

History of Searchhttp://www.searchenginejournal.com/search-engine-history/13152/

Notable Search Engine Milestones :

3[IN2][IN2] and STORM™STORM™

• 1994 : : Yahoo! created by Stanford University students Jerry Wang and David Filo in a campus trailer. Yahoo was originally an Internet

bookmark list and directory of interesting sites.

• 1996 : Sergey Brin and Larry Page, two Stanford University students test Backrub, a new search engine which ranks sites based on inbound

link relevancy and popularity. Backrub would ultimately become Google.

• 1998 : Goto.com launches with Sponsored Links and paid search. Advertisers bid on Goto.com to rank above organic search results which

were powered by Inktomi. Goto.com is ultimately acquired by Yahoo.

• 2000 : Yahoo partners with Google and lets Google power their organic results instead of Inktomi. Beforehand Google was a little known

search engine. The end result, Yahoo introduces their largest competitor to the world and Google becomes a household name.

• 2003 : Google launches AdSense after acquiring Blogger.com. AdSense serves contextually targeted Google AdWords ads on publisher sites.

The mix of AdSense and Blogger.com leads to a surge in monetized simple Internet publishing and a blogging revolution.

• 2006 : Google acquires user generated video sharing network YouTube which ultimately becomes the 2nd most used search property in the

world. Google is still working on properly monetizing YouTube.

• 2009 : In an attempt to challenge Google’s 70% grip of the search market, Yahoo and Microsoft join forces to partner on a 10 year search

deal. And the future is now.

Page 4: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : Yahoo! Search Monkey

Yahoo 일반일반일반일반 검색검색검색검색 화면화면화면화면

전통적인전통적인전통적인전통적인 검색검색검색검색 결과결과결과결과

�타이틀, 요약, URL수준의 정보만 제공

SearchMonkey의의의의 검색검색검색검색 결과결과결과결과

�Higuma Japanese 레스토랑에 대한 리뷰,

사진, 별점, 주소, 전화번호와 같은 추가적인

정보들을 제공

�Yahoo!Search 크롤러가 웹 페이지와

4[IN2][IN2] and STORM™STORM™

�검색 사용자들에게 기존 검색의 몇 줄 안 되는 텍스트보다 유용한

정보를 제공하기 위해 웹 사이트의 구조화된 데이터(페이지의

시맨틱 마크업 정보 또는 데이터 피드)를 사용

특특특특 징징징징

SearchMonkey 검색검색검색검색 화면화면화면화면

�Yahoo!Search

RDF/Microformat 데이터, Data RSS Feed

등 데이터들을 수집하고, SearchMonkey를

통해 정의된 메타데이터들을 추출합니다.

Yahoo!Search 검색 시, 추출된 웹 페이지

메타데이터 정보를 이용하여 검색 결과를

재구성하여

�컨텐츠들에 대한 메타데이터들은 FOAF,

SIOC, DC, vCard, vCalender 등 상위

온톨로지와 사용자정의 데이터 형식을

이용하여 MicroFormat, eRDF, RDFa형태로

생성

Page 5: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : Powerset

5[IN2][IN2] and STORM™STORM™

�문장으로 구성된 질의에 응답된 결과제공Henry Vii married Elizabeth

�사람, 장소, 사물에 대한 다양한 사실의

발견

�질문의 의미와 관련한 콘텐츠 식별

�검색 결과에 대한 요약

특징

�미니 뷰어를 통한 문서 요약결과 제공

Page 6: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : Open Calais

�식별된 개체명을 구조화(온톨로지)화여외부의 어플리케이션에서 활용

6[IN2][IN2] and STORM™STORM™

�콘텐츠로 부터 개체명(Named Entity)를식별함

Page 7: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : EVRI

7[IN2][IN2] and STORM™STORM™

�개념어에 대한 정제된 정보 제공

�소셜 미디어를 통한 실시간 검색

�개념어간 관계 네트워크를 통한 탐색

Page 8: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : COGNITION

�개념어 해석을 통한 관련 인스턴스검색vehicle (개념어) � DC-9 (인스턴스 명)

�개념어 해석을 통한 관련 개념어 검색vechicle(개념어) � plane (하위 개념어)

�개념어 해석

8[IN2][IN2] and STORM™STORM™

�동의어 해석, 개념어 해석, 의미분석, 구문 분석, 불린 연산 등을통한 다양한 질의

Page 9: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : Wolfram Alpha

�검색어에 대한 분석된가정과 이해 표시� 인물

�인명 정보와 관련 분석통계 제시

9[IN2][IN2] and STORM™STORM™

�제시된 검색어에 대한대안어 제시

Page 10: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : 네이버 랩 시맨틱 영화검색�인물에 대한 개체명 인식

10[IN2][IN2] and STORM™STORM™

Page 11: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : 네이버 랩 시맨틱 영화검색

�인물 중심의 의미기반 검색

11[IN2][IN2] and STORM™STORM™

�확장 검색 그래프를 통한 탐색

Page 12: 6.최광선 semantic search and mining

What is Semantic Search? Korea Use Case : Semantic Search and Mining

1. Overview of Semantic Search

사례사례사례사례 : 네이트 시맨틱 검색�검색어 자동완성

12[IN2][IN2] and STORM™STORM™

�검색어 중심의 관련 정보 구성

�문장 분석을 통하 의미 키워드

식별 및 구조화된 검색 결과

제공

Page 13: 6.최광선 semantic search and mining

Semantic Search is … Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

위키피디아(Wikipedia)에서는 …

13[IN2][IN2] and STORM™STORM™

Page 14: 6.최광선 semantic search and mining

Semantic Search is … Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

키워드 검색 (Keyword Search) vs. 시맨틱 검색 (Semantic Search)

14[IN2][IN2] and STORM™STORM™

Page 15: 6.최광선 semantic search and mining

Semantic Search is … Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

시맨틱 네트워크 (Semantic Network)

휴대폰

모바일폰

동의어

기업생산자

휴대단말기

하위어

전자제품

하위어 핸드폰

동의어브랜드

소유

제품

15[IN2][IN2] and STORM™STORM™

휴대폰

휴대전화

동의어

터치폰 스마트폰

하위어

애니콜

O/S탑재

햅틱

사이언

제품

블랙잭

WinCE

LG

삼성

소유

소유

제품제품

탑재

Page 16: 6.최광선 semantic search and mining

Semantic Search is … Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

사례 : 솔트룩스 아울림

16[IN2][IN2] and STORM™STORM™

�중심 주제어(토픽) 제시

�중심 주제어 간의 연관성

분석을 통한 네트워크 구성

�주제 도메인, 시간, 관계를

통한 네트워크 필터링과 탐색

Page 17: 6.최광선 semantic search and mining

Using Text Mining Technologies Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

어휘 통계(공기성 분석)를 이용한 시맨틱 네트워크의 구축

삼성전자는 휴대폰 햅

틱을 새롭게 출시를 하

였다. 햅틱은 풀 터치폰

기능을 가지고 있고, 애

니콜 브랜드 중 가장

고가의 제품이 될 것으

로 보인다.

,

핸드폰 시장에 새로운

바람이 불고 있다. 특히,

고가 핸드폰 중 햅틱과

iPhone이 터치폰 이라

는 새로운 기능으로 고

객을 유혹한다.

휴대폰핸드폰

삼성전자

햅틱

애니콜

17[IN2][IN2] and STORM™STORM™

삼성전자 휴대폰 햅틱 터치폰 애니콜

삼성전자

휴대폰

햅틱

터치폰

애니콜

핸드폰

핸드폰

삼성전자 휴대폰 햅틱 터치폰 애니콜 핸드폰

삼성전자 7 5 3 6 2

휴대폰 9 4 3 0

햅틱 5 4 2

터치폰 2 0

애니콜 0

핸드폰

Page 18: 6.최광선 semantic search and mining

Using Text Mining Technologies Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

문서 군집(클러스터링)을 이용한 의미의 구별

보르도

프랑스

와인 보르도

LCD

TV

18[IN2][IN2] and STORM™STORM™

포도 삼성

Page 19: 6.최광선 semantic search and mining

Using Text Mining Technologies Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

토픽랭크

특성 벡터 추출/색인 문서 집합 선정 : VSM Word Co-occurrence 분석

19[IN2][IN2] and STORM™STORM™

특성 벡터 추출/색인 문서 집합 선정 : VSM

토픽 클러스터링

linear

systems

systems

constraintsdiophantine

equations

compatibility

natural numbers

Criteria

strict

inequations

nonstricttypes

solutions

components

Upperbounds

set

minimal construction

algorithms

토픽간의 네트워크 구성

Word Co-occurrence 분석

Page 20: 6.최광선 semantic search and mining

Using Text Mining Technologies Korea Use Case : Semantic Search and Mining

2. Saltlux’s Approach to Semantic Search

토픽랭크

애니콜

햅틱사이언

블랙잭

WinCE

LG

삼성

개체명/관계 인식

20[IN2][IN2] and STORM™STORM™

휴대폰

휴대전화

모바일폰

동의어

터치폰 스마트폰

하위어

기업생산자

휴대단말기

하위어

전자제품

하위어

애니콜

O/S탑재

핸드폰

동의어

햅틱

사이언

브랜드

소유

제품

블랙잭

WinCE

LG

삼성

소유

소유

제품제품

탑재

Page 21: 6.최광선 semantic search and mining

Put Toghether Korea Use Case : Semantic Search and Mining

2. Saltlux’s approach to Semantic Search

정보 마이닝 기술을 이용한 검색 성능의 향상

키워드키워드키워드키워드 기반기반기반기반 검색검색검색검색 시스템의시스템의시스템의시스템의 구조구조구조구조

�키워드키워드키워드키워드 추출추출추출추출수집된 정보로 부터 검색 대상이되는 키워드를 선별함

�색인기색인기색인기색인기선별된 키워드를 중심으로 색인을생성함

�인덱스인덱스인덱스인덱스((((색인파일색인파일색인파일색인파일))))생성된 색인 결과를 질의하기 쉽도록정리한 파일

검색검색검색검색 시스템의시스템의시스템의시스템의 구조구조구조구조

21[IN2][IN2] and STORM™STORM™

정보정보정보정보 마이닝마이닝마이닝마이닝 기반기반기반기반 검색검색검색검색 시스템의시스템의시스템의시스템의 구조구조구조구조정리한 파일

�랭킹랭킹랭킹랭킹키워드를 중심으로 정보(문서)들의관련성을 측정함

�검색검색검색검색질의에 적합한 결과 목록을 구성하여제공함

�질의질의질의질의 분석기분석기분석기분석기사용자의 질의를 기계가 이해할 수있는 질의로 변환

�특성특성특성특성 추출추출추출추출정보 마이닝에 사용될 통계적 패턴을식별

�정보정보정보정보 마이닝마이닝마이닝마이닝대상 정보들에 대해 요약, 분류, 군집을 수행

Page 22: 6.최광선 semantic search and mining

Two type of Semantich Search Korea Use Case : Semantic Search and Mining

2. Saltlux’s approach to Semantic Search

시맨틱 검색의 접근법

�의미 메타데이터 자동 생성

(RDF, RDFa, GRDDL 등의

활용)

�대용량 지식 베이스의

강한강한강한강한 시맨틱시맨틱시맨틱시맨틱 검색의검색의검색의검색의 특징특징특징특징

�키워드 및 개체명을

중심으로 한 특성 추출

�정보의 구조화 통계에

약한약한약한약한 시맨틱시맨틱시맨틱시맨틱 검색의검색의검색의검색의 특징특징특징특징

22[IN2][IN2] and STORM™STORM™

약한약한약한약한 시맨틱시맨틱시맨틱시맨틱 검색과검색과검색과검색과 강한강한강한강한 시맨틱시맨틱시맨틱시맨틱 검색검색검색검색

�대용량 지식 베이스의

구축과 질의

�온톨로지 및 규칙 기반

질의와 추론

�상황인지 등과 연계 가능한

검색 서비스

기반한 의미 분석

�공기어 분석, LSA(Latent

Semantic Analysis) 등의

기법이 활용됨

�정보의 군집과 분석

�자동 분류와 요약

Page 23: 6.최광선 semantic search and mining

Why Semantic Search ? Korea Use Case : Semantic Search and Mining

2. Saltlux’s approach to Semantic Search

시맨틱 검색의 효과정확률

• 고품질 형태소 분석• 랭킹 기술 (Page Rank)• 손맛 (지식인 등)• 유의어 사전(시소러스)

• 시맨틱 (semantic meta-data : semantic annotation, triple)• Text Mining (IE, NE, Clustering, Classification)• Human Computing, Collective Intelligence(user comment, evaluation, tag)

• Personalization, Intent Driven Ranking

• 온톨로지 (Subsumption 리즈닝) • Text Mining (Word Clustering)• Meta-search, Mash-up

23[IN2][IN2] and STORM™STORM™

재현율

연결/분석성

Page 24: 6.최광선 semantic search and mining

Saltlux’s Approachs Korea Use Case : Semantic Search and Mining

2. Saltlux’s approach to Semantic Search

시맨틱 검색에 대한 접근 방법

의미의미의미의미 모호성모호성모호성모호성 해소해소해소해소

�시장(mayor, market, hunger), 말(speech, horse, checker, end) 등의 용어 의미를구분해 색인, 검색 시 의미에 따른 분류 수행

�개체명 인식, 시맨틱 어노테이션, 용어 군집, 온톨로지 기술 등 적용

�핸드폰 = 휴대폰 = 셀룰라폰, 과일 ⊃ 사과 ∋

개체개체개체개체 특징특징특징특징

(property) (property) (property) (property)

확장확장확장확장 검색검색검색검색

�솔트룩스.대표이사, 솔트룩스.주소, 솔트룩스.제품 등과 같이 검색 대상 개체의구체적 특징들에 대해 확장 검색할 수 있는기능.

�트리플 관점에서 predicate를 통한 정보네비게이션 형태를 취함

�구축된 온톨로지를 활용하거나, 텍스트로부터부분 구문분석(partial parsing)을 통해 관련정보를 자동 추출 가능(네이트 시맨틱 검색유형)

24[IN2][IN2] and STORM™STORM™

어휘어휘어휘어휘 개념개념개념개념

확장확장확장확장 검색검색검색검색

�핸드폰 = 휴대폰 = 셀룰라폰, 과일 ⊃ 사과 ∋ 부사, 정치인 ⊃ 대통령 ∋ 이명박 등의개념적 상하위 관계, 동의어/유의어 관계, 인스턴스 등을 확장하여 검색

�예를들어, 정치인을 검색하면, 이명박이라는키워드를 포함한 문서도 검색

�시소러스(워드넷) 및 온톨로지 활용, 질의 시포함관계 추론 가능

�온톨로지 파퓰레이션 등 자동화 기술 통한자동 구축 가능

유형)�한국어의 경우 의존 문법 기반한 분석 유리.

연관연관연관연관 주제주제주제주제

확장확장확장확장 검색검색검색검색

�천안함-침몰-어뢰, 장동건-고소영-결혼 등과같이 연관된 주제들을 연결해 확장 검색할 수있는 기능

�특정 주제를 둘러싼 컨텍스트와 트랜드이해를 목적으로 함 – 공기어분석, LSA, 토픽랭크 등의 분석 기법 적용

의도의도의도의도 기반기반기반기반 검색검색검색검색

�냉면-맛집/요리법/역사, 청담동-교통/식당/카페 등, 사용자의 검색 의도에따른 목적 주제를 제시하는 검색

�사용자 로그 등 검색 패턴 분석을 통해 주제에따른 사용자 의도 발견과 주제별 인덱싱

Page 25: 6.최광선 semantic search and mining

[IN2] Discovery 2 Korea Use Case : Semantic Search and Mining

3. Saltlux’s Experiences

An integrated solution for Semantic Search

• 최신정보, 통합검색, 오늘의 토픽 (관심

주제어), 중요 토픽 동향, 이미지 및 동영상

검색, 외부 연계 검색 등이 한눈에 제공되는

통합 검색 포탈 지원

• 의미기반 질의어 자동 완성

기능

25[IN2][IN2] and STORM™STORM™

Page 26: 6.최광선 semantic search and mining

[IN2] Discovery 2 Korea Use Case : Semantic Search and Mining

3. Saltlux’s Experiences

An integrated solution for Semantic Search

• 확장 가능한 의미기반 분석

서비스 컴포넌트 (Discovery

Box)

• 외부 정보 연계 검색

• 중요 키워드 제시

• 검색어에 대한 문서량 트렌드

26[IN2][IN2] and STORM™STORM™

• 검색어에 대한 문서량 트렌드

• 최근 검색어

• 인기 검색어

• 지식 저장소 별 검색결과

통합 제공

• 실시간 미리보기 결과

• 요약보기, 개체보기, 내용보기

등 다양한 미리보기 제공

• 자동번역 연결 기능

• 실시간 미리보기

• 유사문서 검색

Page 27: 6.최광선 semantic search and mining

135-848 서울특별시 강남구 대치동 967 덕일빌딩 5, 6, 7 층Tel : 02-3402-0081 Home : www.saltlux.com

Fax: 02-3402-0082 E-mail : [email protected]

Thank you!