lucene connector framework(lcf)

17
LCF Lucene Connector Framework Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved. 株株株株 株株株株株株 RONDHUIT Co., Ltd. ;Professional Search Engine Consulting Services for Lucene/Solr 株株株株株株 株株株株株 ATTACHOT Tuangphon

Upload: rondhuit

Post on 16-Nov-2014

2.450 views

Category:

Technology


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Lucene Connector Framework(Lcf)

LCFLucene Connector

Framework

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

株式会社 ロンウイットRONDHUIT Co., Ltd. ;Professional Search Engine Consulting Services for Lucene/Solr

アッタチョー  トウンポンATTACHOT Tuangphon

Page 2: Lucene Connector Framework(Lcf)

Contents1. Abstract2. Introduction to LCF3. Existing Connectors and

Authorities4. Key Points5. Why LCF6. Contribution

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Page 3: Lucene Connector Framework(Lcf)

Abstract

Connector Framework は、 5 年近くMetaCarta Search Appliance として開発され、使われてきた  

開発担当者は、 Karl Wright 2010 年 1 月 12 日に Lucene Connector

Framework としてリリースされた LCF は Incubator プロジェクトを通して、

公式に Apache Software Foundation の一つのプロジェクトとして活動を行う

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Page 4: Lucene Connector Framework(Lcf)

( 参考 )Apache Incubator

Incubator プロジェクトとは、外部企業や既存の外部プロジェクト

が Apache Software Foundation の一部として活動を展開していく為の入口である。

外部プロジェクトApache Software

Foundation

Incubator

Solr

Page 5: Lucene Connector Framework(Lcf)

(参考) Incubator の役割

Apache Software Foundation のやり方に沿った新しいコミュニティを開発していくという役割

すべての寄贈が Apache Software Foundation の法的基準に従っていることを保証するという役割

Solr でも Incubator を通して Apache Software Foundation に入った。

Page 6: Lucene Connector Framework(Lcf)

Introduction to LCF

Connector Framework とは   企業のレポジトリーに置かれたデー

タに アクセスする Search Engine/ 他のツー

ルの為のフレームワークである  

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

企業のレポジトリー

LCF

Lucene/Tools

Page 7: Lucene Connector Framework(Lcf)

Introduction to LCF

ConnectorFramework

Interface

Interface

Interface

   フレームワークに問題を抽象化することにより、アプリケーションは、明確なインタフェースのセットにコード化することができる

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Application

Repo

Repo

Repo

Application

Repo Repo Repo

Page 8: Lucene Connector Framework(Lcf)

Introduction to LCF

Connector Framework とは   拡張可能な増分クローラーであり、

構成とクロール履歴を管理する為にデータベースを使用する

   インデクシングを目的として、複数のレポジトリーにアクセスできる

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

企業のレポジトリー

LCF

Page 9: Lucene Connector Framework(Lcf)

Introduction to LCF

Connector Framework とは   さらに、ユーザーのアイデンティ

ティに基づいたレポジトリーコンテンツにユーザーの検索アクセスを制限できるようにレポジトリーごとのセキュリティモデルを確立する

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Repo1

Repo2

セキュリティモデル

セキュリティモデル

LCF

Index

Repos

User1

User2

Repo1

○ ○

Repo2

○ ×

Page 10: Lucene Connector Framework(Lcf)

Existing Connectors & Authorities

File system Windows shares JDBC-supported databases RSS feeds General websites LiveLink (From OpenText)

Connector Framework は 多くのシステムの為に Connectors とAuthorities をサポートしている。

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Page 11: Lucene Connector Framework(Lcf)

Existing Connectors & Authorities

Documentum (From EMC) SharePoint (From Microsoft) Meridio (From Meridio) Memex (From Memex) FileNet (From IBM)

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Connector Framework は 多くのシステムの為に Connectors とAuthorities をサポートしている。

Page 12: Lucene Connector Framework(Lcf)

Key Points

拡張性 新しいレポジトリーに新しい Connector

が追加できる機能

レポジトリーごとのセキュリティモデルに新しい Authority が追加できる機能

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Page 13: Lucene Connector Framework(Lcf)

Key Points

増分性 レポジトリーごとの作法において クローラースケジュール間に変更した

物だけを処理する機能

Word

Excel

PowerPoint

Word

Excel

クローラー新しく作った PowerPoint のみを処理する

レポジトリー

Page 14: Lucene Connector Framework(Lcf)

Key Points

再起動性 処理中、プロセス中断またはマシン

シャットダウン等が起きても再開できるように、データベースを使用する

セキュリティ Search Engine がレポジトリーのセキュ

リティモデルを継承できるようにするセキュリティトークンのモデルを確立する

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Page 15: Lucene Connector Framework(Lcf)

Key Points

省メモリ 構成を問わず、限られたプロセスメモ

リーで確実に動作する機能性能

全体の効率を最大化する為のコネクタ用の資源( HDD,Memory,CPU )を管理する機能

透明性 全てのクローラーの活動とレポジトリー

接続に関するレポートを生成する機能Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

Page 16: Lucene Connector Framework(Lcf)

Why LCF !

Lucene, Solr, Nutch, Mahout, Tika 等のレポジ

トリーに接続することが 簡単

オープンソース化することにより、   1. ソフトウェアの品質を向上させる   2. 維持する為のコストを減らすことができる

Copyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

LCFは・・・

Page 17: Lucene Connector Framework(Lcf)

Contribution

Mailing lists http://incubator.apache.org/connectors/

mail.html

参考サイト  http://cwiki.apache.org/confluence/disp

lay/CONNECTORS/HowToContributeCopyright (c) 2006-2010 RONDHUIT Co., Ltd. All Rights Reserved.

詳しくは、ここに参考してください