特許情報処理の立場から -...

18
特許情報処理の立場から 横井 俊夫 一般財団法人日本特許情報機構特許情報研究所顧問 東京工科大学名誉教授 MELT upフォーラム 2014730

Upload: others

Post on 11-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

特許情報処理の立場から

横井 俊夫一般財団法人日本特許情報機構特許情報研究所顧問

東京工科大学名誉教授

MELT upフォーラム 2014年7月30日

Page 2: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

特許情報・特許情報処理•良質なビックデータ

6000万件の特許文書の体系だった蓄積、特許分類(IPC、Fターム、ファイルインデックス)は実運用されている最大規模の産業オントロジー

•特許文書は法的産業文書の代表例法的産業文書:特許文書、知財文書、契約書、規約・定款、

コンプライアンス関連文書等々

厳格な文章(解釈範囲を限定し厳格に伝える文章)正確な文章:学術文書、技術文書、業務文書、報道記事印象深い文章:文学作品

•法的分野としては、ICT利用の先進分野機械翻訳、特許検索、特許分類、パテントマップ、特許電子図書館

Page 3: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

特許情報処理の課題グローバル化とICT化に向けた課題→いずれ世界特許庁に

•守りの特許から戦える特許へ→国内向け権利取得からグローバルな権利行使へ

権利取得:特許庁に出願し、特許権を取得権利行使:権利を主張し、特許侵害調査・ライセンス交渉・特許裁判に対応(実質的に権利行使できない、権利行使を前提としない特許が多い)

• 開かれた特許へ • 開かれた日本語へ多分野に広く開かれた特許 諸分野に開かれた日本語諸外国語に翻訳できる特許 高精度に翻訳できる日本語特許情報処理を高性能化できる特許 日本語処理を高性能化できる日本語

↑ ↑特許情報処理の課題の基底に日本語・日本語処理の課題がある

Page 4: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

特許文書の外国出願・参照用翻訳→高精度翻訳(高度な人手翻訳、知財翻訳ビジネス)

•特許翻訳の種類• 出願用翻訳(出願に先立って行われる翻訳)• 参照用翻訳(日本語で出願された内容を証明するための翻訳)

PCT出願、原語出願、優先権証明書等

•特許翻訳の課題• 和文特許文書に忠実な翻訳(正確性、明確性、簡潔性、一貫性、遵守性)が求められる[機械翻訳のそのままの利用は不可]

• 日本語文章上の課題によって直訳では適切な訳文が得られない• 知財翻訳者の永年のノウハウが日本語文章上の課題を解消してきた• 日英翻訳にはノウハウの蓄積があるが、日中翻訳の蓄積は希薄である

Page 5: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

日本の特許文書

【特許文書】

【書類名】明細書 ← 技術文書

【書類名】特許請求の範囲 ← 権利文書

【書類名】要約書 ← 付属文書

【書類名】明細書/Description

【発明の名称】/Title of Invention

【技術分野】/Technical Field

【背景技術】/Background Art

【先行技術文献】/Citation List

【特許文献】/Patent Literature

【非特許文献】/Non Patent Literature

【発明の概要】/Summary of Invention

【発明が解決しようとする課題】/Technical Problem

【課題を解決するための手段】/Solution to Problem

【発明の効果】/Advantageous Effects of Invention

【図面の簡単な説明】/Brief Description of Drawings

【発明を実施するための形態】/Description of Embodiments

【産業上の利用可能性】/Industrial Applicability

【符号の説明】/Reference Signs List

【書類名】特許請求の範囲

【請求項1】

<独立請求項>。

【請求項2】

<従属請求項>。

【請求項3】

<従属請求項>。

・・・

Page 6: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

【書類名】特許請求の範囲【請求項1】

<独立請求項>。

【請求項2】

<従属請求項>。

【請求項3】

<従属請求項>。

・・・

(米国特許出願における英文クレーム)

WHAT IS CLAIMED IS:1. <independent-claim>.2. <dependent-claim>.3. <dependent-claim>.・・・

(欧州特許出願・PCT出願における英文クレーム、EU特許庁の作業言語は英独仏語)

CLAIM(S)1. <independent-claim>.2. <dependent-claim>.3. <dependent-claim>.・・・

(中国特許出願における中文クレーム)

权利要求书1. <独立权利要求>。2. <从属权利要求>。3. <从属权利要求>。・・・

Page 7: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

請求項文の課題•容認性の悪い一文(一名詞句)表記

Kimballの二文制約(中央埋め込み文は2段まで)に反する長文英文Claimも一名詞句表記、ただし、英語の表現特性により二文制約に反しない

(修飾節や修飾句が被修飾語の後に来る英語と前に来る日本語)

•権利範囲を拡大するための文章術発明を構成する技術要素を少なくし、上位概念化する

新規造語が多くなる傾向、日本語の曖昧さに依存する傾向(権利範囲の拡大は論理的で翻訳できるものでなければならない)

•慣習的難解表現漢語調(漢文訓読体)文章、特許特有用語の使用

•特許文書全体の日本語文章課題の源請求項文が明細書や要約書に転用される

•作成困難、読解困難、翻訳困難、専門家でもミスる

Page 8: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

構造化クレームを用いる請求項文ライティング機械翻訳を活用する高精度多言語翻訳

•構造化言語• 構造を明示化する言語形式(グラフ表記、テキスト表記)

• 構造化日本語、構造化英語、構造化中国語等々、一方、通常の言語は、線状化日本語、線状化英語、線状化中国語等々

• 基本構造は、各国言語に共通であるとしてよい

• 通常のテキスト(線状化言語による線状化テキスト)との手順だった相互変換

• 情報の表現能力の観点からは、制限言語ではない

• 構造化プログラミングやオブジェクト指向言語に対応

• 構造化すべき構造は、情報伝達構造• 擬似対話構造(文章表現とは、書き手と想定する読み手との擬似的な対話)

• 参照構造(通常テキストの照応関係を一般化)

• 範囲構造(修飾域やスコープ等を一般化)

•構造化言語適用の成功事例が構造化クレーム

Page 9: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

ライティングの全体プロセス

基本設計案

和文構造化クレーム

英文構造化クレーム

請求項文名詞句形式文

複文形式文連文形式文

名詞句形式英文クレーム

C.知財翻訳+機械翻訳

(英・中・韓)A.構造化クレームの作成

D.線状化(読む)

B.線状化(読む)

【書類名】特許請求の範囲

【書類名】明細書、要約書 WHAT IS

CLAIMED IS:

発明内容

A’.特許請求の範囲の基本設計

翻訳原稿構造化クレーム

訳せる日本語へ

Page 10: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

クレーム基本パターンから実現パターンへ

<装置>それが <装置>である

<問い>

それが備えるのが

<要素2>

<要素1> <問い1>

<問い2>

<説明2>

<説明1>

<概要説明>

【独立請求項:<請求項番号>】

【独立請求項:1】

それが備えるのが

返却要否判断部

通知多イミング判断部 <問い1>

<問い2>

<説明2>

<説明1>

送信部

ヘッダー変更部

<問い3>

<問い4>

<説明4>

<説明3>

通信端末

基本パターンを選ぶ

実現パターンへ書き換える

Page 11: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

和文構造化クレームに仕上げる

【独立請求項:1】

それが備えるのが

返却要否判断部-2

通知多イミング判断部-1それが

それが

送信部

ヘッダー変更部-3

それが

それが

通信端末

配信日時-12が到来しているか否かを判断する

電子メール-6←5について、受信メモリ-13に保持するか或いはメール受信サーバ-4へ返却するかを判断する

電子メール-7←6について、ヘッダー-10≺7を変更する

電子メール-8←7をメール送信サーバへ送信する

電子メール-5のヘッダー-9≺5により指定されている

メール受信サーバ-4から受信している

それが

電子メールを

通知タイミング判断部-1において配信日時-12が到来していないと判断されている

返却要否判断部-2においてメール受信サーバ-4へ返却すると判断されている

電子メールが

電子メールを

ヘッダー-11≺8がヘッダー変更部-3において変更されている

電子メールの

本請求項例は、「Japio仮想特許明細書」による

Page 12: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

構造化クレームを読む(線状化)

【独立請求項:1】

メール受信サーバ-4から受信した電子メール-5のヘッダー-9≺5により指定されている配信日時-12が到来しているか否かを判断する通知タイミング判断部-1と、通知タイミング判断部-1において配信日時-12が到来していないと判断された電子メール-6←5について、受信メモリ-13に保持するか或いはメール受信サーバ-4へ返却するかを判断する返却要否判断部-2と、返却要否判断部-2においてメール受信サーバ-4へ返却すると判断された電子メール-7←6について、ヘッダー-10≺7を変更するヘッダー変更部-3と、ヘッダー-11≺8がヘッダー変更部-3において変更された電子メール-8←7をメール送信サーバへ送信する送信部を備える通信端末

【請求項 1】

メール受信サーバから受信した電子メールのヘッダーにより指定されている配信日時

が到来しているか否かを判断する通知タイミング判断部と、

その通知タイミング判断部において配信日時が到来していないと判断された電子メー

ルについて、受信メモリに保持するか或いは上記メール受信サーバへ返却するかを判

断する返却要否判断部と、

その返却要否判断部において上記メール受信サーバへ返却すると判断された電子メー

ルについて、その電子メールのヘッダーを変更するヘッダー変更部と、

そのヘッダー変更部においてヘッダーが変更された電子メールをメール送信サーバへ

送信する送信部を備える通信端末。

名詞句形式へと読む

請求項文が書き上がる

Page 13: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

翻訳原稿用構造化クレームに言い換える

【独立請求項:1】

それが備えるのが

返却要否判断部-2

通知多イミング判断部-1それが

それが

送信部

ヘッダー変更部-3

それが

それが

通信端末

配信日時-12が到来しているか否かを判断する

電子メール-6←5を受信メモリ-13に保持するか、或いは、電子メール-6←5をメール受信サーバ-4へ返却するかを判断する

電子メール-7←6のヘッダー-10≺7を変更する

電子メール-8←7をメール送信サーバへ送信する

電子メール-5のヘッダー-9≺5により指定されている

メール受信サーバ-4から受信されている

それが

電子メールが

到来していないと通知タイミング判断部-1によって判断されている

メール受信サーバ-4へ返却されると返却要否判断部-2によって判断されている

電子メールの配信日時が

電子メールが

ヘッダー変更部-3によって変更されている

電子メールのヘッダーが

Page 14: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

翻訳原稿への言い換え「→電子メールを/メール受信サーバ-4から受信している」

「→電子メールが/メール受信サーバ-4から受信されている」

「→それが/電子メール-6←5について、受信メモリ-13に保持するか或いはメール受信サーバ-4へ返却するかを判断する」

「→それが/電子メール-6←5を受信メモリ-13に保持するか、或いは、電子メール-6←5をメール受信サーバ-4へ返却するかを判断する」

「→電子メールが/通知タイミング判断部-1において配信日時-12が到来していないと判断されている」「→電子メールの配信日時が/到来していないと通知タイミング判断部-1よって判断されている」

「→それが/電子メール-7←6について、ヘッダー-10≺7を変更する」「→それが/電子メール-7←6のヘッダー-10≺7を変更する」

「→電子メールを/返却要否判断部-2においてメール受信サーバ-4へ返却すると判断されている」「→電子メールが/メール受信サーバ-4へ返却されると返却要否判断部-2によって判断されている」

「→電子メールの/ヘッダー-11≺8がヘッダー変更部-3において変更されている」「→電子メールのヘッダーが/ヘッダー変更部-3によって変更されている」

言い換え規則 ①問い成分(主題成分)を主格化(が格化)する②状況成分(準主題成分)を格成分化する

[構造化言語のテキスト形式表記]

Page 15: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

情報伝達構造に関する言語の表現特性

• すべての言語に共通の表現特性事象表現(文)の骨格を定めるのは述語(動詞)と主要格成分既出情報(問い成分)を文頭、未出情報(答え成分)を文末方向伝達不要な成分を省き、情報伝達を効率良く

• 日本語は主題優勢言語主題成分や状況成分を文頭に配置し、文末の述語を予測させる主題成分で既出情報、題述成分で未出情報辞(助詞)で格役割を表示、不要な格成分は省ける →省略過多の傾向

• 英語は主語優勢言語動詞成分が文頭近くに配置、簡潔な主語成分で速やかに動詞に到達させる主語成分で既出情報、述部成分で未出情報位置で格役割を表示、不要な(主要)格成分も省けず →表出過多の傾向 →代名詞が発達

• 中国語は英語に近く、韓国語は日本語に近い

論理性に関しては、言語そのものに優劣はなく、運用上の問題高精度翻訳には、表現特性を踏まえることが肝要

Page 16: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

英文構造化クレームへ翻訳する

【Independent claim:1】

It comprises

a return necessity determining unit-2

a notification timing determining unit-1

それが

それが

a sending unit

a header changing unit-3

それが

それが

A communication terminal

配信日時-12が到来しているか否かを判断する

電子メール-6←5を受信メモリ-13に保持するか、或いは、電子メール-6←5をメール受信サーバ-4へ返却するかを判断する

電子メール-7←6のヘッダー-10≺7を変更する

電子メール-8←7をメール送信サーバへ送信する

電子メール-5のヘッダー-9≺5により指定されている

メール受信サーバ-4から受信されている

それが

電子メールが

到来していないと通知タイミング判断部-1によって判断されている

メール受信サーバ-4へ返却されると返却要否判断部-2によって判断されている

電子メールの配信日時が

電子メールが

ヘッダー変更部-3によって変更されている

電子メールのヘッダーが

【Independent claim:1】

It comprises

a return necessity determining unit-2

a notification timing determining unit-1

It

Ita sending unit

a header changing unit-3

It

It

A communication terminal

determines whether a delivery date and time-12 has arrived

determines whether to hold an email-6←5 in a reception memory-13 or to return an email-6←5to a mail receiving server-4

changes a header--10≺7 of an email -7←6

sends an email -8←7 to a mail sending server

is specified by a header-9≺5 of an email-5

is received from a mail receiving server-4

It

The mail

is determined not to have arrived by a notification timing determining unit -1

is determined to be returned to a mail receiving server -4 by a return necessity determining unit -2

The delivery date and time of the email

The email

has been changed by a header changing unit -3

The header of the email

Page 17: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

英文構造化クレームをClaim文へと読む【Independent claim:1】

A communication terminal comprising:a notification timing determining unit-1 determining whether a delivery date and time-12 has arrived, wherein the delivery date and time is specified by a header-9≺5 of an email-5 received from a mail receiving server-4;a return necessity determining unit-2 determining whether to hold an email-6←5in a reception memory-13 or to return an email-6←5 to a mail receiving server-4,wherein the delivery date and time of the email is determined not to have arrivedby a notification timing determining unit -1;a header changing unit-3 changing a header--10≺7 of an email -7←6 determined to be returned to a mail receiving server -4 by a return necessity determining unit -2; anda sending unit sending an email -8←7 to a mail sending server, wherein the header of the email has been changed by a header changing unit -3

1. A communication terminal comprising;

a notification timing determining unit determining whether a delivery date and

time has arrived, wherein the delivery date and time is specified by a header of an

email received from a mail receiving server;

a return necessity determining unit determining whether to hold an email in a

reception memory or to return the email to the mail receiving server, wherein the

delivery date and time of the email is determined not to have arrived by the

notification timing determining unit ;

a header changing unit changing a header- of an email determined to be returned

to the mail receiving server by the return necessity determining unit; and

a sending unit sending an email to a mail sending server, wherein the header of

the email has been changed by the header changing unit.

名詞句形式へと読む

Claim文が書き上がる

Page 18: 特許情報処理の立場から - 中央大学c-faculty.chuo-u.ac.jp/~tsujii/pdf/140730yokoi.pdf · •構造化プログラミングやオブジェクト指向言語に対応 •構造化すべき構造は、情報伝達構造

機械翻訳の課題•機械翻訳の現状

• ブラックボックス化のジレンマ →方式に関わらず翻訳精度が頭打ちになる

• 文章・文レベルの大規模低精度翻訳→Google翻訳(検索精度に見合った翻訳精度であればよい)

• 語・複合語・連語レベルの大規模対訳→人手によるグループ翻訳作業における用語管理

• インタラクティブ機械翻訳の試み• 成功したテキスト処理はインタラクティブ形式 ←意味・文脈に関わる処理部分

全文検索、かな漢字変換

• 機械翻訳をインタラクティブ形式にするにはユーザとコンピュータとの適切なコミュニケーションメディア

あるレベル以上のコンピュータの処理能力

→ 構造化言語をコミュニケーションメディアに

→ 現状の言語処理技術は、求められる処理能力に対応