2015 lodc&udc ゴミ多言語変換用データ基盤

26
ゴミ収集等情報多言語変換用 データ基盤 (アイデア・データセット) 2015/12 ハウモリ 山形巧哉 山口琢 http://howml.org [email protected]

Upload: takuya-yamagata

Post on 19-Jan-2017

399 views

Category:

Internet


0 download

TRANSCRIPT

Page 1: 2015 lodc&UDC ゴミ多言語変換用データ基盤

ゴミ収集等情報多言語変換用データ基盤 (アイデア・データセット)2015/12ハウモリ 山形巧哉 山口琢http://howml.org [email protected]

Page 2: 2015 lodc&UDC ゴミ多言語変換用データ基盤

Introduction.

Page 3: 2015 lodc&UDC ゴミ多言語変換用データ基盤

ハウモリは、北海道森町を拠点とし、「データによるオープンで楽しい街づくり」を目標に活動するICTボランティア団体です。

主に「ウィキペディアタウンもりまち」の開催や「オープンストリートマップ」のマッパーボランティアを中心に、北海道内のオープンデータやLODを研究・推進し、北海道森町にて活動を行っており、さらにCode for japanの活動に共感し、Code for Mori(コードフォーモリ C4M)でもあります。

Page 4: 2015 lodc&UDC ゴミ多言語変換用データ基盤

背景と概要

Page 5: 2015 lodc&UDC ゴミ多言語変換用データ基盤

日本でのゴミ分別の種類の多さは、世界トップクラスと言われ、来日間もない外国人にとっては、それに慣れるまで、悩みの種であり、トラブルの原因ともなり得ることから、ゴミの分別に関する情報の多言語化はニーズが高いであろうと想定している。

背景

Page 6: 2015 lodc&UDC ゴミ多言語変換用データ基盤

現在、各種ゴミ捨て・分別情報を提供するアプリが存在し、多言語対応の取り組みもされているが、多言語データは、それぞれが翻訳をし作成を行っていると考えられる。 また、自治体において多言語している場合でも、各自治体が独自に翻訳を行っている。 ここで、ハウモリでは、一つの問題点を発見した。

これにより

Page 7: 2015 lodc&UDC ゴミ多言語変換用データ基盤

ただでさえ日本語は「揺らぎ」が多いのに、それを忠実に翻訳することで、多言語も「揺らぐ」 また、更に、ゴミの分別方法は、各自治体により方法が異なる為、これらを忠実に翻訳し、多言語化すると、その「揺らぎ」はさらに大きくなる、ということである。

それは

Page 8: 2015 lodc&UDC ゴミ多言語変換用データ基盤

「揺らぎ」があるからといっても、分別の方法が自治体によって異なる現在では、その表現の仕方、すなわち、日本語部分の語彙の統一はかなり難しい。

そこで、ハウモリは考えました。 日本語の統一が難しければ、訳した多言語を統一化してしまえば良い。と。

しかし

Page 9: 2015 lodc&UDC ゴミ多言語変換用データ基盤

こんにちは! やあ!

Hello ! Hi !

Page 10: 2015 lodc&UDC ゴミ多言語変換用データ基盤

どっちを使うの・・・?

Page 11: 2015 lodc&UDC ゴミ多言語変換用データ基盤

こんにちは! やあ!

Hello ! Hi !

HELLO!

Page 12: 2015 lodc&UDC ゴミ多言語変換用データ基盤

忠実に表現よりも意味が通じれば良い!

本アイデアの根底にあるのは語彙統一の概念

Page 13: 2015 lodc&UDC ゴミ多言語変換用データ基盤

具体的な説明

今回は、ハウモリが活動拠点としている、北海道森町のゴミの収集情報が5374 (CfK*)に対応している為、説明には5374を利用している。※なお、すでに5374では多言語化等の取り組みは行われている。本アイデアでは、多国語対応されたアプリで利用するデータを日本語から簡単に変換できる基盤を目的としている。これにより、5374以外でも多言語対応されていれば利用でき、また自治体ホームページでの活用も想定している。

Page 14: 2015 lodc&UDC ゴミ多言語変換用データ基盤

例えば・・・外国人ゴミの捨て方でトラブルがあったから、ちゃんと知りたいけど、どこに行ったらいいかわからない!!

5374というアプリがあるけど、結局日本語だからわからないな・・・

※画像は5374森町版※5374森町版はローカライズの際に、北海道森町のゴミ袋色に色を合わせている為、一般的な5374と色設定が異なる

Page 15: 2015 lodc&UDC ゴミ多言語変換用データ基盤

こんな問題も• 自治体でマルチランゲージのリーフレットをそもそも作っていない!(ことが多いと思われる=小さな自治体)

• 作れる人がいない可能性

こういう問題にこそ オープンデータの活用を!!

Page 16: 2015 lodc&UDC ゴミ多言語変換用データ基盤

では、どうすればいいのか

Page 17: 2015 lodc&UDC ゴミ多言語変換用データ基盤

いちいち多言語版を作るのは大変なので、自動変換してくれ、さらに、5374であればどこでも自動的に多言語対応されるようになると素晴らしい。

Burnable garbage

Cans

Plastic

Oversized burnable garbage

Recyclable Paper

Page 18: 2015 lodc&UDC ゴミ多言語変換用データ基盤

何が必要か

日本語 英語 中国語

燃やせるゴミ ・・・ ・・・燃やせないゴミ ・・・ ・・・空き缶 ・・・ ・・・空き瓶 ・・・ ・・・

プロパティ

燃やせるゴミ燃やせないゴミ空き缶空き瓶

森町公開のオープンデータ 「森町のゴミ収集情報」の

AREAデータ5374多言語対比RDF

このプロパティ値が こちらにあれば、 自動で変換される

Page 19: 2015 lodc&UDC ゴミ多言語変換用データ基盤

さらに、忘れていけないアイデアだけでは無くデータセットもある

Page 20: 2015 lodc&UDC ゴミ多言語変換用データ基盤

今回の注目点

例えば「燃やせるゴミ」という表現はこれだけあるが、英語であればBurnable garbageで通じるので、「燃やせるゴミ」の対訳はすべて統一している。=語彙統一

ゴミ収集等情報多言語変換用データ基盤データセット http://linkdata.org/work/rdf1s3579i

Page 21: 2015 lodc&UDC ゴミ多言語変換用データ基盤

対訳についていろいろあるかもしれないが意味が通じれば良い!

Page 22: 2015 lodc&UDC ゴミ多言語変換用データ基盤

ただ、これを本当はしたい各ゴミの説明をdbpedia等へリンクできれば、そのゴミ意味をわかってもらえると考えているが、現状そのようなページを見つけることができなかった。

この為、データセットへは「多言語-dbpedia」を作成しているが、現在のところWaste managementへのリンクを掲載している。

Page 23: 2015 lodc&UDC ゴミ多言語変換用データ基盤

アプリの イメージ

Page 24: 2015 lodc&UDC ゴミ多言語変換用データ基盤

イメージ

森町AREAデータ 多言語対比RDF

日本語 英語 中国語

燃やせるゴミ ・・・ ・・・燃やせないゴミ ・・・ ・・・空き缶 ・・・ ・・・空き瓶 ・・・ ・・・

プロパティ

燃やせるゴミ燃やせないゴミ空き缶空き瓶

変換後RDF

プロパティ

英語英語英語英語

5374マルチランゲージ版(仮)

Multi Language /多国语言 / нескольких языков

ドロップダウンボックスで言語を選択することにより、その言語に対応したプロパティ値等を変換

表示する

Burnable garbage

Cans

Plastic

Oversized burnable garbage

Recyclable Paper

Page 25: 2015 lodc&UDC ゴミ多言語変換用データ基盤

これで利用者も作り手も楽できる

多言語の必要性は感じていても分かる人が居ないなど頭を悩ませている人たちは多いと思われる。 これが実現できれば、悩み解決・時間に余裕もでき他のことができるようになる。

Page 26: 2015 lodc&UDC ゴミ多言語変換用データ基盤

展望ゴミの分別種類については、各自治体によって異なり、またその地域によって居住している外国人の国籍も異なることから、数多くの自治体による多言語対比RDFへの参加が増えることで、多くの種類・多くのケースの変換が可能となり、内容が充実していく、すなわち基盤となっていく。 今回のアイデア・データセットでは、ゴミの収集を主に述べているが、当然「ゴミの分別大辞典」等の多言語化も視野に入れていきたい。