20130720 copy alert-ticta2013

21
ITC-CSCC 2010, Pattaya, Thailand ระบบแจ้งเตือนการคัดลอกเนื้อหาบนเว็บ CopyAlert สันติพงษ์ ไทยประยูร และอลิสา คงทน ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) TICTA 2013, Bangkok, Thailand

Upload: kanokorn-trakultaweekoon

Post on 15-Jan-2017

209 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 20130720 copy alert-ticta2013

ITC-CSCC 2010, Pattaya, Thailand

ระบบแจ้งเตือนการคัดลอกเนื้อหาบนเว็บ CopyAlert

สันติพงษ ์ไทยประยูร และอลิสา คงทน

ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC)

TICTA 2013, Bangkok, Thailand

Page 2: 20130720 copy alert-ticta2013

2

ความเป็นมาและแรงจูงใจ

แนะน าระบบ

เปรียบเทียบซอฟต์แวร์ในต่างประเทศ

ความพร้อมสู่ตลาดเชิงพาณิชย์และวางแผนการตลาด

แนวโน้มการพัฒนาในอนาคต

สาธิตการท างาน

หัวข้อ

Page 3: 20130720 copy alert-ticta2013

ผู้ขโมยผลงาน เจ้าของผลงาน 3

ความเป็นมาและแรงจูงใจ

Page 4: 20130720 copy alert-ticta2013

4

ความเป็นมาและแรงจูงใจ

Page 5: 20130720 copy alert-ticta2013

5

ภาพรวมระบบ

Bing

API

Checking

Monitoring

Web

Send URLs

-Analyzed Results -Alert Email

- ความถูกต้อง 85.6% - เวลาที่ใช้ในการตรวจ 44.83 sec/URL

Page 6: 20130720 copy alert-ticta2013

6

สนับสนุนการติดตามการคัดลอกหน้าเว็บบนอินเทอร์เน็ตแบบอัตโนมัติ ทั้งภาษาไทยและอังกฤษ

แจ้งเตือนอัตโนมัติด้วยอีเมลเมื่อเนื้อหาถูกคัดลอก

ผู้ใช้สามารถติดแท็ก (Tag) บนหน้าเว็บเพื่อเฝ้าระวังผลงานของตัวเองแบบ Real-Time

สามารถแสดงแถบสีข้อความที่คล้ายกันพร้อมทั้งเปอร์เซ็นต์ความคล้าย

ผู้ใช้สามารถปรับเปลี่ยนเปอร์เซ็นต์ความคล้ายได้ด้วยตนเอง

แสดงประวัติผลการตรวจสอบ

คุณสมบัติของระบบ

Page 7: 20130720 copy alert-ticta2013

7

การติดแท็ก

คุณสมบัติของระบบ

Page 8: 20130720 copy alert-ticta2013

8

แถบสีข้อความที่คล้ายกัน

คุณสมบัติของระบบ

Page 9: 20130720 copy alert-ticta2013

9

ประวัติการตรวจสอบ

คุณสมบัติของระบบ

Page 10: 20130720 copy alert-ticta2013

10

สามารถเข้าถึงได้ทุกที่ ทุกเวลา

ใช้งานง่าย ตรวจสอบได้รวดเร็ว

ช่วยปกป้องเนื้อหาเวบ็ไมใ่ห้ถูกคัดลอก

ช่วยนักเขียนและบรรณาธิการในการหาว่าใครขโมยต้นฉบับ

ช่วยบล็อกเกอร์และนักข่าวในการหาเวบ็เพจที่ถูกเว็บไซต์อื่นน าไปดัดแปลงหรือท าซ้ าโดยไม่มีการอ้างอิง

ประโยชน์แก่ผู้ใช ้

Page 11: 20130720 copy alert-ticta2013

11

เปรียบเทียบซอฟต์แวร์ในต่างประเทศ

Products/Features

Thai-English Language Support

Automatically Monitor Pages

Send Notifications by Email

Embeddable Tag

Document Highlight and Similarity Score

Page 12: 20130720 copy alert-ticta2013

12

ความพร้อมสู่ตลาดเชิงพาณิชย์

จุดแข็ง (Strength)

สนับสนุนการติดตามการคัดลอกหน้าเว็บบนอินเทอร์เน็ตแบบอัตโนมัติ ทั้งภาษาไทยและอังกฤษ

ลดเวลาเจ้าของผลงานในการตรวจสอบการคัดลอก

ตรวจสอบการคัดลอกรวดเร็วและถูกต้อง

โอกาส (Opportunity)

การคัดลอกเนื้อหาเว็บจากที่หนึ่งไปยังอีกที่หนึ่งเพิ่มมากขึ้น

นักเขียนมีความต้องการคอยติดตามเนื้อหาเว็บตนเอง

ประกาศใช้พระราชบัญญัติลิขสิทธิ์ พ.ศ. ๒๕๓๗

Page 13: 20130720 copy alert-ticta2013

13

กลุ่มผู้ใช้เป้าหมาย

Page 14: 20130720 copy alert-ticta2013

14

วางแผนการตลาด

บริการ ประเภท แพ็คเกจ กลุ่มลูกค้า เป้าหมาย ส่งเสริมการขาย

Online Service

Monthly -Free -Standard -Professional

นักเขียน/บุคคลทั่วไป

70% บูธ/โฆษณา/เว็บไซต/์ทดลองใช้งาน

API Monthly Enterprise องค์กร/บริษัท

30%

Page 15: 20130720 copy alert-ticta2013

15

เพิ่มประสิทธิภาพระบบ

เพิ่มเครื่องมือสืบค้น (Search Engine) เพื่อสามารถตรวจสอบได้ครอบคลุม

วิเคราะห์ว่าลิงค์ไหนมีการอ้างอิงแหล่งที่มา

ตรวจสอบรูปภาพที่ถูกคัดลอกมาจากเว็บ

ระบุเฉพาะเว็บไซต์ที่ต้องตรวจสอบ

แนวโน้มการพัฒนาในอนาคต

Page 16: 20130720 copy alert-ticta2013

16

สาธิตระบบ

Page 17: 20130720 copy alert-ticta2013

17

Questions / Comments ?

Thank you for your attention

Page 18: 20130720 copy alert-ticta2013

18

ขั้นตอนการท างานของระบบ

Page 19: 20130720 copy alert-ticta2013

19

ประสิทธิภาพ

Method #URLs #Chunks Accuracy (%) Response

Time (Sec/Url)

Baseline 100 36 85.6 89.91

Randomly Selection

100 23 85.6 56.81

Intelligent Selection

100 18 85.6 44.82

Page 20: 20130720 copy alert-ticta2013

Similarity Score Calculation Source

A 200 ค ำ

Source B

150 ค ำ

Source C

300 ค ำ

20 ค ำ

30 ค ำ

40 ค ำ

20/200 = 10%

30/150 = 20%

40/300 = 13%

20 ค ำ

30 ค ำ

40 ค ำ

Total similarity score is 90/500 = 18%

My work 500 ค ำ

- เปอร์เซน็ความคล้ายทัง้หมด (Total Similarity Score) คือ เปอร์เซน็ความคล้ายทัง้หมดท่ีเอกสารของเราเหมือนกบัแหล่งอ่ืน

- เปอร์เซน็ความคล้ายตามแหลง่ที่มา (Similarity Score by Source) คือ เอกสารของเรามีความคล้ายเป็นก่ีเปอร์เซน็ของแตล่ะแหลง่

Page 21: 20130720 copy alert-ticta2013

21

TT = “กำร|ใช้|สำร|อินทรีย์|ใน|วงจร|อิเล็กทรอนิกส์| |ซึ่ง|จะ|มี|ต้น|ทุน|ใน|กำร|ผลิต|ถูก|ยิ่ง|กว่ำ|กำร|ผลิต||วงจร|จำก|ซลิิกอน|ที่|ใช้|ใน|ปัจจุบัน|และ|สำมำรถ|น ำ|ไป|ใช้|ได้|กับ|พืน้|ผิว|ที่|โค้งงอ”

T = “การใช้สารอินทรีย์ในวงจรอิเล็กทรอนิกส์ ซึง่จะมีต้นทุนในการผลิตถูกยิ่งกว่าการผลิต วงจรจาก”ซลิิกอน”ทีใ่ช้ในปัจจุบันและสามารถน าไปใช้ได้กับพื้นผิวทีโ่ค้งงอ”

Window Size = 10 Sliding Window = 6

1 10

6

C1 = “กำร|ใช้|สำร|อินทรีย์|ใน|วงจร|อิเล็กทรอนิกส์| |ซึ่ง|จะ|” C2 = “อิเล็กทรอนิกส์| |ซึ่ง|จะ|มี|ต้น|ทุน|ใน|กำร|ผลิต|”

C3 = “ทุน|ใน|กำร|ผลิต|ถูก|ยิ่ง|กว่ำ|กำร|ผลิต| |”

C4 = “กว่ำ|กำร|ผลิต| |วงจร|จำก|ซลิิกอน|ที่|ใช้|ใน|”

C5 = “ซลิิกอน|ที่|ใช้|ใน|ปัจจุบัน|และ|สำมำรถ|น ำ|ไป|ใช้|ได้|” C6 = “น ำ|ไป|ใช้|ได้|กับ|พืน้|ผิว|ที่|โค้งงอ|”

เทคนิคการเลือ่นกรอบ (Sliding Windows Technique)