privacy-preserving anonymization of set value data manolis terrovitis, nikos mamoulis university of...

Privacy-preserving Anonymization of Set Value Data

Manolis Terrovitis, Nikos MamoulisUniversity of Hong Kong

Panos KalnisNational University of Singaporewww.comp.nus.edu.sg/~kalnis

Motivation

Attacker can see up to m items Any m items No distinction between sensitive and non-sensitive items

Motivation (cont.)

Helen: Beer, 0% Milk, Pregnancy testJohn: Cola, CheeseTom: 2% Milk, Coffee….Mary: Wine, Beer, Full-fat Milk

Database

t1: Beer, 0%Milk, Pregnancy testt2: Cola, Cheeset3: 2% Milk, Coffee….tn: Wine, Beer, Full-fat Milk

Published

AttackerFind all transactions that contain Beer & 0% Milk

t1: Beer, Milk, Pregnancy testt2: Cola, Cheeset3: Milk, Coffee….tn: Wine, Beer, Milk

km-anonymity

,...,,

Set of items

Transaction

Database

tqsDttres |

kresres 0

mqs Query terms

km-anonymity:

Related Work: K-Anonymity [Swe02]

Age ZipCode Disease

42 25000 Flu

46 35000 AIDS

50 20000 Cancer

54 40000 Gastritis

48 50000 Dyspepsia

56 55000 Bronchitis

[Swe02] L. Sweeney. k-Anonymity: A Model for Protecting Privacy. Int. J. of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(5):557-570, 2002.

(a) Microdata

Quasi-identifier

Age ZipCode Disease

42-46 25000-35000 Flu

42-46 25000-35000 AIDS

50-54 20000-40000 Cancer

50-54 20000-40000 Gastritis

48-56 50000-55000 Dyspepsia

48-56 50000-55000 Bronchitis

(a) 2-anonymous microdata

NOT suitable for high-dimensionality

Related Work: L-diversity in Transactions

[GTK08] G. Ghinita, Y. Tao, P. Kalnis, “On the Anonymization of Sparse High-Dimensional Data”, ICDE, 2008

Requires knowledge of (non)-sensitive attributes

Our Approach: Employs Generalization

Aaa 21,

lizati

otherwise ,

node leaf ,0)(

pupNCP

Information loss

k=2m=2

Lattice of Generalizations

Count Tree

1212122 ,,,

,,,,,,,,

baBaAbAB

baBABAbabat

23 2 2

Optimal Algorithm

Q: Q: Q:

“Direct” Anonymization

COUNT({a1,a2})=1

Solves each “problem” independently

“Apriori-based” AnonymizationConstruct the count-tree incrementally

Prune unnecessary branches

Small Datasets (2-15K, BMS-WebView2)

|I|=40..60, k=100, m=3

Small Datasets (BMS-WebView2)

|D|=10K, k=100, m=1..4

Apriori Anonymization for Large Datasets

|D| |I|

515K 1657

59K 497

77K 3340

k=5 m=3

Points to Remember

Anonymization of Transactional Data Attacker knows m items Any m items can be the quasi-identifier

Global recoding method Optimal solution: too slow Apriori Anonymization: fast and low information

loss On-going work

Local recoding (sort by Gray order and partition)

Transactional data in streaming environments

Bibliography on LBS Privacy

http://anonym.comp.nus.edu.sg

privacy-preserving anonymization of set value data manolis terrovitis, nikos mamoulis university of...

milk slide

highdimensionality slide

milk t1

fat milk database t1

aprioribased anonymization

slow apriori anonymization

nonsensitive items

direct anonymization

Documents

graph-based modeling of etl activities with multi-level...

christian s. jensen csj joint work with man lung yiu, hua...

evaluation of top-k olap queries using aggregate r-trees...

1 on the anonymization of sparse high-dimensional data 1...

voronoi-based nearest neighbor search for multi-dimensional...

mizan mizan: optimizing graph mining in large parallel...

one-pass wavelet synopses for maximum-error metrics...

data warehouses and olap *slides by nikos mamoulis

density-based place clustering in geo-social...

a hybrid technique for private location-based queries with...

fast data anonymization with low information loss 1 national...

on-line discovery of hot motion paths d. sacharidis 1, k....

1 dcmp: a distributed cycle minimization protocol for peer-...

efﬁcient identiﬁcation of implicit facts in incomplete...

database systems for advanced...

hierarchical constraint satisfaction in spatial database...

spatio-textual similarity joins - vldb · spatio-textual...

indexing dna sequences for local similarity search joint...

the impact of duality on data synopsis problems panagiotis...

yin yang, dimitris papadias, stavros papadopoulos hkust,...