hdr davidgrosamblard

Upload: ami2008

Post on 18-Jul-2015

95 views

Category:

Documents


0 download

TRANSCRIPT

Universit de Bourgogne e Ecole doctorale E2S ` Habilitation a diriger des recherches Discipline Informatique

David Gross-Amblard

Tatouage des bases de donnes e Databases watermarking

Soutenue le 6 dcembre 2010, ` Dijon e a

Rapporteurs / Referees M. Alban Gabillon M. Sanjeev Khanna M. Dan Suciu Examinateurs / Examiners M. Serge Abiteboul M. Michel Scholl M. Kokou Yetongnon INRIA-Saclay et Acadmie des Sciences e CNAM-Paris Universit de Bourgogne eversion 1.0

Universit de la Polynsie Franaise e e c University of Pennsylvania University of Washington

Contents

1 Introduction (English) 2 Introduction (French) 3 Query preservation 3.1 Query-preserving watermarking . . . . . . . . 3.2 General case . . . . . . . . . . . . . . . . . . . 3.3 Watermarking while preserving local queries . 3.4 Preserving MSO-queries on trees and tree-like 3.5 Adversarial model . . . . . . . . . . . . . . . 3.6 Instance model and non-parametric queries . 3.7 Incremental watermarking . . . . . . . . . . . 3.8 Practical aspects . . . . . . . . . . . . . . . . 3.9 Conclusion . . . . . . . . . . . . . . . . . . .

11 21 33 35 39 42 44 47 49 50 51 51 53 53 55 57 61 65 66 68 71 73 75 75 77 82 84 84 87 87 88 89 90 93 95 95 97 97 98 101 107 113 114

. . . . . . . . . . . . . . . . . . structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

4 Practical aspects: the Watermill system 4.1 Databases watermarking . . . . . . . . . . . . . . . . . . . . . 4.2 A Declarative Language for Usability Constraints . . . . . . . 4.3 Fingerprinting as an optimization problem: ILP reduction . . 4.4 Fingerprinting as an optimization problem: Pairing Heuristic 4.5 Collusion-secure ngerprinting . . . . . . . . . . . . . . . . . 4.6 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Experimental Results . . . . . . . . . . . . . . . . . . . . . . . 4.8 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Typed Xml streams 5.1 Introduction . . . . . . . . . . . . . . . 5.2 The -dtour Algorithm . . . . . . . . e 5.3 Robustness: Analysis and Experiments 5.4 Related Work . . . . . . . . . . . . . . 5.5 Conclusion . . . . . . . . . . . . . . . 6 Symbolic musical scores 6.1 Introduction . . . . . . . . . 6.2 Fingering and watermarking 6.3 Fingering Watermarking . . 6.4 Discussion . . . . . . . . . . 6.5 Experiments . . . . . . . . . 6.6 Related work . . . . . . . . 6.7 Conclusion . . . . . . . . . 7 Geographical data 7.1 Introduction . . . . . . . 7.2 Preliminaries . . . . . . 7.3 Building Watermarking 7.4 Experiments . . . . . . . 7.5 Related Work . . . . . . 7.6 Conclusion . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . . 3

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

8 Conclusion & perspectives (English) 9 Conclusion & perspectives (French) A Other studies A.1 Work presented in this report . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2 Miscellaneous . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3 Work non-related to watermarking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B Rsum dactivit e e e B.1 Encadrement (th`ses, postdocs, masters, ingnieurs) . . e e B.2 Animation scientique . . . . . . . . . . . . . . . . . . . B.3 Relations avec le monde industriel ou socio-conomique e B.4 Visibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . e B.5 Activit denseignement . . . . . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

129 133 137 137 138 138 141 141 142 143 143 145

Acknowledgements / RemerciementsFirst of all, I would like to thank my referees, Alban Gabillon, Sanjeev Khanna and Dan Suciu, for making me the honor of being part of my jury. Dan, thank you for the numerous comments I obtained on these works. Sanjeev, I would like to thank you for your inspiring SODA paper: you can see that I really enjoyed it. Alban, pour avoir accept de lire lHDR de lencadrant et la th`se de lencadr, et pour mavoir honor de ta e e e e prsence en mtropole, passant ainsi dun climat tropical ` un climat ocanique ` tendance semi-continentale e e a e a (bref, il fait froid ` Dijon et beau ` Papeete). a a Jaimerais ensuite remercier mes examinateurs, Serge Abiteboul, Michel Scholl, et Kokou Yetongnon. Vous tes ou avez t chacun mes employeurs, je respecterai donc lordre chronologique dembauche. e ee Michel : je te remercie sinc`rement davoir pari sur moi. Cest grce ` toi que je peux faire ce mtier. e e a a e Lambiance de lquipe Vertigo doit beaucoup ` ta faon dtre. e a c e Kokou : je te suis reconnaissant de mavoir accueilli dans lquipe SI&SI, alors que jtais loosely e e coupled. Maintenant, cest strongly. Serge : je me rappelle de ton hospitalit et de ton humour alors que jtais un jeune doctorant ` sa e e a premi`re confrence, Dallas, Texas (2000). Dix ans plus tard, tes qualits sont inchanges, seul le nom du e e e e projet est dirent. e Toujours dans le mme ordre, je voudrais remercier les membres des direntes quipes que jai frquentes e e e e e en 9 ans : Vertigo, SI&SI et WebDam. Tout dabord lquipe Vertigo : Bernd Amann, Nouha Bouteldjia, e Camlia Constantin, Vassilis Christophides, Michel Crucianu, Cdric Du Mouza, Irini Fundulaki (from NY e e to Edinbourgh), Valrie Gouet-Brunet, Julien Lafaye (on sest bien marr non ?), Radu Pop, Sbastien e e e Poullot, Imen Sebei, et Dan Vodislav. En passant, jaimerais saluer Marie-Christine Costa, directrice du laboratoire Cedric pour son soutien. Je remercie galement Bernard Lemaire, Agn`s Plateau et F.-Y. Villemin pour les bons moments e e denseignement au CNAM de Paris. Je remercie galement les membres de lquipe SI&SI : Elie Abi-Lahoud, Lylia Abrouk, Bechara Al Bouna, e e Richard Chbeir, Christophe Cruz, Nadine Cullot, Elisabeth Gavignet, Raji Ghawi, Damien Leprovost (so say we all), Christophe Nicolle, Elie Raad, Sylvain Rampacek (r !), Mnica Ribeiro Porto Ferreira, Fekade e o Getahun Taddesse, et Joe Tekli, dans lattente de conna tre les nouveaux arrivants. Je noublie pas mes camarades de classe de lUniversit de Bourgogne : Jean-Luc Baril, Jol Savelli et Olivier Togni (proofe e checkers). Richard, un mention particuli`re pour ta gnrosit. Et si on lcrivait ce second papier ? e e e e e Enn, je remercie mes nouveaux coll`gues du projet WebDam : Emilien Antoine, Meghyn Bienvenu, e Alban Galland, Bruno Marnette, et Marie-Christine Rousset. Dans et autour de WebDam : Pierre Bourhis, Ioana Manolescu, Luc Segoun et Victor Vianu. ` Pour Luc : le calcaire cest fait. A quand le granite ? Il y a les quipes, mais aussi les projets de recherche. Pour le tatouage, les membres du projet Tadorne : e Cristina Bazgan, Cyril Bazin, Jean Bguec, Meryem Guerrouani, Jean-Marie Le Bars, Jacques Madelaine, e Ammar Mechouche, et Anne Ruas. Je remercie galement les autres tatoueurs de bases de donnes, Jerry e e Kiernan, et Radu Sion, et les tatoueurs en gnral, Caroline Fontaine et Teddy Furon. Jan Van den Busse e che and Michael Benedikt for their precious remarks on early versions of this work (Jan, you were right, submitting was a good idea). 5

Cristina, merci pour ton aide et tes conseils. Je compte sur toi pour rduire mon nombre dErds. e o Place ` la musique. Je salue les membres du projet NEUMA : Herv Audon, Ccile Davy-Rigaux, Zo a e e e e Faget, Philippe Rigaux, Alice Tacaille et Virginie Thion-Goasdou. e Je remercie tout particuli`rement et tr`s chaleureusement Philippe, Ccile, ainsi que Clment et Simon, e e e e pour leur accueil du visiteur du jeudi et pour leur Temprance. e Je salue enn mes comp`res du Cedric, Pierre Courtieu et Xavier Urbain. Des vrais potes quoi. Toujours e prts pour un caf ou une andouillette grille. Xavier, htellerie cinq toques et cinq cls. e e e o e Les week-ends ` Dijon ne seront plus pareils sans Nicolas Roussel, Rosane Ushirobira, et leur galopins : a Tha Maxime et Sophia. Mais la France, cest petit ! Un clin doeil ` Werner Seiler (un jour nous auront s, a notre rponse), ` Fabienne Hbrard (miam) et ` Philippe Pagniez (linformatique du futur). e a e a Il y a aussi Marcel et Margot, Nicole et Pierre, Bernard, Vincent, Yvette et Andr : faut-il dire quelque e chose ?

Enn, je remercie Graldine pour son soutien permanent. Si son amour est aveugle ` mes dfauts, il nen e a e est pas moins robuste aux agressions du temps. Et faut dire quelle a comme ... un ptit chat sauvage dans les yeux, qui ressemble au tatouage que jai dans lcoeur. Ya pas derreur.

Figure 1: Un nuage

Avant-propos (French)Dans ce document je prsente une vue densemble de mes travaux concernant le tatouage de bases de donnes, e e coeur de mon activit depuis 2001. Mes autres centres dintrt sont prsents en annexe A. e e e e e

En brefDepuis septembre 2006 je suis membre de lquipe Syst`mes dinformation et syst`mes dimages (SISI) du e e e laboratoire Le2i de luniversit de Bourgogne, quipe dirige par Kokou Yetongnon. Je suis actuellement en e e e dlgation INRIA dans le projet ERC Grant WebDam de Serge Abiteboul. Prcdemment, jtais membre de ee e e e lquipe Vertigo - Bases de donnes du laboratoire Cedric (Cnam-Paris) depuis septembre 2001, alors sous e e la direction de Michel Scholl. Jai eectu une th`se de doctorat sous la direction de Michel de Rougemont e e dans lquipe algorithmique et complexit du LRI (Paris XI), alors dirige par Miklos Santha. e e e Apr`s avoir travaill sur lapproximation de requtes dans les bases de donnes gographiques (publication e e e e e dans la confrence ACM PODS [38] et la revue JCSS [41]), je travaille actuellement ` la scurisation des e a e bases de donnes par tatouage. Jai initi cette activit dans lquipe Vertigo (une th`se soutenue, publication e e e e e dans les revues IEEE TKDE [67] et ACM TODS [40], et dans la confrence ACM PODS [39], ralisation dun e e logiciel [27], coordinateur dune ACI sur ce th`me [4]), et la poursuit actuellement au sein de lquipe SISI e e dans le cadre de lANR NEUMA [6] (confrence ISMIR 2009 [43]). Je mintresse galement au classement e e e de services Web ` la Google (une th`se soutenue, publication dans la Revue des sciences et thorie de a e e linformation [25] et la confrence OTM COOPIS [24]) et ` la publication de donnes sur le Web (publication e a e dans la Revue des sciences et thorie de linformation [45] et la confrence ICWE [46]). e e

Droulement de carri`re e e2010-2011 Dlgation INRIA dans le projet ERC Grant WebDam de Serge Abiteboul. ee 2006Ma de confrence titulaire, Universit de Bourgogne. tre e e

2001-2006 Ma de confrence titulaire, Conservatoire national des arts & mtiers, Paris. tre e e 2000-2001 ATER, Orsay, Universit Parix XI. e 1996-2000 Doctorat en Sciences, spcialit Informatique, intitul Approximation dans les bases de donnes e e e e contraintes, Orsay, universit Paris XI, dcembre 2000. e e 1996-2000 Moniteur rattach ` luniversit Paris XI, durant les trois annes de la th`se. ea e e e 1998-1999 Scientique du contingent, Laboratoire dInformatique de Polytechnique (LIX). 1995-1996 D.E.A. dInformatique, Orsay, universit Paris XI. e 1993-1995 Licence et ma trise dInformatique, Orsay, universit Paris XI. e

7

Forewords

Alice: Maestro: Roberto: Augusto: Alice: Eva:

Look. I am old enough now. I think I can bear a pretty tatoo on my shoulder. Thanks for using the french vocable, but I think that you mean a watermark. At least a watermark will be invisible. And robust ! Just remember to keep a small part of it secret. Ok then, lets go for a watermark. But if you do so, you will have to respect some constraints...

9

1Introduction (English)This introductory chapter gives a brief overview of watermarking and database watermarking specicities. It presents an informal survey of the main results.

Digital watermarkingInformally, digital watermarking is a voluntary alteration of an electronic document, in order to attach a message a watermark to it. Applications of watermarking are numerous, including: Intellectual property protection: in various scenarios, a data owner/provider has spent time and eorts to build high quality documents (for example terrain explorations to devise an accurate geolocalized data set). But due to the digital nature of these data, the legitimate owner is threatened by unfair customers, reselling illegal, perfect copies of the document. By hiding the owners identity into a document, watermarking oers the ability to prove ownership once a suspect document has been found (Figure 2.1). A natural example is the Digimarc watermarking plugin for Adobe Photoshop1 . Fingerprinting: instead of hiding only the owners identity, hiding the customers identity into the document allows to track back the exact malevolent customer reselling copies (Figure 2.2). A classical example is the detection of Academy award voters that helped illegal broadcast of so-called screener copies of lms2 . Meta-data hiding: dissimulating in a document its unique id number, or the exact technical parameters used for data acquisition, guarantees that these meta-data will remain permanently attached to the document, whatever format transformations or le manipulation occurring in the future. Classically, a watermarking protocol uses two algorithms, the marker and the detector, that respectively hide and extract a watermark. The watermark is usually thought as being invisible, hence watermarking shares some similarities with information hiding techniques (that rather deal with secret communications, disregarding the very nature of the document used). Most applications consider also watermarks that are robust to malevolent operations from attackers wishing to erase them (there exists also visible and/or fragile watermarking techniques, but we do not consider them in this work). Common constraints on watermarking systems are: Invisibility: hiding a watermark should not impact the intended use of the document (should not lower its quality beyond a reasonable limit). It is noteworthy that a watermarking method is doomed to alter the original document to be ecient. Indeed, hiding information in the document representation (in unused bits for example) is extremely sensitive to informed attackers. Hence, watermarking has to alter the data semantics, but in a restricted way.1 https://www.digimarc.com/solutions/ 2 http://www.msnbc.msn.com/id/4037016/

11

document owners side secret key original document marker watermarked document

users side lawful user malevolent user

secret key

attacks altered document

proof of ownership

detector illegal reselling

Figure 1.1: Watermarking scenariodocument owners side secret key original document marker watermarked document 1 watermarked document 2 watermarked document 3 users side lawful user lawful user malevolent user attacks altered document proof 3 of provenance

secret key

!

detector illegal reselling

Figure 1.2: Fingerprinting scenario

Controlled capacity: the amount of data that can be hidden in a document should be predictable. A high capacity if often searched for. Low false-positive rate: the probability to detect a message in a non-watermarked document must be negligible. Robustness: the detector should be able to detect the hidden message in reasonnably altered data sets by a malevolent attacker. The attacker is nevertheless limited as he needs a still salable document. Public access to the algorithm: the security of the method should not rely on the secrecy of the algorithm, but on a private secret key only (Kerckhosprinciple [59, 60]). Security: an attacker should not infer the watermark localization or content, or the secret key [20]. Blindness: the detector should operate without the use of the original, unwatermarked document. There is a natural trade-o between the watermark robustness and its invisibility: a more robust watermark requires a stronger alteration of the original document. The attacker is also limited by the invisibility constraint: the attack (alteration) of the watermark document must be limited, so that the attacked document remains valuable.

Database watermarkingWhile original watermarking techniques mainly arose in the multimedia domain for images, sound or video, they have natural applications in databases. The amount of structured data available on the Internet is drastically increasing, with source ranging from public agencies (e.g. environmental measurements) to professional data sets (sales databases, stock exchange databases, customers proles, etc.). There exist also examples from the past where structured data sets have been modied for intellectual property protection.

A famous specimen is the use of contrived number rounding conventions by editors of onerous logarithm tables (Figure 2.3).

Figure 1.3: Paper logarithm table: (source:Wikipedia)

number rounding conventions where used for ownership proofs

Modern data sets represented as database show interesting specicities that lead to new questions for digital watermarking: Interwoven relationships between data: while an image is a regular juxtaposition of pixels, a data set describes various irregular relationships between tuples, without a clear ordering between them. This yields a synchronization problem to the marker and detector, that require to precisely locate the watermark in the data. Shared semantics: a data set is usually used among other sources, for example joining hotels data with touristic roadmaps. Hence there is a shared semantics between data sets, for a sound naming of objects (e.g. name of a road in both hotel and roadmap data sets). This limits the attacker possibilities, as an altered data set still have to comply with this shared semantics to be valuable. Multiple data types: numbers, categorical data, streams, spatial data, etc. Versatile use: oppositely to multimedia documents, that are used in a limited number of ways, a data set can be explored in various ways, through expressive query languages. Many-faceted quality constraints: usually, multimedia quality is expressed as a global measure between the original and watermarked document, or between watermarked and attacked document (like peaksignal to noise ratio PSNR) . On the contrary, a database is prone to formal quality constraints: tuplewise data accuracy, functional dependencies between tuples and in a general setting, any applicationdened constraint expressed in a general query language (e.g. semantic integrity constraints). Access model: data sets can be accessed by the detector as plain tables, but also only through specic views. Incrementality: in many contexts, a data set is a temporal object, that needs regular updates to remain accurate (for example, a variation of 10% can be observed between two updates of national geographical databases [91]). Hence there is a need to maintain the watermark as long as updates are propagated to legitimate customers. 13

Eciency: because databases are usually huge and part of a general data management system, the watermarking procedure has to be included into the system and hence should perform eciently, according to databases systems standards. This is relevant specically for data sets with a short-time value, like e.g. weather forecasts, stock exchange real time values and so on. The following example presents a database watermarking scenario, where database-specic quality constraints are illustrated. Example 1 Tables below present a touristic database instance. For this application, the goal is to hide information by slightly modifying transport prices, under the following quality constraints devised by the data owner: C1 : Allow a distortion 10 of each price (tuple-wise, accuracy constraint). C2 : Allow is distortion 20 on the total of all prices (relation-wise aggregate constraint, without parameter). C3 : For any travel t, a distortion 10 is allowed on the total price of travel t (relation-wise, parametric aggregate constraint). Route: travel India discovery India discovery Nepal Trek Nepal Trek Nepal Trek TourNepal TourNepal P riceT able: transport departure arrival T1 Paris Delhi T2 Delhi Nawal. T3 Delhi Kathm. T4 Kathm. Simikot T5 Kathm. Daman T6 Kathm. Paris

transport T1 T2 T1 T3 T4 T4 T5 P riceT able : ... price 45 30 25 20 10 10 P riceT able : ... price 25 30 5 40 40 10

type plane bus plane plane jeep plane

price 35 20 15 30 50 10

P riceT able represents the original instance of the data owner. P riceT able and P riceT able are two watermarked instances (prices are modied). P riceT able breaks constraint C3 , because the cost of the India discovery travel is now 75 instead of 55. P riceT able respects all the former quality constraints. According to the previous example, the search of valid watermarks can turn into a dicult combinatorial problem, for general quality constraints.

Line of researchVarious initial propositions on database watermarking where announced independently at VLDB2002 by Rakesh Agrawal and Jerry Kiernan, SIGMOD2003 by Radu Sion, Mickael Attalah and Sushil Prabakhar, and PODS2003 for our work. On the one hand, Agrawal and Kiernan proposed a complete, blind watermarking method for numerical databases, as part of their Hippocratic Databases project [9]. They did not consider the

classical watermarking issuescollusion!secure blind high capacity fragile robust invisible unique property parametric property language main memory external memory scalable

Well!known in the multimedia domain

Database!specific

constraint preserving

complexity

Figure 1.4: Criteria for database watermarking

preservation of the result of queries, but they observed that the mean and variance of numerical attributed are slightly altered by watermarking. On the other hand, Radu Sion et al. and myself proposed the rst query-preserving watermarking methods3 . Radu Sion et al. technique was oriented toward a practical solution, and the search for query-preserving watermarks was performed through a greedy search method. Our work was started at Cedric Lab., CNAM-Paris, in Michel Scholls Vertigo team (now directed by Michel Crucianu). This study rst explored these issues on the theoretical side, following the methodology developed in the database eld, with a new security avor: Expressing the database watermarking problem by logical means: expressing the quality constraints a watermarking procedure must respect using a logical or practical language. Describing the set of valid watermarks that respects all quality constraints, according to syntactical and structural properties of constraints and data sets. This means also providing lower bounds on the watermarking capacity of data sets, or impossibility results. As a side eect, this yields lower and upper bounds on the unavoidable alterations of data. Obtaining a practical solutions with a simple user-oriented constraint language, with optimizations at the logical and physical level. Generalizing to specic data types manipulated by databases. And of course, complying with all concerns of any watermarking system (invisibility, high capacity, robustness, blindness, etc.) This line of research addresses some specic aspects of database watermarking, compared to the classical work in the multimedia domain. These specicities are summed up on Figure 2.4. In the sequel, we present a global overview of our results: the theoretical study of query-preserving watermarking in Chapter 3, the obtention of ecient algorithms in Chapter 4, and variations around these techniques for several application domains in Chapters 5, 6 and 7. The chosen presentation is thematic, and does not respect the exact chronology of papers publication.

Chapter 3: query-preserving watermarkingThe rst chapter of this work focuses on modelling basic quality constraints for numerical data sets, by means of aggregate sum queries (published in PODS 2003 [39] and TODS 2010 [40]). We consider, borrowing the3 A property-preserving method for graphs was nevertheless proposed by Sanjeev Khanna and Francis Zane in 2000 [61]. We discuss this work later on and in depth in Chapter 3.

15

now classical approach of both database theory and descriptive complexity, the relationship between the watermarking capacity on the one side, and the expressive power of the query language used for constraint specication on the other side. For example, constraint C3 of Example 1 is equivalent to preserving the sum of prices of transports v for a given travel u, selected by the rst-order query (u, v) x1 x2 x3 x4 x5 Route(u, v) P riceT able(v, x1 , x2 , x3 , x4 , x5 ). In this direction, but not in a database perspective, Khanna and Zane [61] proposed a protocol with guaranteed capacity for a specic parametric query: shortest path queries on weighted graphs. Their information insertion does not modify the length of shortest path between any pair of vertices beyond an acceptable distortion. The watermarking capacity is (n1/21/d ) for distortion d, for any graph with n edges. From the theoretical point of view, they observe that shortest path queries have a low computational complexity, and suspect that watermarking protocols for NP-hard search spaces are dicult to analyze. Starting from this approach, we have rst generalized their model to databases instances with numerical values (not only weighted graphs). We have also considered the preservation of properties expressed in a query language, not only a specic property like shortest paths. For a brief overview of the obtained results, the main interesting parameters are the size of the database instance that we denote n in this introductory chapter, and the maximal distortion occurring on the quality constraints, denoted by d. For the sake of simplicity, alteration on each numerical attribute in either +1 or -1, without loss of generality. First, consider for example the problem of computing the total number of valid watermarked Travel databases of Example 1, i.e. the watermarking capacity of this database. It turns out that the general problem is dicult: Theorem 2 (informal) Computing the watermarking capacity is #P-complete. Then, we are interested in lower-bounds on this capacity, taking into account the trade-o with data alteration. Theorem 3 (informal) For any set of constraints and any database instance, there exists a watermarking scheme with capacity (d log n) and error at most d. But d log n is considered as a minute capacity, and one is interested in nc -capacity watermarking schemes, for a constant c. A rst result is that, if the constraints are a nite set of non-parametric queries (like constraint C2 in example 1), the watermarking capacity is huge: Theorem 4 (informal) For any nite set of non-parametric constraints and any database instance, there exists a n-capacity watermarking scheme with constant error 0. The main idea is to nd two tuples that participate in and impact exactly the same set of constraints, and to modify their values oppositely. Recalling Example 1, tuples T 1 and T 2 impact both the travel India discovery. Adding 1 to the price of T 1 and substracting 1 on T 2 (or the contrary), has no impact on the travel cost. Each of such compensating pairs allows to hide one bit of information. If we turn to parametric queries (like constraint C3 ), which yields intricate sets of constraints, nding such pairs is harder. Indeed, we rst show that the watermarking impact is unbounded if no hypothesis is given. Indeed, using tools from PAC learning theory [113], namely the Vapnik-Chervonenkis dimension [16], the set of tuples is shattered by the parameters : there is always a parameter value that can isolate the very place where the +1 and -1 alterations stand: Theorem 5 (informal) There exists a parametric query and a database instance without constant-error nc -capacity watermarking schemes. Then, we use restrictions on data sets that were proposed in another context, i.e. the study of the complexity of structures according to their degree or their tree-width (which measure its similarity with a tree). In this setting, the following results were obtained:

Theorem 6 (informal) There always exists constant-error nc -capacity watermarking schemes for: parametric local queries on structures with bounded-degree Gaifman graph (for example, simple SQL queries on bounded degree graphs). Local languages includes FO (SQL), order-invariant queries or AGGRQ queries (basic SQL with aggregates). parametric monadic second order queries on trees or structure of bounded tree width (for example XML trees with small XPath fragments). Using tools from Grhe and T` ran [37], one can show that, without these hypothesis, no watermarking o u can be obtained. Moreover, in a recent work [40], we have shown that: Theorem 7 (informal) There exists a parametric query of arity k such that any nc -capacity watermarking scheme has at least error k. For the previous class of database instances and queries, there exists a corresponding watermarking scheme with error at most k (hence an optimal scheme). These results show that, for natural databases, there is a huge watermarking capacity. But our rst theoretical solution did not fulll classical watermarking properties. For example, the algorithm was not blind (the whole original data set is required for detection). Exploring the watermarking space, and obtaining an (almost) blind algorithm is the subject of the second chapter.

Chapter 4: practical aspects, the Watermill systemThe second chapter focuses on practical aspects of watermarking, to achieve a full system dedicated to database watermarking. This study was done during the ACI Tadorne project4 , funded by the French national research agency (ANR), of which I was the initiator and coordinator. During this project, the design of a simple and user-oriented constraint language was performed. The previous constraints of Example 1 can be expressed by the following declarations: (C1) local 10 on price (C2) global 20 on (select sum from price) (C3) forall t in (select route from travel) global 10 on (select sum(price) from route where travel=t) The proposed real watermarking algorithm relies on the discovery of compensating pairs, as proposed in the previous chapter. On the database side, the main problem is to reach scalability for their discovery. The used technique is to translate the search of these pairs into a unique SQL query, that is devoted to the RDBMS. On the security side, various improvements where made. First, we adapted an algorithm proposed by Agrawal and Kiernan [7, 8] (that did not take relation-wise quality constraints into account) to obtain watermark synchronization and security. We obtain data-blindness of the algorithm by replacing the simple method of compensating pairs (that requires the original for detection) by opposite bit exchange into values (Example 8).

4 http://ufrsciencestech.u-bourgogne.fr/

~ gadavid/tadorne/

17

Example 8 Absolute value compensation (non-blind) transport price (original) price (watermarked) T1 35 25 (-10) T2 45 55 (+10) total 80 80 Opposite bit transport T1 T2 total exchange (data-blind) price (original) price (watermarked) (35)2 = 10 0 011 10 1 011 = 43 (45)2 = 10 1 101 10 0 101 = 37 80 80

The method is semi-blind: the whole data set is no longer needed, but the set of watermarked positions has to be memorized and produced at detection time (as in all other existing query-preserving watermarking methods [103]). The algorithm is also equipped with a sophisticated collusion-secure ngerprinting scheme due to Tard`s [109]. The complete method [26, 67] obtained with Julien Lafaye, Camlia Constantin and o e Meryem Guerrouani, was implemented into the GPL software Watermill5 , and validated on huge data sets. It was possible to watermark 1,000,000 tuples respecting 100 constraints in a few minutes (while other methods requires hours or days).

Chapters 5, 6 and 7: Specic algorithmsThe next part of our work consisted in the design of database watermarking algorithms for specic datatypes. Here, the basic skeleton of the algorithm is Agrawal and Kiernans, and the focus is on the very specicities of the application: mainly XML streams, symbolic musical databases, geographical databases and multimedia databases. We focus here on the three rst kind.

Chapter 5: Typed Xml streamsThe rst specic method considers the watermarking of XML streams. In the classical streaming context, data has to be processed in a memoryless manner: any operation like type validation or data transformation has to be performed by a nite state automaton (Figure 2.5). In this work with Julien Lafaye [66], we considered the problem of watermarking XML structures while preserving their type, expressed by a nonrecursive DTD. It is known that typechecking such streams can be performed by nite automaton [101]. We watermark such streams by copying the stream during its typechecking, but we sometimes perform a detour into equivalent runs of the automaton. The performed error is controlled by the edit distance between the original and watermarked stream. URL q8 YEAR 9 q10 2 q9 0 0-9 q11 0-9 q12 MONTH q14 DAY q18 0

1 q7

0 q13 1

1-9 q16 -

3 q17 1-2

0-1 1-9 q19 q21 q20 0-9

q15

0-2

Figure 1.5: A partial specication of a stream type for a date element

Chapter 6: Symbolic musical scoresA second result was obtained when I joined the Le2i-CNRS Lab, in the SISI team directed by Kokou Yetongnon. After developping a watermarking method for multimedia data with Richard Chbeir [21], I5 http://watermill.sourceforge.net

considered music databases. This work was part of the Neuma project6 , also an ANR funding, initiated in 2008 and directed by Philippe Rigaux. Music is considered in a symbolic representation, i.e. not as sound les or music score sheets images, but by the ne descriptions of notes, rhythms and annotations, for example in MusicXML. Part of this system is a set of watermarking solutions for symbolic descriptions. In this approach, we saw musical scores as streams of notes. The rst solution is the watermarking of a useful annotation for beginner musicians, ngering annotations. Basically, a ngering is a choice of which nger to use to produce each note. From the computational point of view, the quality of a ngering is a function of the diculty to play the ngering, and is related to the human hand capabilities (several works model such capabilities). The main idea is to watermark the score by choosing specic ngerings into the space of all possible ngerings. The original ngerings are usually hand-made and of a very high quality. The challenge is then to produce correct ngerings with a controlled alteration (Figure 2.6). We obtained such a method [43] with Philippe Rigaux, Lylia Abrouk and Nadine Cullot.

Figure 1.6: An original score with a high-quality ngering, and its watermarked counterpart. Fingering annotations appear upon the sta (right hand, 1: thumb,...5: little nger). Below is indicated the physical cost of playing the ngering. The watermarked version is harder to play, with three altered positions indicated by an M .

Chapter 7: Geographical dataThis last result concerns geographical data sets, and was also obtained during the Tadorne project with the Cogit Lab (IGN, National Geographical Institute), along with Julien Lafaye, Jean Bguec and Anne Ruas. e We provided a solution for vectorial maps used for their precision, with a focus on the building layer (the biggest part of professional data sets). The main problem with respect to the related work is to obtain robust identiers for polygons, and to take into account the specic quality metrics use in geographical applications. In this work, we relied on the presence of a common reference system to reason about positions (the WGS 84 GPS system for example). Then we constructed robust identiers of building by choosing the highest signicant bits of the coordinates of their centroid (an attacker has to perform huge transformations in order to alter these bits). Finally, data hiding was performed through scaling of the building according to its main orientation, as shown in Figure 2.7. This very simple method yields interesting properties, and mainly has a small impact on the angular quality of the buildings, related to other existing methods. Second, it is robust against most common attacks, specially the squaring attack or line simplication.6 http://www.neuma.fr

19

B

pax

u OA

xm

A

Figure 1.7: Building watermarking by oriented stretching

OrganizationThis document is organized as follows. The subsequent chapters dive into the details of denitions and technical results of each part: Chapter 3 presents theoretical results on query-preserving watermarking. Chapter 4 turns to its practical counterpart as developed in the Watermill software. Then, we consider watermarking methods for specic data types: XML streams (Chapter 5), symbolic music streams (Chapter 6), and geographical databases (Chapter 7). The nal chapter concludes with possible developments, and Appendix A presents other studies.

2Introduction (French)Ce chapitre dintroduction donne une vue gnrale du tatouage, de ses spcicits pour les bases de donnes, e e e e e et prsente les principaux rsultats obtenus. e e

Tatouage de documents lectroniques eInformellement, le tatouage (digital watermarking) est une altration volontaire dun document lectronique, e e dans le but dy dissimuler un message : une marque. Les applications du tatouage sont nombreuses, par exemple : La protection de la proprit intellectuelle (gure 2.1) : dans de nombreuses applications, les fournisee seurs ou propritaires de donnes ont fortement investi en temps ou en argent pour la construction des e e documents lectroniques de grande qualit (citons par exemple lexploration de zones gographiques e e e pour la fabrication de donnes go-localises). Mais, en raison du caract`re lectronique de ces docue e e e e ments, des acheteurs malveillants peuvent tenter de les revendre en leur nom. Par dissimulation de lidentit du propritaire dans les documents, le tatouage permet de prouver lidentit du propritaire e e e e quand un document suspect est dcouvert. Un exemple classique est la fonctionnalit de tatouage de e e photographies de Digimarc pour le logiciel Adobe Photoshop1 . La traabilit des documents, ou estampillage (ngerprinting) : ` la place de lidentit du propritaire, c e a e e il est possible de dissimuler lidentit de lacheteur des documents, an de remonter ` la source dune e a vente illicite (gure 2.2). Citons par exemple lidentication, parmi les votants des Academy awards, de ceux qui ont divulgu leurs copies personnelles des lms en comptition2 . e e Lincrustation de mta-donnes : il sagit de dissimuler dans le document son identiant unique, ou e e les param`tres techniques qui ont permis sa ralisation. Ainsi, ces mta-donnes restent attaches au e e e e e document, quelles que soient les transformations (raisonnables) du document dans le futur. Un protocole de tatouage requi`re deux algorithmes, le marqueur et le dtecteur, qui dissimulent et e e extraient respectivement la marque. Cette marque est considre gnralement comme invisible : le tatouage e e e e a donc des similitudes avec le domaine de la communication cache (information hiding qui traite de la e communication, sans relation avec le document qui servira de support ` cette communication). La plupart des a applications ncessitent galement des marques robustes aux oprations malveillantes que pourrait raliser e e e e un attaquant (il existe galement des techniques ` base de marques fragiles, mais elles ne sont pas traites e a e ici).

1 https://www.digimarc.com/solutions/ 2 http://www.msnbc.msn.com/id/4037016/

21

propritaire des donnes cl secrte document original marqueur document tatou

utilisateurs honnete malhonete

cl secrte

attaques document altr

preuve de proprit

dtecteur revente illgale

Figure 2.1 Scnario classique de tatouage (watermarking) epropritaire des donnes cl secrte document original marqueur document (marque 1) document (marque 2) document (marque 3) utilisateurs honnete honnete malhonnete attaques document altr revente illgale

cl secrte preuve 3 de provenance

!

detecteur

Figure 2.2 Scnario classique de traabilit, ou estampillage (ngerprinting) e c e

Les contraintes usuelles des protocoles de tatouage sont les suivantes : Invisibilit : lajout dune marque de doit pas impacter lusage normal du document (ne doit pas e diminuer sa qualit en de` dune limite raisonnable). Il faut cependant remarquer que le tatouage est e ca vou ` altrer le document original pour tre ecace. En eet, dissimuler de linformation uniquement ea e e dans lencodage du document (dans les bits inutiles par exemple) serait extrmement sensible ` un e a attaquant srieux et inform. Ainsi, le tatouage doit altrer la smantique du document, la dicult e e e e e rsidant dans le contrle de cette altration. e o e Ma trise de la capacit : la quantit dinformation dissimulable dans un document doit tre prdictible. e e e e Une capacit leve est bien s r souhaitable. ee e u Faible taux de faux-positifs : la probabilit de dtecter une marque dans un document non tatou doit e e e tre ngligeable. e e Robustesse : le dtecteur doit tre capable de dtecter la marque dans des documents raisonnablement e e e altrs par un attaquant. La force des altrations ralises par ce dernier est nanmoins limite, car e e e e e e e lattaquant souhaite obtenir des donnes ayant toujours une valeur marchande, donc dune qualit e e raisonnable. Publicit des algorithmes : la scurit de la mthode de tatouage ne doit pas reposer sur le secret des e e e e algorithmes employs, mais seulement sur une cl prive (principe de Kerckhos [59, 60]). e e e Scurit : un attaquant ne doit pas pouvoir infrer le lieu du tatouage ni la cl utilise [20]. e e e e e Mthode aveugle : le dtecteur doit idalement fonctionner sans avoir acc`s au document original, non e e e e tatou. e

Parmi ces nombreux crit`res, il est important de souligner le compromis entre la robustesse du tatouage e et son invisibilit : un tatouage plus robuste ncessite une plus forte altration des donnes originales. e e e e Lattaquant est galement limit par la contrainte dinvisibilit : son attaque (altration) doit tre limite, e e e e e e de faon ` ce que le document reste de bonne qualit et soit ainsi revendable. c a e

Tatouage des bases de donnes eSi les techniques de tatouage sont apparues initialement dans le domaine multimdia pour limage, le son e ou la vido, elles ont des applications naturelles en bases de donnes. En eet, la quantit de donnes struce e e e tures disponibles sur Internet est en augmentation continue, quil sagisse de donnes publiques (donnes e e e environnementales, socitales, conomiques, comme dans le projet Data Publica3 ) ou de donnes commere e e ciales (statistiques de ventes, information boursi`re, proles client`le, etc.). Cette augmentation va de paire e e avec le besoin de protection. Il existe dailleurs des traces historiques dune altration volontaire des donnes e e an den protger la proprit intellectuelle. Un exemple remarquable [57] est le choix de r`gles darrondies e ee e spciques par les diteurs de tables de logarithmes sous forme papier (gure 2.3). e e

Figure 2.3 Une dition de tables de logarithmes : les conventions darrondies furent utilises pour la e e preuve de proprit (source : Wikipdia) ee e Les bases de donnes comportent cependant des spcicits importantes pour le tatouage : e e e Riches interconnexions entre donnes : alors que les images sont des juxtapositions rguli`res de pixels, e e e un jeu de donnes dcrit des relations varies entre n-uplets, sans ordonnancement prcis entre eux. e e e e Ceci pose le probl`me de la synchronisation du marqueur ou du dtecteur avec les donnes, an de e e e localiser prcisment le tatouage. e e Smantique partage : une base de donnes est gnralement utilise ou croise avec dautre bases e e e e e e e de direntes provenances, comme par exemple la jointure des informations hteli`res avec une carte e o e touristique. Il existe donc une smantique partage entre jeux de donnes, pour un nommage cohrent e e e e des informations (par exemple un mme nom ou un mme code pour la rue dun htel et dun site e e o remarquable). Cette smantique limite les possibilits de lattaquant, car un jeu de donnes altr devra e e e e e respecter cette smantique pour conserver une valeur quelconque. e3 http://www.data-publica.com/

23

Nombreux types de donnes : nombres, donnes catgoriques, ux, donnes gomtriques, etc. e e e e e e Usages varis : ` la dirences des documents multimdia qui sont utiliss de faon directe, une base e a e e e c de donnes peut tre explores de nombreuses faons, ` travers des langages de requtes expressifs. e e e c a e Contraintes de qualit diverses : le tatouage doit respecter la qualit du document. En gnral, la e e e e qualit dun document multimdia sexprime comme une mesure globale entre le document dorigine et e e sa version tatoue, ou entre le document tatou et sa version attaque (comme par exemple le rapport e e e signal-bruit, ou PSNR). De faon dirente, les bases de donnes se prtent ` une formalisation des c e e e a contraintes de qualit : prcision des valeurs des n-uplets, impratifs de dpendances fonctionnelles e e e e entre n-uplets, et de faon gnrale, toute contrainte dpendant de lapplication vise et exprime c e e e e e idalement dans un langage gnrique (contraintes dintgrit smantiques). e e e e e e Nombreuses modalits dacc`s : les donnes suspectes peuvent tre accessibles directement par le e e e e dtecteur sous forme de relations brutes, mais galement au travers de vues partielles. e e Incrmentalit : de faon gnrale, une base de donnes doit tre mise ` jour an de rester prcise (par e e c e e e e a e exemple, une variation de 10% du jeu de donnes intgral peut tre observe entre deux mises ` jour e e e e a des donnes gographiques nationales [91]). Ainsi, il est ncessaire de savoir maintenir ou faire voluer e e e e le tatouage au fur et ` mesure que la base de donnes est mise ` jour chez les utilisateurs lgitimes. a e a e Ecacit : comme les bases de donnes sont en gnral de tr`s grande taille et enfouies dans un e e e e e syst`me de gestion standardis, la procdure de tatouage doit y tre intgre et doit donc sexcuter e e e e e e e ecacement, en engendrant un faible surcot. Cette proprit est particuli`rement importante pour la u ee e vente de donnes ` courte dure de vie, comme les donnes de prvisions (par exemple mtorologiques e a e e e ee ou boursi`res). e Lexemple suivant prsente un scnario de tatouage de bases de donnes, o` des contraintes de qualit e e e u e spciques sont illustres. e e Exemple 1 La relation suivante prsente une instance de base de donnes touristique. Pour cette applicae e tion, lobjectif est de dissimuler de linformation en modiant lg`rement le prix des transports proposs, tout e e e en respectant les contraintes de qualit imposes par le propritaire des donnes : e e e e C1 : Autoriser une altration 10 sur chaque prix (price) (contrainte de prcision au niveau de chaque e e n-uplet). C2 : Autoriser une altration 20 sur le total global des prix (contrainte portant sur un agrgat de e e toute la relation, sans param`tre). e C3 : Pour chaque voyage (travel) propos t, une altration 10 est autorise sur le prix total du voyage e e e t (contrainte dagrgat sur une partie de la relation, dpendant dun param`tre). e e e

Route : travel India discovery India discovery Nepal Trek Nepal Trek Nepal Trek TourNepal TourNepal

transport T1 T2 T1 T3 T4 T4 T5

P riceT able : transport departure arrival T1 Paris Delhi T2 Delhi Nawal. T3 Delhi Kathm. T4 Kathm. Simikot T5 Kathm. Daman T6 Kathm. Paris

type plane bus plane plane jeep plane

price 35 20 15 30 50 10

P riceT able : ... price 45 30 25 20 10 10

P riceT able : ... price 25 30 5 40 40 10

P riceT able reprsente linstance originale du propritaire des donnes. P riceT able et P riceT able sont e e e des instances tatoues (les prix sont altrs). P riceT able ne respecte pas la contrainte C3 , car le cot du e e e u voyage India discovery est maintenant de 75 au lieu de 55. Au contraire, P riceT able respecte toutes les contraintes de qualit demandes. e e Comme illustr dans lexemple prcdent, la recherche dun tatouage valide respectant toute les contraintes e e e peut savrer un probl`me combinatoire dicile, pour des contraintes gnrales. e e e e

Dmarche de ce travail ePlusieurs propositions initiales pour le tatouage de bases de donnes ont t prsentes indpendamment e ee e e e aux confrences VLDB 2002 par Rakesh Agrawal et Jerry Kiernan, SIGMOD 2003 par Radu Sion, Mickael e Attalah et Sushil Prabakhar, et PODS 2003 pour le prsent travail. e Dune part, Agrawal et Kiernan ont propos une solution compl`te de tatouage dans le cadre de leur e e projet de bases de donnes hippocratiques [9]. Ils ne consid`rent pas explicitement le probl`me de limpact du e e e tatouage sur le rsultat de requtes, mais ont observ que la moyenne et la variance des attributs numriques e e e e prises sur lintgralit des relations ne sont que peu altres par le tatouage. e e e e Dautre part, Radu Sion et al. et le prsent auteur ont propos les premi`res mthodes de tatouage de e e e e bases de donnes intgrant la prservation du rsultat de requtes importantes4 . La technique de Radu Sion e e e e e et al. est oriente vers une solution compl`te et en pratique. La recherche dun tatouage valide est ralise e e e e par une approche dessais et erreurs. Le prsent travail a dbut en 2001 au laboratoire Cedric du CNAM-Paris, dans lquipe Vertigo alors e e e e dirige par Michel Scholl (quipe actuellement dirige par Michel Crucianu). Cette tude a commenc par e e e e e les aspects thoriques du tatouage, en suivant une mthodologie courante en base de donnes mais avec une e e e parfum de scurit : e e Exprimer les contraintes de tatouage par un langage reposant sur des logiques connues. Dcrire lensemble des tatouages valides, en tirant partie de la structure syntaxique des contraintes e et de la structure des donnes. Cette description doit permettre dobtenir des bornes infrieures sur e e la capacit de dissimulation dune instance, ou des rsultats dimpossibilit. En parall`le, obtenir des e e e e bornes infrieures et suprieures sur laltration que doit subir la base de donnes. e e e e Obtenir une solution pratique avec un langage de description de contraintes simple et une optimisation du tatouage au niveau logique et physique. Gnraliser les techniques ` des types de donnes spciques. e e a e e Et bien s r, raliser cela en respectant les crit`res usuels des protocoles de tatouage (invisibilit, grande u e e e capacit, robustesse, caract`re aveugle ou non, etc.). e e Cette dmarche souligne les spcicits du tatouage de bases de donnes, compares aux travaux classique e e e e e sur le tatouage. Ces spcicits sont rsumes dans la gure 2.4. Dans la suite est prsente une vue dene e e e e e4 Il faut noter quune mthode de tatouage de graphes valus avec prservation dune proprit unique a t propose par e e e e e e e e Sanjeev Khanna et Francis Zane en 2000 [61]. Ce travail sera discut en dtail dans le chapitre 3. e e

25

Tatouage classiqueanti!collusion aveugle grande capacit fragile robuste invisible proprit unique famille de proprits langage mmoire vive mmoire externe passage lchelle

Bien connu

Prservation de contraintes

Complexit

Spcifique des bases de donnes

Figure 2.4 Crit`res pour le tatouage de bases de donnes e e

semble des travaux : ltude thorique du tatouage avec prservation de requtes au chapitre 3, lobtention e e e e dun algorithme ecace au chapitre 4, et une variation autour de ces techniques pour dirents domaines e dapplication aux chapitres 5, 6 et 7. Lordre de prsentation choisi est thmatique et ne respecte pas lexact e e chronologie des publications.

Chapitre 3 : tatouage avec prservation de requtes e eLe premier chapitre de ce travail concerne la modlisation de contraintes de qualit pour les bases de donnes e e e numriques, au moyen de requtes dagrgat de somme (publication ` PODS 2003 [39] et TODS 2010 [40]). e e e a Nous y considrons, en empruntant une mthodologie maintenant classique en thorie des bases de donnes e e e e et en complexit descriptive, la relation entre dune part la capacit de tatouage, et dautre part la puissance e e dexpression du langage de requtes utilis pour la spcication des contraintes. Par exemple, la contrainte e e e C3 de lexemple 1 est quivalente ` la prservation de la somme des prix des transports v pour tout voyage e a e donn u, slectionn par la requte du premier ordre e e e e (u, v) x1 x2 x3 x4 x5 Route(u, v) P riceT able(v, x1 , x2 , x3 , x4 , x5 ). Dans cette mme direction, mais sans rapport avec les bases de donnes, Khanna et Zane [61] ont propos e e e un protocole de tatouage ` capacit de dissimulation garantie avec prservation dune requte paramtrique a e e e e spcique : la longueur du plus court chemin sur les graphes valus. Leur technique dinsertion dinformation e e ne modie la longueur des plus courts chemins entre nimporte quelle paire de sommets que dans une limite prescrite. La capacit de tatouage est en (n1/21/d ) bits pour une altration d des longueurs des plus courts e e chemins, pour tout graphe ` n artes. Du point de vue thorique, ils observent que la requte de plus court a e e e chemin ` une faible complexit, et indiquent que les protocoles de tatouage pour des proprits NP-diciles a e ee sont probablement diciles ` analyser. a Dans un premier temps, nous avons gnralis leur mod`le aux bases de donnes ` valeurs numriques e e e e e a e (plus seulement les graphes valus). Nous avons galement considr la prservation de requtes exprimes e e e e e e e dans un langage de requtes, et pas seulement une proprit unique comme le plus court chemin. e ee Pour une rapide prsentation des rsultats obtenus, les param`tres pertinents sont la taille de linstance e e e de base de donnes considre, que nous notons n dans cette introduction, et la distorsion maximale sur e e e les contraintes de qualit, note par d. Pour simplier et sans perte de gnralit, laltration autorise sur e e e e e e e chaque valeur numrique sera de +1 ou -1. e

Considrons tout dabord le probl`me de calculer le nombre total de tatouages possibles pour la base e e de donnes Travel de lexemple 1, cest-`-dire la capacit de tatouage de cette instance. Il appara que ce e a e t dnombrement est aussi dicile que de compter le nombre de chemins acceptants dune machine NP : e Theoreme 2 (informel) Calculer la capacit de tatouage est #P-complet. e Ce constat tant fait, on sintresse aux bornes infrieures de cette capacit, en tenant compte du come e e e promis avec laltration des donnes. e e Theoreme 3 (informel) Pour tout ensemble ni de contraintes et toute instance de bases de donnes, il e existe un protocole de tatouage de capacit (d log n) avec erreur au plus d sur le rsultat des requtes. e e e Mais d log n bits est traditionnellement considr comme une capacit minuscule, et lon recherche plutt e e e o des protocoles de tatouage ` capacit nc , pour une constante c. Un premier rsultat est que, si les contraintes a e e sont un ensemble ni de requtes non-paramtriques (comme la contrainte C2 de lexemple 1), la capacit e e e de dissimulation est importante : Theoreme 4 (informel) Pour tout ensemble de contraintes non-paramtriques et toute instance de base de e donnes, il existe un protocole de capacit n avec erreur constante nulle. e e Lide principale de la mthode est de trouver deux valeurs numriques (deux n-uplets distincts) qui e e e impactent exactement le mme sous-ensemble de requtes, et de modier leur valeur de faon oppose. En e e c e rappelant lexemple 1, les n-uplets T 1 et T 2 impactent ensemble le voyage India discovery. Ajouter 1 au prix de T 1 et retrancher 1 au prix de T 2 (ou le contraire) na pas dimpact sur le prix complet du voyage. Chacune de ces paires de compensation permet de dissimuler 1 bit dinformation. Si lon consid`re maintenant e les requtes paramtriques (comme la contrainte C3 ), qui engendrent un ensemble de contraintes complexes, e e trouver de telles paires de compensation est plus dlicat. En eet, nous avons montr que limpact du tatouage e e est illimit si aucune hypoth`se nest faite sur linstance. En utilisant un outil courant en apprentissage (PAC e e learning [113]), ` savoir la dimension de Vapnik-Chervonenkis [16], on peut montrer que lensemble des na uplets est pulvris par les requtes : il existe toujours une valeur du param`tre qui permet disoler e e e e un sous-ensemble quelconque des altration +1 ou -1. Il existe donc une valeur du param`tre rassemblant e e par exemple tous les +1. Leur impact cumul permet alors de dpasser toute limite constante impose sur e e e laltration du rsultat dune requte. e e e Theoreme 5 (informel) Il existe une requte paramtrique et une instance de base de donnes qui ne e e e poss`dent pas de protocole de tatouage de capacit nc et a erreur constante. e e ` Puis, nous avons utilis des hypoth`ses de restriction sur les instances qui sont apparues dans dautres e e contextes, comme ltude de la complexit des donnes en fonction de leur degr ou de leur largeur darbre e e e e (qui mesure leur similarit avec un arbre). Dans ce cadre, les rsultats suivants ont t obtenus : e e ee Theoreme 6 (informel) Il existe toujours un protocole de tatouage a capacit nc et a erreur constante pour : ` e ` les requtes paramtriques locales sur les instances de degr de Gaifman born (par exemple, les requtes e e e e e SQL sur des graphes de degr born). Les langages locaux incluent FO (SQL), les requtes invariantes e e e a ` lordre ou les requtes AGGRQ (SQL avec agrgats), e e les requtes paramtriques du second ordre monadique sur les arbres ou les instances a largeur darbre e e ` borne (par exemple les arbres XML et des requtes utilisant des fragments dXPath). e e Enn, en utilisant les rsultats de Grhe and T`ran [37], on peut dmontrer que, sans ces hypoth`ses, e o u e e aucun protocole de tatouage (de bonne capacit et ` erreur constante) ne peut tre obtenu. De plus, dans e a e une publication rcente [40], nous avons montr que : e e

27

Theoreme 7 (informel) Il existe une requte paramtrique darit k telle que tout protocole de tatouage de capacit nc a au e e e e moins erreur k. Pour les classes dinstances et de requtes prcites darit k, il existe un protocole de tatouage de e e e e capacit nc avec erreur au plus k. Ce protocole, que nous explicitons, est donc optimal. e Lensemble de ces rsultats montre que, pour des bases de donnes naturelles, il existe une grande capacit e e e de tatouage. Mais la solution thorique propose ne remplie pas tous les crit`res usuels des protocoles de e e e tatouage. Par exemple, lalgorithme propos nest pas aveugle (lensemble des donnes dorigine est requis e e lors de la dtection). Lexploration eective des tatouages valides et lobtention dun algorithme (presque) e aveugle est le sujet du chapitre suivant.

Chapitre 4 : aspects pratiques, le syst`me Watermill eCe chapitre concerne les aspects pratiques du tatouage, dans le but dobtenir un syst`me complet. Cette e tude a t ralise durant le projet ACI/ANR Tadorne5 dont jai t linitiateur et le coordinateur. Durant ce e ee e e ee projet, la conception dun langage de contrainte facile dutilisation a t ralis. Les contraintes de lexemple 1 ee e e peuvent ainsi tre exprimes : e e (C1) local 10 on price (C2) global 20 on (select sum from price) (C3) forall t in (select route from travel) global 10 on (select sum(price) from route where travel=t) Lalgorithme de tatouage ralise la recherche de paires de compensation du chapitre prcdent. Du point e e e de vue de son implantation, la dicult principale est le passage ` lchelle. La technique propose a t de e a e e ee traduire lopration de recherche de tatouage en une requte SQL unique, dont lvaluation est relaye au e e e e SGBD. Du point de vue du tatouage, plusieurs amlioration ont t obtenues. Dabord, nous avons adapt e ee e les techniques dAgrawal and Kiernan [7, 8] (qui ne prennent pas en compte les requtes ` prserver) pour e a e obtenir la synchronisation avec le tatouage et sa scurit. Nous avons obtenu un meilleur caract`re aveugle de e e e lalgorithme en remplaant la mthode simple des paires de compensation (qui ncessite les donnes originales c e e e pour la dtection), par la recherche de bits de valeur oppose dans les donnes elles-mmes (exemple 8). e e e e Exemple 8 Compensation de la valeur absolue (non-aveugle) transport price (original) price (tatou) e T1 35 25 (-10) T2 45 55 (+10) total 80 80 Compensation transport T1 T2 total de bits opposs (aveugle aux donnes) e e price (original) price (tatou) e (35)2 = 10 0 011 10 1 011 = 43 (45)2 = 10 1 101 10 0 101 = 37 80 80

La mthode est semi-aveugle, ou aveugle aux donnes : lensemble des donnes originales nest plus e e e ncessaire, mais lensemble des positions de tatouage doit tre mmoris et produit lors de la dtection e e e e e (comme pour la mthode de Sion et al. [103]). Lalgorithme met galement en oeuvre un code anti-collusion e e sophistiqu du ` Tard`s [109]. La mthode compl`te [26,67] obtenue avec Julien Lafaye, Camlia Constantin e a o e e e et Meryem Guerrouani, a t publi dans TKDE 2008. Elle a t implante dans le logiciel GPL Watermill6 , ee e ee e et a t valide sur de grands jeux de donnes. Il a t possible par exemple de tatouer 1 000 000 de n-uplets ee e e ee tout en prservant 100 contraintes en quelques minutes, alors que les mthodes concurrentes ncessitent e e e plusieurs heures ou jours.5 http://ufrsciencestech.u-bourgogne.fr/ 6 http://watermill.sourceforge.net

~ gadavid/tadorne/

Chapitres 5, 6 et 7 : algorithmes spciques eLa suite de ce travail a t la conception dalgorithmes spciquement adapts ` certains types de donnes, ee e e a e au del` des donnes numriques. Dans ce cadre, le squelette des algorithmes utiliss est toujours la mthode a e e e e dAgrawal et Kiernan, et la contribution rside dans ladaptation ` des applications prcises : les ux XML, e a e les bases de donnes musicales symboliques, les bases de donnes gographiques et les bases de donnes e e e e multimdia. La suite de ce document prsente les trois premiers types. e e

Chapitre 5 : ux Xml typs eLa premi`re mthode spcique concerne le tatouage de ux XML. Dans le cadre classique dtude des ux e e e e a ` haut dbit, les donnes doivent tre traites en mmoire constante : toute opration comme la validation e e e e e e de type ou la transformation de donnes doit tre ralise par un automate ni (gure 2.5). Dans ce travail e e e e men avec Julien Lafaye et prsent ` DbSec 2006 [66], nous avons considr le probl`me du tatouage de ux e e ea e e e XML tout en prservant leur type, exprim par une DTD non-rcursive. Le validation de tels types peut tre e e e e ralise par un automate ni [101]. Nous tatouons ces ux par une recopie du ux durant sa vrication de e e e type, mais en empruntant parfois un dtour dans une excution quivalente de lautomate. Lerreur ralise e e e e e est contrle par la distance ddition entre le ux dorigine et sa version tatoue. oe e e URL q8 YEAR 9 q10 2 q9 0 0-9 q11 0-9 q12 MONTH q14 DAY q18

1 q7

0 q13 1

1-9 q16 -

3 q17 1-2

0-1 0 1-9 q19 q21 q20 0-9

q15

0-2

Figure 2.5 Spcication partielle dun type de ux pour un lment date e ee

Chapitre 6 : partitions musicales symboliquesUn second rsultat a t obtenu lors de mon arrive au laboratoire Le2i, dans lquipe SISI dirige par Kokou e ee e e e Yetongnon. Apr`s avoir dvelopp une mthode de tatouage pour les donnes multimdia avec Richard e e e e e e Chbeir [21], je me suis tourn vers les bases de donnes musicales. Ce travail a t ralis dans le cadre e e ee e e du projet Neuma7 , galement nanc par lANR, initi et coordonn par Philippe Rigaux. La musique y e e e e est considre dans une reprsentation symbolique : non comme un chier son ou comme limage dune e e e partition musicale, mais comme la description prcise des notes, rythmes et annotations. Un exemple en est e le format MusicXML. Nous avons propos dans le syst`me Neuma un outils de tatouage de telles partitions e e musicales symboliques. Dans notre approche, une partition est vue comme un ux de notes. Comme cible du tatouage, nous avons slectionn une annotation utile pour les musiciens dbutants, les annotations de doigt e e e e (gure 2.6). En clair, une annotation de doigt prcise quel doigt de la main utiliser pour la ralisation de e e e chaque note, et plusieurs doigts sont possibles pour une mme partition. Dun point de vue informatique, e e la qualit dun doigt dpend de la dicult ` jouer ce doigt, qui est relie aux capacits physiques de e e e e a e e e la main (plusieurs travaux modlisent cette capacit). Lide principale est de tatouer la partition annote e e e e en favorisant un doigt particulier parmi tous les doigts possibles. Les doigts originaux sont en gnral e e e e e raliss par des experts et sont de grande qualit. Lobjectif est donc de produire des doigts tatous avec e e e e e une altration contrle par rapport aux doigts dorigine. Cette mthode, obtenue avec Philippe Rigaux, e oe e e Lylia Abrouk et Nadine Cullot, a t prsente ` ISMIR 2009 [43]. ee e e a7 http

://www.neuma.fr

29

Figure 2.6 Une partition originale avec une annotation de doigt de grande qualit, et sa version tatoue. e e e Les annotations de doigt gurent au dessus de la porte (main droite, 1 : pouce, ..., 5 : auriculaire). En e e dessous gure le co t physique pour jouer ce doigt. La version tatoue est plus dicile ` jouer, avec trois u e e a positions altres indiques par un M . e e e

Chapitre 7 : donnes gographiques e eCe dernier rsultat concerne les bases de donnes gographiques, et a t obtenu galement durant le projet e e e ee e Tadorne en partenariat avec le laboratoire Cogit (IGN Institut gographique national), avec Julien Lafaye, e Jean Bguec et Anne Ruas. Il a t prsent ` SSTD 2007 [65]. Nous avons propos une solution de tatouage e ee e ea e par les cartes vectorielles utilises pour leur prcision, avec un accent sur la couche dite du bti (les btiments e e a a la plus grande part des bases de donnes gographiques professionnelles). La dicult nouvelle par rapport e e e a ` lexistant est de trouver un identiant raisonnable pour chaque polygone, et de prendre en compte les mtriques de qualit spciques utilises dans les applications gographiques. Dans ce travail, nous avons e e e e e suppos que les donnes sont rfrences suivant une norme commune ` tous les participants (le WGS 84 du e e ee e a syst`me GPS par exemple). Puis nous avons construit des identiants robustes de polygones en prenant les e bits de poids fort de leur centro (un attaquant doit modier normment la position dun btiment pour de e e a modier cet identiant). Enn, la dissimulation de donnes a t ralise par tirement du btiment selon e ee e e e a sa direction principale, comme indiqu dans la gure 2.7. e Cette mthode tr`s simple poss`de de bonnes proprits, et a un faible impact sur la qualit angulaire e e e ee e des btiments, par rapport aux autres mthodes existantes. De plus, elle est robuste aux attaques courantes, a e en particulier lattaque par quarissage (visant ` rendre droits les angles presque droits) ou la simplication e a de lignes (cherchant ` supprimer des points parmi ceux qui sont presque aligns). a e

PlanCe document est organis de la faon suivante. Les chapitres suivants plongent dans les dtails des dnitions e c e e et des rsultats techniques de chaque partie : le chapitre 3 prsente les rsultats thoriques sur le tatouage e e e e avec prservation de requtes. Le chapitre 4 prsente une version utilisable en pratique telle quelle gure e e e dans le logiciel Watermill. Enn, nous considrons le tatouage pour des types de donnes spciques : e e e les ux XML (chapitre 5), les bases de donnes musicales symboliques (chapitre 6) et les bases de donnes e e gographiques (chapitre 7). Le dernier chapitre conclue avec des pistes de dveloppement et lappendice A e e rsume nos autres travaux, non prsents ici. e e e

B

pax

u OA

xm

A

Figure 2.7 Tatouage dun btiment par tirement a e

31

9Conclusion & perspectives (French)Ce travail a prsent une hybridation entre deux domaines, le tatouage et les bases de donnes. Dans cette e e e conclusion je prsente quelques extensions possibles : enrichir le langage de contraintes ou le mod`le dchange e e e des donnes. Ensuite je discuterai de limpact des mthodes issues des bases de donnes, en particulier de e e e leur formalisation logique, pour la thorie classique du tatouage. Enn, je conclurai sur les relations entre e tatouage et bases de donnes dans le contexte du Web. e

Extensions naturellesPrservation de requtes : des langages de contraintes plus expressifs e eJusqu` prsent, les mthodes de prservation de contraintes que nous avons dveloppes portent princia e e e e e palement sur les requtes dagrgat de somme sur un vocabulaire qui exclue les valeurs numriques. Nous e e e considrons ici direntes extensions. Tout dabord, la mthode des paires de compensation doit stendre e e e e a ` dautre agrgats ou fonctions, comme celles issues de la statistique. En eet, du moment que la fonction e cible poss`de une variation contrle lorsque lon modie ses param`tres dentre, la compensation peut tre e oe e e e applique. Quelques prcautions doivent cependant tre prises si la prcision des nombres vient ` jouer un e e e e a rle. o Ensuite, nous voudrions permettre au langage de contraintes de manipuler les donnes numriques ellese e mmes (par exemple, tatouer un ensemble de prix de telle faon que le nombre de prix identiques reste le e c mme). Cette extension est probablement facile pour lajout de constantes dans le langage. Des hypoth`ses e e supplmentaires sur les donnes seront probablement ncessaires dans un cas gnral, car alors, laltration e e e e e e des valeurs numriques modie les ensembles dnis par les requtes. e e e Il est galement tentant de paramtrer notre algorithme de tatouage de donnes gographiques avec un e e e e langage de contraintes spatial (gomtrique), comme la logique du premier ordre sur les nombres rels avec e e e addition et ordre [55, 63]. Par exemple, on souhaiterait exprimer que le tatouage doit prserver la surface e totale dun btiment. Si lon se restreint ` de telles surfaces, la mthode des paires de compensation se a a e gnralise. Mais il est bien connu que les proprits mtriques des donnes gomtriques chappent ` une e e ee e e e e e a caractrisation logique en gnral [14]. e e e

Protocoles : enrichir le mod`le de vues eDans le mod`le actuel, le dtecteur a acc`s ` lensemble des n-uplets qui participent au calcul de la requte e e e a e a e ` prserver. Un mod`le plus sophistiqu et susceptible dtre rencontr en pratique a t propos dans [61], e e e e ee e o` le dtecteur nacc`de quau rsultat des requtes. Raliser cette extension aux rsultats prsents ici est u e e e e e e e e une direction naturelle. Dans un cadre encore plus gnral, le dtecteur na acc`s qu` des vues drives des donnes suspectes. e e e e a e e e Le dtecteur doit alors convertir les donnes issues de ces vues dans le format initialement souhait. Cet e e e objectif est probablement hors de porte, car rpondre ` une requte ` partir de vues est un probl`me e e a e a e jug dicile mme si les vues sont explicitement dcrites [80], ce qui nest pas le cas dans un mod`le avec e e e e 133

adversaire. Certains rsultats pourraient cependant tre obtenus dans un cadre plus restreint, par exemple e e les vues sur des donnes en ux. Pour celles-ci, les vues doivent tre modlises par des transducteurs nis, e e e e et ces machines poss`dent dintressantes proprits dapprentissage [68]. En inspectant continuellement un e e ee ux suspect tout en faisant varier le ux tatou, le dtecteur pourrait alors infrer la vue utilise. e e e e

Relations entre bases de donnes et tatouage eApports du tatouage : les classiquesDans ce travail, laccent est mis sur les aspects du tatouage qui sont spciques aux bases de donnes. Mais e e il est galement naturel de transposer et dvaluer lensemble des rsultats classiques du tatouage dans un e e e contexte de bases de donnes. Nous en mentionnons quelque-uns : e Attaquant inform : alors que les travaux existants supposent une distribution uniforme des donnes, e e un attaquant peut tirer partie dune distribution connue a priori pour vaincre le dtecteur. e Attaque par Oracle1 : une situation particuli`rement dlicate est quand lattaquant a acc`s a un e e e ` dtecteur avec sa cl prive sous forme dune boite noire. Lattaquant sait alors quand le tatouage e e e est dtect, et connait galement le score de dtection. Cette conguration permet ` lattaquant de e e e e a dployer une attaque par descente de gradient pour eacer le tatouage : lattaquant alt`re une partie e e des donnes et vrie si le score de dtection diminue. Etablir des contre-mesures pour ce type dattaque e e e pour les bases de donnes est un impratif. e e Encodage du tatouage plus sophistiqu : la plupart des algorithmes prsents ralise un tatouage par e e e e substitution, o` les bits de marque remplacent les donnes existantes. Ces mthodes ont des limitations u e e connues, et ont leur prf`re en gnral dautres approches comme la quantication [22]. Nous utilisons ee e e cependant cette derni`re mthode dans notre algorithme de tatouage de donnes gographiques. e e e e Protocole purement aveugle ou aveugle aux donnes : les mthodes connues de tatouage avec prservation e e e de requtes ncessitent de linformation supplmentaire lors de la dtection, en supplment de la cl e e e e e e secr`te. Cette quantit dinformation devrait tre rduite. e e e e Et plus : tatouage ` cl publique, ` divulgation nulle, etc. a e a

Apports au tatouage : techniques de preuve de scurit e eDans certains cas, les mthodes issues de bases de donnes, o` plutt de leur formalisation logique, peuvent e e u o contribuer aux connaissances sur le tatouage en gnral. Un des objectifs ` long terme du tatouage est lobtene e a tion de preuves compl`tes de scurit, dans un esprit similaires aux preuves des protocoles cryptographiques. e e e Il est parfois arm que les preuves existantes sont limites ` des algorithmes et des classes dattaques e e a spciques, et conduisent invitablement ` une escalade entre tatoueurs et attaquants. Une meilleure e e a situation serait dobtenir une preuve de la forme suivante : tout attaquant victorieux doit avoir rsolu un e probl`me NP-complet ecacement, ou avoir transgress une hypoth`se cryptographique communment ade e e e mise. Un essai dans cette direction ont t des discussions avec les membres du projet ANR SCALP2 , dont ee le but est de certier les preuves de protocoles cryptographiques en utilisant un assistant de preuve comme Coq [15]. Nous avons obtenu avec Pierre Coutieu, Julien Lafaye, Philippe Audebaud et Xavier Urbain une preuve (plutt restreinte) du protocole dAgrawal et Kiernan. o Des travaux rcents proposent de nouveaux cadres pour des preuves fortes de protocoles de tatouage [51]. e La mthode repose sur une abstraction des donnes ` tatouer en un espace mtrique avec de bonnes proe e a e prits. Mais ces abstractions sont par certains considres comme non-ralistes [70]. Les formalisations ee e e e1 Non,

il ne sagit pas de la rponse dOracle au schma de tatouage propos par IBM Almaden. e e e

2 http://scalp.gforge.inria.fr/

proposes par Khanna et Zane [61] ainsi que celles de ce document peuvent fournir quelques clairages dans e e cette direction. En eet, modliser la distance entre instances de bases de donnes sous contraintes a au e e moins un dnition prcise et formelle, ce qui nest pas le cas directement pour les documents multimdia. e e e Obtenir une preuve forte dun protocole de tatouage pour une mtrique de similarit ad hoc serait un pree e mier rsultat. Un pas dans cette voie a t obtenu par Julien Lafaye qui a tudi la dicult de calculer e ee e e e des param`tres intressants dune probl`me de tatouage, lorsque la mtrique de similarit est donne comme e e e e e e un programme. Il a montr que ces calculs sont NP-diciles pour les mtriques dnies par matrices, et e e e EXP-diciles pour celles dnies par circuits. e

Donnes (tatoues) sur le Web e eEn conclusion de cette conclusion, il est temps videmment de parler un peu du Web. Dune part, les e bases de donnes, confrontes aux Web, ont intgr les donnes semi-structures, les langages dinterrogae e e e e e tions navigationnels, les calculs de requtes massivement distribus, pour citer quelques aspects. Dautre e e part, le Web permet ` nimporte quel utilisateur de devenir un fournisseur de contenu, par lutilisation de a forums, blogs, twits, rseaux sociaux, etc. Des contenus en ligne sophistiqus peuvent ainsi tre dploys e e e e e par combinaison de donnes de sources diverses et dappels de services. Dans ces scnarios, les utilisateurs e e peuvent avoir besoin de (quelques) mthodes de protection de la proprit intellectuelle pour leurs produce ee tions personnelles. Ceci motive la cration de plateforme de tatouage passant ` lchelle capable de diuser e a e du contenu ` la demande avec des tatouages individualiss (voir par exemple [58]). En reprenant le point de a e vue des bases de donnes, jaimerais aborder les questions suivantes : e Comment intgrer les outils de protection de la proprit intellectuelle dans un ot de documents Web, e ee qui sont par nature ddis ` lchange, la transformation et la combinaison avec dautres documents e e a e durant leur cycle de vie. Comment spcier des politiques de gestion des droits intellectuels pour les documents entrant et e sortant dun syst`me, et comment les appliquer ` grande chelle et en toute conance. e a e Cette anne de dlgation INRIA dans le projet WebDam3 , ddi ` la gestion de donnes sur le Web, est e ee e ea e certainement un bon point de dpart pour ces questions. e

3 http://webdam.inria.fr

135

AOther studiesA.1 Work presented in this reportJournals Julien Lafaye, David Gross-Amblard, Camlia Constantin and Meryem Guerrouani. Wae termill: an optimized ngerprinting system for highly constrained data. IEEE Transactions on Knowledge and Data Engineering (TKDE), 20(4): 532-546, April 2008. David Gross-Amblard. Query-Preserving Watermarking of Relational Databases and XML Documents. To appear in ACM Transactions on Database Systems (ACM TODS), 36(1), 2010 (tentatively scheduled). Conferences David Gross-Amblard, Philippe Rigaux, Lylia Abrouk and Nadine Cullot. Fingering watermarking in symbolic digital scores. In International Conference on Music Information Retrieval (ISMIR), 2009, Kobe, Japan. Julien Lafaye, Jean Bguec, David Gross-Amblard and Anne Ruas. Invisible Grati on your Buildings: e Blind & Squaring-proof Watermarking of Geographical Databases. In 10th International Symposium on Spatial and Temporal Databases (SSTD), July 16-18, 2007, Boston. LNCS 4605, pages 312-329. Julien Lafaye and David Gross-Amblard. XML Streams Watermarking. In 20th Annual IFIP WG 11.3 Working Conference on Data and Applications Security (DBSec2006), Sophia Antipolis, France, 7/31 - 8/02 2006, pages 7488. David Gross-Amblard. Query-Preserving Watermarking of Relational Databases and XML Documents. In ACM Principles of Database Systems (PODS), 2003, pages 191 201. Workshops Camlia Constantin, David Gross-Amblard and Meryem Guerrouani. Watermill: an Optimized Fingere printing Tool for Highly Constrained Data. In ACM Workshop on Multimedia and Security (MMSec), New-York, USA, August 1-2 2005, pp. 143-155, 2005. Softs (soft) Camlia Constantin, David Gross-Amblard, Meryem Guerrouani et Julien Lafaye. Watermill: e an optimized watermarking/ngerprinting tool for databases. http://watermill.sf.net 137

A.2 MiscellaneousA.2.1 Multimedia watermarkingIn this work, a general framework for watermarking multimedia documents is proposed. A multimedia document is seen as a relational structure between components (for example images and polygonal annotations on them), along with functional dependencies. The framework guarantees that the watermarking of one component is consistent with its dependencies. Conferences Richard Chbeir and David Gross-Amblard. Multimedia and Metadata Watermarking Driven by Application Constraints. In IEEE Multi Media Modelling conference (MMM), 8 pp., 2006.

A.2.2

Other supervised work

In this section I also mention papers of my former PhD student, Julien Lafaye, whose thesis is entitled Database watermarking under constraints (defended 2007). Although I supervised his thesis, these works are Juliens own ideas. Workshops Julien Lafaye. An analysis of database watermarking security. In International Workshop on Data Hiding for Information and Multimedia Security (DHIMS), pages 462-467, Manchester, UK, 08/29 08/31 2007. This paper studies the security of Agrawal and Kiernans scheme for database watermarking, elaborating on new tools from Cayre, Furon and Fontaine [20]. It shows that using high signicant bits of numerical data sets as part of the secret key may lead to information leakage. Julien Lafaye. On the Complexity of Obtaining Optimal Watermarking Schemes. In International Workshop on Digital Watermarking (IWDW), Guangzhou, China, 12/03-12/05, 2007. In this paper, Julien Lafaye studies the computational problem of assessing the robustness and falsepositive rate of a watermarking method, described as a matrix or a circuit. It shows that this problem is N P -hard on matrices and EXP -hard on circuits. Softs Julien Lafaye and Jean Bguec. The geographical database watermarking library Watergoat (Opene Jump module). http://cedric.cnam.fr/~lafaye_j/index.php?n=Main.WaterGoatOpenJumpPlugin

A.3 Work non-related to watermarkingA.3.1 Web services rankingWeb services are a normalized W3C technology allowing Web servers to expose portions of their code to users, instead of basic (static) Web pages. A wide amount of such services appeared recently, and there is a crucial need for their indexing and ranking. Traditional solutions are based on open registries (UDDI), where services types and descriptions are provided. If such descriptions are not available, no longer up-to-date or simply not sucient for ranking, we have proposed a Web service ranking method derived from Googles PageRank method. A Web service is seen as a Web page, while a service call from one service to another is considered as a link between two pages. This approach, including time-dependencies, was part of Camlia e Constantins thesis.

Conferences Camlia Constantin, Bernd Amann, David Gross-Amblard. A Link-Based Ranking Model e for Services. In Cooperative Information Systems (CoopIS) International Conference, 2006, pages 327-344. National journals Camelia Constantin, Bernd Amann and David Gross-Amblard. Un mod`le de classement de services e par contribution et utilit. In Revue des sciences et technologies de linformation (numro special e e Recherche dinformation dans les systemes dinformation avances) (1633-1311) - 12(1) : 33-60, 2007.

A.3.2

Web publishing-by-example

Publishing data on the Web by dynamically extracting content from a database is nowadays a common practice (with tools like Apache, Mysql, PHP, Python, etc.). However these techniques are limited to users with reasonable programming skills. To allow natural users of blogs or wikis to access such data sets, or to increase programmers productivity, we have proposed a publish-by-example model. In this setting, the system extracts from the database or its schema a canonical database of examples. By building template Web pages with such examples, users can obtain automatically a full publishing program that generalized for a whole Website. The main point is to guarantee that the example data set is rich enough to express all interesting queries (Sonia Guhisthesis and following publications). e Conferences Sonia Guhis, David Gross-Amblard and Philippe Rigaux. Publish By Example. In IEEE International e Conference on Web Engineering (ICWE), July 14-18, 2008, Yorktown Heights, New York. National journals Sonia Guhis, David Gross-Amblard, Philippe Rigaux. Un mod`le de production interactive de proe e grammes de publication. Ingnierie des Syst`mes dInformation (Networking and Information Syse e tems), revue des sciences et technologies de linformation (RTSI) srie ISI, 13 (5) : 107-130, octobre e 2008. Softs Sonia Guhis. The DocQL publication suite. e http://www.lamsade.dauphine.fr/~guehis/docql/

A.3.3

Time-series management

Time-series is a key concept to handle useful information ows: environmental monitoring by sensors, stock exchange, news articles, and so forth. Along with Zo Faget, Virginie Goasdou-Thion and Philippe Rigaux, e e we proposed a query language and an algebra that manipulates time-series. Our main application is the management of musical events into the NEUMA project. Conferences Zo Faget, David Gross-Amblard, Philippe Rigaux, Virginie Thion-Goasou. Modeling Synchronized e e Time Series. In International Database Engineering & Applications Symposium (IDEAS), Montreal, QC, Canada , August 2010. 139

Workshops Lylia Abrouk, Herv Audon, Nadine Cullot, Ccile Davy-Rigaux, Zo Faget, David Gross-Amblard, e e e e Hyunja Lee, Philippe Rigaux, Alice Tacaille, Elisabeth Gavignet, Virginie Thion-Goasdou. The e NEUMA Project: Towards Cooperative On-line Music Score Libraries. In Workshop on Exploring Musical Information Spaces (WEMIS), Corfu, Greece, 2009.

BRsum dactivit e e eB.1 Encadrement (th`ses, postdocs, masters, ingnieurs) e eTh`ses e 1 (en cours) Encadrement (33%) avec Lylia Abrouk (33%) et Christophe Nicolle (33%) de la th`se e de Damien Leprovost (boursier Jeune chercheur entrepreneurJCE Conseil rgional de Bourgogne), e intitule Dcouverte de communauts par analyse smantique des usages, dbute en septembre e e e e e e 2009. 2 Encadrement (95%) avec Michel Scholl (5%) de la th`se de Julien Lafaye (boursier AMX), intitule e e Tatouage des bases de donnes avec prservation de contraintes, dbute en septembre 2004, soutenue e e e e le 7 novembre 2007 (dure 3 ans, 2 mois). Julien est quali en 27e section et actuellement salari de e e e la SSII Scimetis. 3 Encadrement (30%)