se protéger sur internet - fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf ·...

62
Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation et vie privée. Hoax et arnaques. Données personnelles. Internet Conseils pour la vie en ligne Xavier Tannier © Groupe Eyrolles, 2010, ISBN : 978-2-212-12774-4

Upload: others

Post on 10-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

Se protéger sur

Réseaux sociaux et moteurs de recherche.Contrôle parental. Réputation et vie privée.

Hoax et arnaques. Données personnelles.

InternetConseils pour la vie en ligne

Xavier Tannier

G12774_webProtect_PdT:G12437_Titre 3/08/10 9:47 Page 2

© Groupe Eyrolles, 2010, ISBN : 978-2-212-12774-4

Page 2: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

© Groupe Eyrolles, 2010

Nous utilisons désormais Internet au quotidien, et force est de constaterqu’il a fortement modifié notre rapport à la communication et à l’informa-tion, grâce à la messagerie électronique, à la navigation sur le Web et à larecherche d’informations, mais aussi à la messagerie instantanée (commeMSN) ou aux réseaux sociaux (comme Facebook). Pour beaucoup d’entrenous, le Web est également synonyme d’une nouvelle façon deconsommer : achat en ligne de billets de train, de voyages, de produitsélectroniques ou même tout simplement des courses du quotidien. Enfin,certains utilisent le Web en tant que producteurs de contenus, en tenantun site, un blog ou en étant un membre actif de forums de discussion...

La plupart des citoyens connaissent maintenant bien ce monde, mais nousconstatons régulièrement dans l’actualité ou autour de nous que beau-coup en maîtrisent mal les subtilités. Par exemple, 71 % des internautesfrançais déclarent être préoccupés par les aspects concernant le respectde leur vie privée sur Internet1, 49 % n’ont pas ou peu confiance dans lasécurité des achats en ligne2.

Internet a une importance grandissante dans notre rapport au monde,dans notre culture, dans notre communication et dans notre budget, et àce titre, il est bien plus qu’un simple outil technique que nous pouvonsutiliser sans comprendre.

Avant-propos

1. Sondage Ipsos pour la Commission nationale de l’informatique et des libertés (Cnil).

2. Baromètre Caisse des dépôts/ACSEL.

Page 3: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010VI

Risquons une analogie : lorsque la voiture est apparue, il y a plus d’unsiècle, les premiers utilisateurs n’avaient qu’à apprendre à tourner la mani-velle et le volant pour se lancer à l’aventure et découvrir les joies de la loco-motion motorisée. Désormais, savoir tourner le volant et passer lesvitesses ne suffit plus. Quand vous prenez la route, vous suivez les pan-neaux, vous respectez généralement le Code de la route, ainsi que desrègles non écrites de respect des autres. D’autre part, vous vous méfieztoujours un peu des chauffards ou des gens qui pourraient vous agresserau feu rouge.

De la même façon, il est maintenant nécessaire de bien comprendre quisont les acteurs du réseau Internet, quels en sont les enjeux et commenton peut ou non se comporter sur la Toile.

Le contrôle des informations nous concernant est important. Ce que vousfaites sur le Web en dit long sur qui vous êtes : les multiples formulairesremplis, les réseaux sociaux comme Facebook, sans oublier les moteurs derecherche... Et les personnes auxquelles vous donnez gratuitement cesinformations ne se privent pas de les utiliser.

Ce que vous ignorez peut-être, c’est qu’il est tout à fait possible, sansconnaissance informatique particulière et sans vous priver d’une vieactive en ligne, de garder le contrôle de vos données personnelles et dela sécurité de votre ordinateur.

Vous ne trouverez pas dans ce livre de grands débats idéologiques sur lesdangers d’Internet, sur le grand méchant Google ou sur la nécessité deretourner à l’âge de pierre pour vivre en sécurité. Internet nous est devenuquasi indispensable et il est inutile de se demander si l’on se porteraitmieux sans lui. En revanche, il est grand temps que chaque citoyen utiliseInternet en connaissance de cause, c’est-à-dire en comprenant ce qui sepasse lorsqu’il remplit un formulaire, lorsqu’il achète un produit oulorsqu’il effectue une recherche sur un moteur.

Pour cela, les chapitres qui suivent sont destinés à vous expliquer de quoiil retourne, de quoi il faut s’inquiéter vraiment, et à vous donner des con-seils et des astuces pour naviguer en toute tranquillité !

Enfin, certains considèrent qu’il est également nécessaire de comprendrele fonctionnement mécanique d’une voiture dans les détails pour l’utilisersereinement. Pour ceux-là, des annexes abordent quelques aspects plus

Page 4: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

A v a n t - p r o p o s

© Groupe Eyrolles, 2010 VII

techniques du fonctionnement du réseau et des moteurs de recherche,toujours de façon très accessible.

Bon à savoir Le choix du navigateurCertains conseils et certaines astuces de ce livre s’appliquent au navi-gateur Firefox seulement. Encore une fois, il ne s’agit pas d’un choixidéologique, mais il s’avère que certaines solutions simples ne sontproposées qu’avec ce navigateur. Nous vous conseillons donc del’utiliser, non pas parce qu’il s’agit d’un logiciel libre*, parce qu’il estgratuit ou parce qu’il n’est pas produit par Microsoft, mais tout sim-plement parce qu’il est le plus facile à sécuriser.Cela étant dit, l’énorme majorité des indications et des conseils quenous vous fournirons sont aussi valables pour Internet Explorer,Google Chrome et pour tous les autres navigateurs.

Pour en savoir plus La version électroniqueVous trouverez tous les liens fournis dans ce livre, ainsi que desdémonstrations et des informations supplémentaires, sur le site :B http://www.limsi.fr/~xtannier/internet/

Bon à savoir GlossaireTout au long du livre, l’astérisque suivant certains termes signifie quece terme est expliqué plus en détail dans le glossaire, à l’annexe D.

Page 5: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

© Groupe Eyrolles, 2009

Table des matières

1. L’ILLUSION DU GRATUIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Les sites gratuits et leurs revenus • 2Les moteurs de recherche • 2Les sites informationnels ou culturels • 4

Les différents types de publicité ciblée • 6

2. VOS DONNÉES PERSONNELLES SUR LE WEB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Les mille et une façons de collecter des informations sur vous • 14Les informations que vous donnez sans le savoir • 17Les informations que l’on vous prend • 18

Vous tracer par les cookies • 18Surveiller vos moindres mouvements • 19

Comment garder le contrôle sans renoncer à la vie en ligne • 20Les précautions de base • 20

Multipliez vos identités • 20Réduisez le débit • 23Gérez vos cookies • 25Et puis... restez vigilant ! • 27

Pour les paranos • 27Cryptez vos données • 28Fermez le robinet ! • 28Surfez anonymement • 30

L’identité numérique • 32Que comprend l’identité numérique ? • 32L’usurpation d’identité numérique • 33

3. CE QUE GOOGLE SAIT DE VOUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Google, ce géant • 38Mieux vous connaître... • 40

Page 6: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R I N T E R N E T

© Groupe Eyrolles, 2009X

Mieux vous vendre... • 42Mieux exploiter votre activité... • 45Que faut-il vraiment penser de Google ? • 48

4. FACEBOOK, GARDEZ LE CONTRÔLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Facebook, la jungle des données personnelles • 54Savoir à qui vous parlez • 54Qui parle de vous sur Facebook ? • 57Comment Facebook utilise vos données personnelles • 58Les paramètres de confidentialité • 61

Informations de base ① • 62Partage sur Facebook ➁ • 63Applications et sites web ➂ • 64

OpenGraph et Facebook Connect • 66Les réseaux sociaux et vos enfants • 68

5. VOTRE VIE PRIVÉE, CHEZ VOUS ET AU TRAVAIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

Utiliser le Web au travail • 74Quelques chiffres • 74Les moyens de contrôle de l’employeur • 75

Votre messagerie professionnelle • 77Internet nuit-il à votre productivité ? • 78

Un outil à deux faces • 79Des enquêtes contradictoires • 79

Votre vie privée à la maison • 80

6. L’INFORMATION EN TOUTE CONFIANCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

À la recherche des informations sûres • 88Rumeurs et propagande • 90

Internet et la rumeur • 91Ne propageons pas les hoax ! • 93

Wikipédia ou le piège de la facilité • 97Un petit test... • 101Du côté des enfants • 102

Affûter l’esprit critique de ses enfants • 102Le contrôle parental • 104Les risques liés à la pédopornographie • 107

7. LES MOTEURS DE RECHERCHE, LE MIROIR DE NOUS-MÊME . . . . . . . . . . . . . . . . . . . . . . . 113

Une mémoire d’éléphant • 114Ce que vous préféreriez oublier, Internet s’en souvient quand même • 114L’e-réputation • 116

Page 7: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

T a b l e d e s m a t i è r e s

© Groupe Eyrolles, 2009 XI

Se chercher soi-même • 117Le principe de neutralité technologique • 120

Quelques exemples de polémiques • 120Les algorithmes sont neutres • 122Garder l’esprit critique face aux résultats de nos recherches • 123

8. PRODUIRE DU CONTENU SUR LE WEB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Apposer sa patte sur le réseau mondial, mais respecter les règles ! • 128Ce que dit la loi • 128

La vie privée • 128Les activités illégales • 129Les droits d’auteur • 129

Ce que dit la « nétiquette » • 131Forums, blogs, sites persos... Réfléchissez avant de publier ! • 133

Raconter sa vie professionnelle • 135Exhiber sa vie privée • 135Exhiber la vie privée des autres • 136Les dix conseils de la Cnil et d’Internet sans crainte pour la publication • 137

9. SPAM, HAMEÇONS, ARNAQUES ET AUTRES ESPIONS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Le spam, comment l’éviter • 144L’hameçonnage, qu’est-ce que c’est ? Apprendre à s’en méfier • 147Les arnaques sur Internet • 150

Le scam nigérian • 150Les formules miracles pour gagner au jeu • 150La loterie • 151Les casinos en ligne • 151

Les logiciels espions ou malveillants • 152Éviter les logiciels malveillants ou espions • 152Piratage du navigateur • 153

10. ET L’AVENIR ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

Internet change-t-il les hommes ? • 158La vie privée, une notion has been ? • 158Non, Internet n’est pas une poubelle ! • 160Quand le Web rend plus intelligent • 161

Vérifier les faits : un état d’esprit, un métier • 162Nouvelles technologies, nouvelles habitudes, nouvelles précautions • 164

L’Internet des objets • 164L’Internet mobile et la géolocalisation • 166

Et si ça ne marchait plus ? • 168Un trafic trop important • 168

Page 8: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R I N T E R N E T

© Groupe Eyrolles, 2009XII

Un problème d’architecture • 169Des failles béantes • 170La cyberguerre • 170

Annexes

A. INTERNET, COMMENT ÇA MARCHE ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

Qu’est-ce qu’Internet ? • 174De l’URL à l’adresse IP • 175De l’adresse IP à la page web • 176Le Web, une application d’Internet parmi d’autres • 177

Pages statiques, pages dynamiques • 177Historique et gouvernance • 180

Historique d’Internet et du Web • 180La gouvernance d’Internet • 182

B. À L’INTÉRIEUR D’UN MOTEUR DE RECHERCHE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

Rechercher dans les documents textuels • 187Les documents vus comme un sac de mots • 187Les mots ne sont pas égaux devant le moteur de recherche • 189Faire le lien entre la requête et les documents • 190

Le PageRank, la formule qui a révolutionné la recherche sur le Web • 191

C. LA DÉMARCHE DE RECHERCHE D’INFORMATIONS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

Trouver un bon restaurant végétarien à Toulouse • 199Quels sont les acteurs qui ont reçu un césar ? • 201Recherche sur les Jeux olympiques 2010 • 203Faut-il sortir de l’euro ? • 204Comment gérer les paramètres de confidentialité de Facebook ? • 208

D. GLOSSAIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

INDEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

Page 9: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

chapitre

© Groupe Eyrolles, 2010

1

Page 10: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

© Groupe Eyrolles, 2010

L’illusion du gratuit

Malgré quelques leurres, l’univers magique de la liberté et de la gratuité a bel et bien laissé sa place à un Internet mercantile et intéressé. Décryptage.

Sommaire

B Les moteurs de recherche, du gratuit qui se paie !

B Les sites d’information, la gratuité en sursis

B Les différents types de publicité ciblée

Page 11: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 20102

Pour le grand public, Internet est un moyen d’accéder à des informations(actualités ou connaissances diverses) de façon rapide et surtout gratuite,ou d’acheter des biens de consommation souvent moins chers sans sortirde chez soi. Il est important de comprendre que tout cela est loin d’êtremagique, et que passées les premières années où Internet était effective-ment encore peu atteint par les contraintes économiques, de nouveauxmodèles se sont développés. Certains services initialement gratuits sontdevenus payants lorsqu’il est apparu que les internautes étaient finale-ment prêts à payer pour les obtenir (par exemple, les sonneries pour por-tables ou les sites pornographiques). Dans d’autres cas, des moyensdétournés ont été utilisés, tout en maintenant les utilisateurs finaux dansl’illusion du gratuit. Nos activités en ligne peuvent rapporter gros, et lesprécieuses informations vous concernant sont l’objet d’un marché de col-lecte et de revente qui fait vivre une bonne partie du Web.

Voici un aperçu des différentes façons d’offrir un service gratuit sur le Webtout en gagnant de l’argent.

Les sites gratuits et leurs revenusLa culture des débuts d’Internet a conduit à la conservation de la gratuitépour certains types de services à but lucratif ; notamment, les moteurs derecherche, les services de messagerie électronique, les sites d’informations etde culture, les réseaux sociaux (ces derniers sont traités de façon plusdétaillée dans le chapitre 4). Bien sûr, les coûts de production diminuent for-tement lorsque l’on échange des données numérisées. Mais puisque l’inter-naute ne paie pas directement, comment ces sites gagnent-ils de l’argent ?

Les moteurs de rechercheDevenus indispensables à notre vie quotidienne, les moteurs de recherchesont restés totalement gratuits. En apparence, ils ne vendent rien et sontpourtant devenus les plus gros acteurs économiques du Web. Commentgénèrent-ils leurs profits colossaux ?

Page 12: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

1 – L ’ i l l u s i o n d u g r a t u i t

© Groupe Eyrolles, 2010 3

Les principaux moteurs de recherche (Yahoo!, Google, Bing) permettentaux annonceurs d’acheter des mots-clés pour diffuser leurs publicitésauprès des internautes effectuant des recherches. C’est le principe de lapublicité ciblée. Ainsi, un internaute faisant une recherche sur « lecteurDVD » se verra proposer des publicités d’annonceurs ayant acheté cesmots-clés, par exemple des enseignes proposant des ventes de lecteursDVD. Ces publicités ou « liens sponsorisés » sont séparées (mais discrète-ment) des résultats réels de la recherche (voir la copie d’écran). La plupartdu temps, les annonceurs ne paient pas à l’affichage de la publicité, mais auclic, c’est-à-dire seulement lorsqu’un internaute est réellement conduit surleur site par l’intermédiaire de la publicité.

Google, qui génère la quasi-totalité de ses revenus (97 %) avec la publicitéciblée, utilise ce procédé sur son moteur de recherche, mais également,par exemple, sur son logiciel de messagerie Gmail. C’est alors le contenu devos propres messages reçus ou envoyés qui sert à cibler les publicités.Google propose également l’outil AdSense, à destination des administra-teurs de sites souhaitant rentabiliser facilement leurs pages avec de la

Figure 1–1 Débusquer les liens sponsorisés issus de la publicité

Page 13: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 20104

publicité, elle aussi ciblée. Le système analyse le contenu des pages et pro-pose des annonces en lien avec le sujet traité1.

La page d’accueil de Yahoo! est également un portail conduisant vers denombreux sites et comportant des pages de publicité classique. Le moteurfrançais Exalead propose des sites publics gratuits, mais s’est égalementspécialisé dans la vente de logiciels de recherche d’informations pour lesentreprises (dans leur intranet, leur documentation ou sur le Web, pourdes besoins très spécifiques).

Les sites informationnels ou culturelsLa grande majorité des journaux ou des magazines culturels proposentdésormais une version électronique, avec des contenus différents et actua-lisés en temps réel. D’autres sites se sont également créés sans avoir de ver-sion papier au préalable.

Si certains, et même de plus en plus, ont fait le choix du modèle payant(abonnement ou consultation à la carte), nombreux sont les sites informa-tionnels ou culturels qui considèrent que l’internaute n’est pas prêt à payerpour du contenu de ce type et qui cherchent donc à rentabiliser unmodèle gratuit.

1. Nous consacrons plus loin un chapitre entier à Google (chapitre 3).

Cas d’étude Combien valent mes amis ?«Notre vie privée est devenue une monnaie », selon Daniel Lyons.Nous ne payons pas un service avec de l’argent, mais avec nos donnéespersonnelles et celles de nos amis. La différence, c’est que nous savonstous ce que vaut un euro, et cet euro vaut la même chose pour vous etpour votre commerçant... Par contre, nous n’avons aucune idée de ceque valent nos données ! Alors que Facebook et autres Google ne lesavent que trop bien... Vous faites-vous arnaquer ? Comme le ditD. Lyons, «si votre liste d’amis ne vaut pas grand-chose, vous faitesprobablement l’affaire du siècle sur Facebook. Dans le cas contraire,vous vous faites avoir ! (...) De toute façon, le fait qu’ils préfèrent nosdonnées à notre argent est déjà une réponse... »B http://www.newsweek.com/id/233773

Page 14: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

1 – L ’ i l l u s i o n d u g r a t u i t

© Groupe Eyrolles, 2010 5

Pour résumer, trois options principales s’offrent à un tel acteur du Websouhaitant gagner de l’argent avec un site à contenu gratuit.

• La publicité, qu’elle soit « classique » (bannières, carrés, pop-up*, pop-under*...) ou personnalisée (voir section suivante).

• Le don des internautes qui profitent du service. C’est la source de laplupart des revenus de la fondation Wikimédia, qui soutient en parti-culier Wikipédia (voir chapitre 6).

• Le freemium, c’est-à-dire l’enrichissement de l’offre gratuite grâce à unproduit premium payant, mais proposant plus de fonctionnalités. Parexemple :– Pour une plateforme de blog ou un site de messagerie, l’offre de base

(gratuite) sera limitée en termes d’espace de stockage, de nombresde pages, etc. tandis que l’offre premium permettra à l’utilisateur des’affranchir de ces limites.

– Un site de nouvelles proposera certains articles gratuitement etd’autres, plus approfondis, dans une version payante.

– Pour un site utilisant la publicité, l’offre payante pourra supprimerces annonces (c’est le cas du site d’écoute de musique à la demandeDeezer).

Après réflexion... Le Web gratuit et altruiste existe encore !Si de nombreux sites gratuits ont un but lucratif, bon nombre depersonnes sont encore prêtes à consacrer du temps à l’informationou l’éducation des internautes. Les blogs gratuits et sans publicitérestent fréquents, tandis que d’autres n’utilisent la publicité quepour amortir leurs coûts de production du contenu (achat du nomde domaine, maintenance, etc.). Les contributeurs des wikis*

(comme pour Wikipédia) ajoutent de la connaissance sans rienattendre en retour, puisqu’ils sont bénévoles et anonymes. Les mem-bres actifs des forums donnent des conseils ou des informations defaçon désintéressée. Vous avez peut-être déjà, vous aussi, ajouté uncommentaire sur un restaurant que vous aimez sur un site compara-tif ou donné la réponse à une question posée sur un forum. C’est labeauté du Web à l’image de l’être humain : à la fois cynique etgénéreux !

Page 15: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 20106

– Un site gratuit pour les particuliers peut devenir payant pour lesentreprises, avec des options dédiées supplémentaires (le logicield’aide à l’organisation Doodle, par exemple).

– Certains sites à contenu gratuit sont un simple produit d’appel pourdes services payants proposés dans le monde physique (par exem-ple, le site et le forum du Guide du Routard).

Les différents types de publicité cibléeLa publicité ciblée est une publicité dont le contenu s’adapte à l’internauteen fonction de son profil ou des pages qu’il visite. Le rapport de la Cnil(Commission nationale de l'informatique et des libertés) sur « La publicitéciblée en ligne » distingue les trois types de publicité ciblée suivants :

Après réflexion... Tout ce qui compte, c’est que ce soit gratuit, non ?

À vous de voir... mais, dans le domaine de l’information en particulier :• Gratuité signifie souvent baisse de la qualité. Une information fiable doit être

cherchée et vérifiée. Cela implique que des journalistes doivent mener desenquêtes, parfois longues, et se déplacer aux quatre coins du monde pourpouvoir rendre compte des événements de façon fidèle. Tout cela a un coût.

• Gratuité signifie dépendance vis-à-vis des annonceurs. Ces annonceurs, sou-vent de grandes multinationales, peuvent être impliqués dans des affairesrelevant de l’information à traiter par les journalistes. Des pressions peuventalors empêcher ceux-ci de faire leur travail de façon indépendante.

Ces deux points doivent toutefois être nuancés par le fait que ces situa-tions existent déjà dans le cadre des médias traditionnels. Les télévisions etradios privées sont gratuites, les journaux sérieux sont payants, mais com-portent pour la plupart de la publicité.Enfin, sachez que la grande majorité des sites d’information travaillent àperte. Ils compensent grâce aux subventions ou à d’autres revenus (commela version papier), mais la gratuité n’est pas pour le moment un modèleéconomique viable. On peut donc s’attendre à assister à une convergencevers quelque chose de différent, voire totalement nouveau, dans les annéesà venir. Peut-être devrons-nous nous faire à l’idée de mettre la main auporte-monnaie...

Page 16: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

1 – L ’ i l l u s i o n d u g r a t u i t

© Groupe Eyrolles, 2010 7

• La publicité personnalisée « classique ». Cette publicité vous estfournie en fonction d’informations personnelles que vous avez fourniesvous-même à un site à un instant donné. C’est le cas lorsque vous vousinscrivez à un service ; typiquement, vous donnez votre nom et votreadresse, ce qui est déjà intéressant pour la publicité locale, mais onvous demande souvent innocemment vos hobbies ou si vous avez unchat. C’est ainsi que le site de réseau social Facebook vous propose desannonces à votre goût grâce aux Social Ads (voir chapitre 4).

Figure 1–2 Décathlon utilise les intérêts sportifs renseignés lors de votre inscription sur le Web ou lors de l’adhésion à la carte de fidélité pour vous envoyer des publicités personnalisées.

Page 17: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 20108

• La publicité contextuelle, générée en fonction du contenu immédiatvisualisé par l’internaute. La page consultée est parcourue par le sys-tème, les mots-clés principaux (les plus fréquents, les plus visibles ouceux issus d’une requête de l’utilisateur) en sont extraits et des publici-tés appropriées sont sélectionnées. Les moteurs de recherche pratiquent cette technique, et le systèmeAdSense de Google fut le premier gros acteur du marché, mais c’estégalement le cas d’autres sites, comme par exemple Voyages-sncf.com,qui vous propose une location de voiture et un hôtel à Marseille si vousvenez d’acheter un billet Toulouse-Marseille. La localisation géographique de l’internaute est parfois utilisée pourmieux cibler l’annonce.

Figure 1–3 La publicité contextuelle chez Voyages-sncf.com (ici, si vous avez demandé un train vers Marseille)

Page 18: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

1 – L ’ i l l u s i o n d u g r a t u i t

© Groupe Eyrolles, 2010 9

• La publicité comportementale est le fruit du comportement des utili-sateurs dans le temps. Par l’intermédiaire des cookies* (voir chapitre 2)ou en vous demandant de vous connecter, il est possible de vous recon-naître et de tracer votre activité sur un ou plusieurs sites pendant unecertaine durée, et ainsi de cibler vos intérêts de manière plus précise.Le site de vente en ligne Amazon présente ainsi des suggestions d’achatà l’internaute en fonction des pages qu’il a visitées et des produits qu’ila déjà acquis (voir l’exemple ci-après). Encore plus élaboré : la société Phorm s’allie aux opérateurs téléphoni-ques, qui peuvent avoir accès à tous les sites visités par ses abonnés,pour analyser leur trafic Internet dans son ensemble.

Figure 1–4 La publicité comportementale d’Amazon

Page 19: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 201010

Ainsi, l’économie du Web, et en particulier du Web gratuit, fonctionne entrès grande partie grâce à la monétisation de vos propres données person-nelles. Comme nos exemples le montreront tout au long de ce livre, vousseul possédez ces informations et personne ne peut vous les soutirer deforce. Vous pouvez naviguer sur le Web sans laisser la moindre trace si vousle souhaitez. Vous pouvez également surfer sans paranoïa, mais avec luci-dité, et réfléchir à ce que vous y faites et aux conséquences que cela aura.

Cas d’étude Quand on peut vendre ses propres données...À Bracknell Forest, au Royaume-Uni, le chef du conseil a proposéaux 45 000 habitants de vendre aux entreprises intéressées les don-nées personnelles collectées par la municipalité, comme les livresempruntés à la bibliothèque, mais aussi les revenus et les indica-tions familiales, et ce dans le but de diminuer les impôts.Cela permettrait aux annonceurs de cibler leur publipostage « pourqu’il cesse d’être ennuyeux », a-t-il déclaré, ajoutant : « Le courrierindésirable, s’il est mieux ciblé, n’est plus indésirable. »Seules les données concernant les personnes volontaires seront ven-dues.

Source : The Register, 4 octobre 2006.

Pour en savoir plus Quelques référencesL’ensemble des liens hypertextes proposés dans ce livre peuvent êtreretrouvés sur le site suivant :B http://www.limsi.fr/~xtannier/internet/Les sites Internet à contenu gratuit sont-ils un modèle économiqueviable ?, Jérôme Guyonnet, 2006.B http://guyonnet.jerome.free.fr/index.php/memoire-les-sites-

internet-a-contenu-gratuit-sont-ils-un-modele-economique-viableLa publicité ciblée en ligne, rapport de la Cnil présenté le 9 février2009 par M. Peyrat.B http://www.cnil.fr/fileadmin/documents/La_CNIL/actualite/

Publicite_Ciblee_rapport_VD.pdfR Olivier Bomsel, Gratuit ! : Du déploiement de l’économie

numérique, Gallimard, 2007.R Djamshid Assadi, Les 7 modèles économiques d’Internet,

Gualino Éditeur, 2004.R Anne-Sophie Peron Verloove, Internet dix ans après : où en

sommes-nous ?, Éditions de L’Hèbe, mars 2010.

Page 20: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

1 – L ’ i l l u s i o n d u g r a t u i t

© Groupe Eyrolles, 2010 11

Outils Comment se débarrasser des publicités ?

Il est possible d’éviter de nombreuses publicités, ciblées ou pas. Tout d’abord, tousles navigateurs récents ont une option permettant de supprimer les pop-ups, cesfenêtres publicitaires qui apparaissent pendant votre navigation alors que vousn’avez rien demandé.Les autres outils sont plutôt réservés aux utilisateurs du navigateur Firefox.• L’extension* Adblock Plus la plus utilisée, elle supprime la très grande majo-

rité des publicités classiques.B https://addons.mozilla.org/fr/firefox/addon/1865

• L’extension Boost pour Facebook permet entre autres de supprimer lespublicités sur Facebook.

B https://addons.mozilla.org/fr/firefox/addon/3120

• L’extension Customize Google supprime les liens sponsorisés et les publici-tés comportementales de Google.

B https://addons.mozilla.org/fr/firefox/addon/743

Pour les autres navigateurs, le logiciel Proxomitron permet de filtrer le trafic et debloquer tout ce que l’on souhaite. Son utilisation est malheureusement un peu pluscomplexe.B http://www.proxomitron.info/

Page 21: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

annexe

© Groupe Eyrolles, 2010

A

Page 22: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

© Groupe Eyrolles, 2010

Internet, comment ça marche ?

Une brève présentation des principes d’Internet et du Web.

Sommaire

B Comment une communication est-elle acheminée d’un point à l’autre de la planète ?

B Comment les pages web sont-elles affichées et mises à jour ?

B Comment l’Internet est-il né, comment est-il géré ?

Page 23: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010174

Depuis des dizaines de pages, nous parlons d’Internet, du Web, de la mes-sagerie électronique et des principes économiques et sociaux qui les régis-sent. Mais techniquement, tout cela, qu’est-ce que c’est, au juste ? Com-ment cela fonctionne-t-il, comment est-ce géré ? Voici un aperçu trèsrapide et accessible.

Qu’est-ce qu’Internet ?Internet est un réseau de réseaux. Il permet de relier entre eux des cen-taines de milliers de réseaux autonomes, c’est-à-dire construits par desgroupes dans un but interne. Il s’agit d’une organisation décentralisée,puisque les messages ne passent pas par un cerveau central, mais sontacheminés de point en point à travers le réseau. L’avantage de cette décen-tralisation est que le réseau est a priori très peu vulnérable, puisque la des-truction d’une machine ne remet jamais en cause le fonctionnementgénéral.

Mais comment un message est-il transmis d’un point à l’autre du réseaudes réseaux ?

Figure A–1 Internet, un réseau de réseaux

Page 24: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

A – I n t e r n e t , c o m m e n t ç a m a r c h e ?

© Groupe Eyrolles, 2010 175

De l’URL à l’adresse IPL’URL est l’adresse que vous entrez dans votre navigateur (le client*) dans lebut d’obtenir une page précise. Elle est composée du protocole de com-munication utilisé (le plus souvent, « http »), du nom de la machine (leserveur*) où se trouve la page, puis du chemin qui conduit au fichierrecherché sur cette machine.

Toute l’utilité du réseau Internet est de vous conduire vers le serveurrecherché, où que vous soyez. Ensuite, trouver le bon fichier consiste sim-plement à aller dans le bon dossier sur le serveur, de la même façon quevous le faites sur votre ordinateur.

Ces URL textuelles ont été créées pour faciliter la compréhension des utili-sateurs, mais le véritable identifiant d’un serveur, tout comme celui devotre ordinateur connecté, est une suite de chiffres appelée adresse IP. Parexemple, l’adresse de www.eyrolles.com est 213.244.11.247.

Le domaine « eyrolles.com » est l’ensemble des machines gérées par cetteorganisation. La traduction du nom de domaine vers l’adresse IP corres-pondante est effectuée par des centaines de milliers de serveurs du« service de noms de domaines » (DNS). Bien entendu, chaque serveur neconnaît pas l’ensemble des noms de domaine. Pour chaque niveau du nom(ici, « .com » puis « eyrolles »), un serveur demande à d’autres, qui deman-dent à leur tour, et ainsi de suite jusqu’à ce que celui qui sait faire la corres-pondance réponde.

Figure A–2 La composition d’une URL

Page 25: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010176

De l’adresse IP à la page webSur le réseau, le chemin vers le serveur demandé par le client est trouvé grâceau mécanisme du routage. Un message (URL, message électronique, pageweb, etc.) est transmis d’un réseau à l’autre d’Internet par l’intermédiaire derouteurs. Ces routeurs, grâce à leur table de routage, savent à quel autre rou-teur envoyer le message pour s’approcher du destinataire, selon son adresse IP.

Pour en savoir plus La géolocalisation de l’adresse IPVous vous souvenez peut-être qu’au chapitre 2, nous vous avonsexpliqué que Google rendait les logs anonymes tout en conservantl’information de la localisation géographique de l’internaute. Celaest tout simplement fait en supprimant les trois derniers chiffres del’adresse IP ! Ainsi, l’ordinateur n’est plus identifiable, mais les infor-mations géographiques, qui sont portées par les trois premiers nom-bres, sont toujours présentes.

Figure A–3 L’Internet est un réseau décentralisé qui assure le fonctionnement, même en cas de défaillance d’un de ses éléments.

Page 26: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

A – I n t e r n e t , c o m m e n t ç a m a r c h e ?

© Groupe Eyrolles, 2010 177

Sur Internet, les réseaux autonomes sont très nombreux et rien ne garantitqu’un routeur aura l’information nécessaire pour conduire le message à sadestination. Il existe donc une route « par défaut », qui sera utilisée enl’absence d’autre information. Le message est ainsi transmis par la routepar défaut jusqu’à ce qu’un routeur retrouve l’adresse dans sa table etoriente le message de façon moins aléatoire.

Le Web, une application d’Internet parmi d’autresOn a souvent tendance à considérer que Web et Internet désignent lemême concept, ce qui est une erreur. L’Internet, c’est l’espace physique, leréseau et l’ensemble des machines et de liaisons qui le composent. Descommunications, des messages sont acheminés à travers ce réseau, ce quipermet de nombreuses applications. Le World Wide Web est l’une de cesapplications, dont les messages sont essentiellement des URL et des pagesweb (voir la section suivante). Vous connaissez probablement d’autresapplications qui utilisent Internet, en particulier :

• la messagerie électronique ;• la messagerie instantanée* (chat) ;• l’échange de fichiers (peer-to-peer, FTP) ;• la vidéoconférence, l’e-commerce , etc.

Pages statiques, pages dynamiquesPour bien comprendre comment un service web peut installer des chosessur votre ordinateur ou obtenir des informations vous concernant sansque vous le sachiez, il faut se familiariser un peu avec les différentes techni-ques d’affichage et de modification de contenu sur un navigateur.

Le langage HTML est la « brique » de base. Avec l’aide de feuilles de style(CSS), c’est lui qui permet aux concepteurs de sites de créer du contenuavec une structure (des titres, des paragraphes, des images...) et une forme(taille des caractères, couleur, présentation) définies. Une page ne conte-nant que du HTML est dite statique, destinée uniquement à la visualisa-tion ; elle ne peut pas être modifiée une fois affichée.

Page 27: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010178

Il est cependant possible de générer automatiquement de telles pagesgrâce à des langages comme PHP, CGI, ASP, et ainsi de proposer des con-tenus dépendant des requêtes des utilisateurs (par exemple, lorsque vousvous connectez à un site de réservation de billets de train, l’affichage estbien entendu généré dynamiquement en fonction de ce que vousdemandez). En revanche, une fois la page créée et affichée, elle ne peutplus être modifiée.

Figure A–4 En HTML simple, les pages sont statiques et existent à l’avance. Les mêmes pages sont fournies à tous les utilisateurs. Lorsque l’utilisateur navigue vers une autre page, la page courante est détruite.

Figure A–5 Les pages dynamiques (PHP, CGI, ASP...) sont générées à un instant donné pour un utilisateur, selon les paramètres de sa requête. Lorsque l’utilisateur navigue vers une autre page, la page courante est détruite.

Page 28: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

A – I n t e r n e t , c o m m e n t ç a m a r c h e ?

© Groupe Eyrolles, 2010 179

C’est là qu’intervient le langage JavaScript, dont nous avons parlé plusieursfois dans ce livre. Il permet deux choses principales :

• Réagir à des actions de l’internaute en modifiant dynamiquement lecontenu de la page que celui-ci visualise. C’est ainsi par exemple quecertains formulaires s’adaptent au fur et à mesure du remplissage. Sivous réservez un billet d’avion sur certaines compagnies, saisir la villede départ conduira à la mise à jour de la liste des villes pour le retour,ne vous proposant que les combinaisons possibles.

• Donner la possibilité à plusieurs serveurs de participer à la compositionde la page. Cela est en particulier utilisé pour offrir un accès à une ouplusieurs régies publicitaires, qui vont pouvoir analyser vos cookies* etle contenu de la page pour constituer votre profil, mais égalementajouter du contenu, des publicités notamment.

Enfin, la solution Ajax ajoute à la modification dynamique d’une page lapossibilité de contacter le serveur pour obtenir des informations supplé-mentaires en fonction des actions. C’est ainsi que certains formulaires véri-fient en temps réel que votre adresse e-mail est valide, ou que Google vouspropose les requêtes les plus populaires en fonction des premières lettresque vous avez saisies.

Figure A–6 Grâce au JavaScript, une page web, qu’elle soit construite statiquement ou dynamiquement, peut être modifiée lors d’une action de l’internaute. De nombreuses modifications sont ainsi possibles sans recharger la page et sans nouvel accès au serveur.

Page 29: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010180

Historique et gouvernanceAu départ, Internet a été conçu comme réseau décentralisé qui ne devait pasêtre rendu vulnérable par une attaque localisée. Ainsi, si un maillon du réseautombait en panne ou était détruit, l’information choisirait tout simplementun autre chemin. D’autre part, le fait que les premiers utilisateurs étaient sur-tout des universitaires a retardé la prise de conscience que les donnéesdevaient être protégées lors de leur transmission. Aujourd’hui, l’Internet fonc-tionne finalement beaucoup à base de rustines posées à la va-vite pour pareraux problèmes posés par de nouvelles applications non envisagées.

Historique d’Internet et du WebSi Internet n’a commencé à s’étendre dans les foyers que dans la secondemoitié des années 1990, l’histoire du réseau des réseaux est un peu plusancienne. En 1969, sur une initiative du département de la défense desÉtats-Unis, la première expérimentation d’un réseau reliant des universitésaméricaines est réalisée. Le nom de ce réseau : ARPANET.

Dès 1971, un étudiant lance le Projet Gutenberg dans le but de rendreaccessibles des œuvres culturelles à travers ce réseau. Le premier courriel,quant à lui, est envoyé en 1972.

Figure A–7 Ajax permet d’effectuer encore plus d’actions sur la page web sans la recharger, mais en permettant au navigateur de contacter le serveur pour obtenir de nouvelles informations et modifier la page en conséquence.

Page 30: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

A – I n t e r n e t , c o m m e n t ç a m a r c h e ?

© Groupe Eyrolles, 2010 181

S’ensuivent alors de longues années de progrès techniques, de développe-ment de protocoles de communication et d’échanges de fichiers, dans unréseau, bientôt nommé Internet, toujours réservé aux militaires et aux uni-versitaires. En parallèle, en France, le Minitel est la première applicationgrand public d’un réseau centralisé.

Ce n’est qu’en 1991 que Tim Berners-Lee, chercheur au CERN à Genève,crée le World Wide Web, le principe de l’hypertexte* et le langage HTML*,qui vont permettre de populariser l’usage d’Internet auprès du grandpublic. Deux ans plus tard en effet, le premier navigateur permet de navi-guer avec la souris. Les bases du succès sont là.

Plus de 15 ans plus tard, de nombreuses innovations, technologies etapplications ont fait d’Internet et du Web ce que vous en connaissez : unlieu de communication, d’information, de commerce, de divertissementqui donne l’impression que le monde entier est connecté et à portée demain. C’est d’ailleurs oublier un peu vite que si 69 % des Français ou 90 %des Danois sont connectés à Internet en 2010, c’est le cas de seulement12 % d’Algériens et 0.4 % d’Éthiopiens.

Figure A–8 Évolution du nombre d’internautes depuis 1995 (en millions de person-nes) dans le monde (source : www.internetworldstats.com).

Page 31: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010182

La gouvernance d’InternetQui dit réseau mondial dit, nécessairement, gouvernance mondiale.Certes, le besoin initialement formulé par les militaires d’avoir un réseaudifficile à bloquer a conduit au développement d’un réseau totalementdécentralisé et donc autonome. Mais les protocoles doivent être com-muns, les langages utilisés pour représenter les différents médias doiventêtre universels, et les adresses ne peuvent être attribuées qu’à un seul site.Une gouvernance à l’échelle de la planète est donc indispensable.

Et comme dans beaucoup de domaines, qui dit gouvernance mondiale dit,en pratique, main-mise américaine sur des enjeux mondiaux. Ainsi, auniveau de la gestion du réseau lui-même, l’attribution des adresses IP* (lesidentifiants uniques des machines) et des noms de domaines est de la res-ponsabilité d’une société californienne privée, l’ICANN (Internet Corpora-tion for Assigned Names and Numbers), en coopération contraignante avecle gouvernement américain.

Figure A–9 Pourcentage des personnes ayant accès à Internet, par régions, en 2009 (source : www.internetworldstats.com). Le taux pour l’ensemble de la planète est de 26,6 %.

Page 32: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

A – I n t e r n e t , c o m m e n t ç a m a r c h e ?

© Groupe Eyrolles, 2010 183

Le Forum sur la gouvernance d’Internet (IGF), une instance internationalemise en place sous la pression des Nations unies, a pour but d’associer tousles acteurs du domaine aux décisions, mais n’a aucun pouvoir décisionnaire.

Avec l’arrivée de nouvelles technologies permettant de connecter de nom-breux objets à Internet (l’ensemble des marchandises, par l’intermédiairedes puces RFID), cette gouvernance devient de plus en plus stratégique etpose de nombreuses questions d’éthiques. Il sera en effet possible de tracerles déplacements des biens, des marchandises et donc des personnes lesportant sur Internet (voir le chapitre 10).

Figure A–10 Répartition des internautes par régions du monde en 2010 (source : www.internetworldstats.com).

Pour en savoir plus Quelques référencesR Jacques Phillips, Réseaux Intranet et Internet, Ellipses,

avril 2010.De multiples statistiques sur Internet.B http://www.internetworldstats.com Des détails sur l’histoire et les aspects techniques d’Internet, et biend’autres choses.B http://www.livinginternet.com/

Page 33: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

annexe

© Groupe Eyrolles, 2010

B

Page 34: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

© Groupe Eyrolles, 2010

À l’intérieur d’un moteur de recherche

L’art et la manière de retrouver votre aiguille dans une gigantesque botte de foin.

Sommaire

B Comment les moteurs trouvent les documents en rapport avec nos requêtes

B Le PageRank, la formule qui a bouleversé la recherche sur le Web

B Les prochaines générations de moteurs de recherche

Page 35: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010186

D’un côté, vous et votre besoin d’information. De l’autre côté, des dizainesde milliards de documents. Au milieu, un moteur de recherche, sans lequelle Web serait comme la bibliothèque de Babel de Borges décrite ci-après:un gigantesque labyrinthe dans lequel toute la connaissance est présente,mais où il est impossible de trouver quoi que ce soit.

Rien de nouveau... Rechercher l’information, selon J.L. Borges

« Quand on proclama que la Bibliothèque comprenait tous les livres, la premièreréaction fut un bonheur extravagant. Tous les hommes se sentirent maîtres d’untrésor intact et secret. »« Sur quelque étagère de quelque hexagone, raisonnait-on, il doit exister un livrequi est la clef et le résumé parfait de tous les autres : il y a un bibliothécaire qui apris connaissance de ce livre et qui est semblable à un dieu. Dans la langue de cettezone persistent encore des traces du culte voué à ce lointain fonctionnaire. Beau-coup de pèlerinages s’organisèrent à sa recherche, qui un siècle durant battirentvainement les plus divers horizons. Comment localiser le vénérable et secret hexa-gone qui l’abritait ? [...] Il est certain que dans quelque étagère de l’univers ce livretotal doit exister. »« Comme tous les hommes de la Bibliothèque, j’ai voyagé dans ma jeunesse ; j’aiorganisé des pèlerinages à la recherche d’un livre et peut-être du catalogue descatalogues. »

Jorge Luis Borges, La Bibliothèque de Babel

Dans cette nouvelle étourdissante de Borges, cette Bibliothèque, qui contient tousles livres, des chaînes de caractères sans aucun sens jusqu’au volume qui, pense-t-on, délivre le sens de la vie, en passant par l’histoire complète de l’existence et de lamort de chacun d’entre nous, cet ensemble fini mais immense gardera tous sessecrets1. Dans la vie réelle, une masse de données moins impressionnante, maisnéanmoins de plus en plus considérable, et ayant pour sa grande majorité plus desens, est désormais disponible, et cela pour un nombre croissant d’individus. Et s’ilest heureux que le sens de la vie (ou le texte de ce mémoire) ne puisse être retrouvépar une simple exploration combinatoire de chaînes de caractères, les nécessitésplus terre à terre de la vie quotidienne imposent de fournir des mécanismes effica-ces pour rechercher de l’information utile dans un ensemble de documents.

1. La Bibliothèque de Babel est composée de l’ensemble des livres formés par toutes les com-binaisons de caractères appartenant à un alphabet fini, ces combinaisons ayant elles-mêmes une longueur maximale. L’ensemble obtenu est donc fini également ; il suffit pourtant de mettre bout à bout plusieurs ouvrages pour obtenir n’importe quel texte plus long.

Page 36: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

B – À l ’ i n t é r i e u r d ’ u n m o t e u r d e r e c h e r c h e

© Groupe Eyrolles, 2010 187

Rechercher dans les documents textuelsÀ l’exception de quelques techniques d’analyse d’image qui en sont encoreà leurs débuts, rechercher de l’information sur le Web équivaut à recher-cher du texte. Lorsque vous effectuez une recherche d’images ou devidéos, le moteur s’intéresse bien plus au texte environnant les objets mul-timédias (légende, titre, texte autour de la vidéo, etc.) qu’à l’objet lui-même. Voyons donc d’abord comment on parvient à retrouver des docu-ments correspondant à notre besoin, exprimé avec quelques mots-clés, aumilieu de dizaines de milliards de pages web.

Les documents vus comme un sac de motsÀ l’arrivée de l’informatique, les premiers chercheurs du domaine ontpensé que comprendre le sens des textes de façon automatique avec unordinateur était à portée de main. Quelques décennies plus tard, cetobjectif s’est nettement éloigné et l’on a recours à des techniques bien plusmodestes. Dans les moteurs de recherche actuels, l’organisation syn-

Figure B–1 Le moteur de recherche relie une masse de documents, représentée par un index, avec un besoin d’information exprimé par une requête, et propose une liste ordonnée de documents qui ont la similarité la plus élevée possible avec la requête.

Page 37: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010188

taxique et sémantique des phrases n’est pas du tout prise en compte, etl’ordre des mots n’a pas d’importance. On appelle ce modèle le sac demots. Dans un moteur de recherche, si vous souhaitez chercher des suitesde mots précises, vous devez l’indiquer vous-même en plaçant votrerequête entre guillemets.

Pour rechercher les mots-clés plus rapidement, on effectue une phased’indexation qui a lieu hors ligne. Cela signifie qu’elle est lancée avantl’intervention de l’utilisateur et de sa requête. Cette étape peut donc êtrerelativement longue, puisque personne n’en attend le résultat derrière sonordinateur.

L’index d’un moteur de recherche suit le même principe que l’index d’unlivre : pour chaque mot, on indique dans quels documents il apparaît.Ainsi, si l’on indexe l’ensemble des pièces de William Shakespeare, ontransformera les textes :

en une représentation indexée :

Document Texte

Hamlet Who’s there ?Nay, answer me : stand, and unfold yourself.Long live the king !...

Antony andCleopatra

Nay, but this dotage of our general’sO’erflows the measure: those his goodly eyes,That o’er the files and musters of the war...

... ...

Mot Documents

Who Hamlet ; The Tempest ; ...

and Antony and Cleopatra ; Hamlet ; The Tempest ; ...

answer Hamlet ; Julius Caesar ; ...

measure Antony and Cleopatra ; Hamlet ; ...

Page 38: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

B – À l ’ i n t é r i e u r d ’ u n m o t e u r d e r e c h e r c h e

© Groupe Eyrolles, 2010 189

Cela permet bien entendu d’accéder aux documents intéressants de façonbeaucoup plus rapide au moment de la requête, que si on les parcouraittous intégralement. Ainsi, pour connaître les documents qui contiennent àla fois le mot « answer » et le mot « measure », il suffit de les chercherdans l’index et de faire une comparaison entre les deux listes de docu-ments (ici, nous obtenons « Hamlet »).

Les mots ne sont pas égaux devant le moteur de rechercheIl est ensuite important d’être capable de pondérer les mots dans lesrequêtes et dans les documents. Supposons que notre requête soit « viede Napoléon ». Parmi ces trois mots, tous n’ont bien sûr pas la mêmeimportance. Tout d’abord, la préposition « de » n’est pas réellement por-teuse de sens et n’est d’aucune aide pour retrouver les documents perti-nents. On va donc la supprimer totalement des mots recherchés.

Ensuite, une première intuition est que les documents pertinents seront ceuxqui contiendront le plus d’occurrences des mots de la requête. Un documentcontenant «Napoléon » plusieurs fois sera probablement plus représentatifde ce thème qu’un document ne le contenant qu’une seule fois.

Mais cela doit être compensé par une seconde intuition : certains motssont fréquents dans beaucoup de documents, tout simplement parcequ’ils sont fréquents dans la langue. Ainsi, contrairement à « Napoléon »,le mot « vie » est un mot qui apparaît souvent dans de nombreux textes,et on ne peut pas vraiment dire qu’un document contenant plusieurs foisle mot « vie » est très représentatif de ce sujet. On dit que « Napoléon »est plus discriminant que « vie ».

nay Antony and Cleopatra ; Hamlet ; ...

files Antony and Cleopatra ; ...

... ...

Mot Documents

Page 39: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010190

Revenons à nos pièces de Shakespeare. Le tableau suivant montre lenombre d’occurrences de quelques termes :

On voit que « mercy » et « worser » ont le même nombre d’occurrencesdans Antony and Cleopatra. Pourtant, « worser » est plus discriminantpour ce document, car il est plus fréquent dans cette pièce que dans lesautres, contrairement à « mercy ».

D’autre part, on remarque tout de suite que « Caesar » est un terme trèsdiscriminant pour les pièces Antony and Cleopatra et Julius Caesar.

Pour tenir compte de ces constats, chaque mot se voit attribuer un poidsdans chaque document. Un mot peu fréquent en moyenne et très fré-quent dans un document particulier aura un poids fort dans ce document(il sera très discriminant pour ce document), tandis qu’un mot aussi fré-quent dans un document que dans les autres aura un poids plutôt faible.

Cette phase est donc effectuée hors ligne. La phase suivante, en ligne, con-siste à associer une requête et des documents en utilisant la pondérationeffectuée.

Faire le lien entre la requête et les documentsPour cela, on effectue un calcul de similarité entre la requête et chaquedocument. De nombreux modèles de recherche sont utilisés pour par-venir à ce résultat et nous n’entrerons pas dans les détails ici. Comme vous

Mot Antony and Cleopatra

Julius Caesar The Tampest Hamlet

Antony 157 73 0 0

Brutus 4 157 0 1

Caesar 232 227 0 2

Calpurnia 0 10 0 0

Cleopatra 57 0 0 0

mercy 2 0 3 5

worser 2 0 1 1

Page 40: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

B – À l ’ i n t é r i e u r d ’ u n m o t e u r d e r e c h e r c h e

© Groupe Eyrolles, 2010 191

l’avez deviné, le but est de trouver les documents pour lesquels les mots dela requête sont les plus discriminants, c’est-à-dire dont le poids est le plusfort. Cela permet d’obtenir une liste de documents ordonnés du plus simi-laire ou moins similaire à la requête.

Ce schéma classique de recherche d’information (indexation, pondération,similarité) est apparu il y a plusieurs dizaines d’années, lorsque les collectionsde textes étaient limitées à quelques centaines de fiches de bibliothèques, etest toujours utilisé actuellement. Mais l’arrivée d’Internet a bouleversé ledomaine, notamment avec l’introduction de la formule du PageRank..

Le PageRank, la formule qui a révolutionné la recherche sur le WebLes techniques de recherche d’information vues dans la section précé-dente souffrent de nombreuses lacunes dans le cas du Web. En effet, encomparaison de bases documentaires fermées et contrôlées, la Toile pos-sède des spécificités, parmi lesquelles :

• Les liens hypertextes. L’hypertexte transforme la base de documentsen un réseau dans lequel on peut naviguer en cliquant sur les liens.

• La multitude des auteurs. Tout le monde peut être à la fois lecteur etproducteur d’informations sur le Web. Ajouter son propre contenu estdevenu simple et gratuit, à travers les pages persos, les blogs, lesforums, les wikis... Si l’on s’en tient à de simples mesures quantitativessur les mots des documents, chacun est donc à égalité devant lemoteur de recherche.

• L’absence de contrôle. Comme nous l’avons expliqué parfois, le Webfourmille d’informations fausses et de rumeurs.

• Le spamming. Être bien classé par un moteur de recherche est souventun enjeu économique important et les créateurs de sites n’hésitent pasà modifier le contenu de leurs pages pour améliorer leur visibilité pourcertains mots-clés. Pour cela, il suffit par exemple d’augmenter artifi-ciellement le poids des mots-clés importants en les multipliant sur lapage en blanc sur fond blanc. Ainsi, l’utilisateur ne verra pas la diffé-rence, mais le moteur, lui, analysera ces mots.

Page 41: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010192

On ne peut donc pas se fier seulement au contenu des pages, ni se con-tenter des mesures de densité des mots, pour évaluer la pertinence desdocuments.

Le PageRank, algorithme proposé en 1998 par Larry Page et Sergei Brin, lesfuturs fondateurs de Google, va profondément modifier la recherche d’infor-mations sur le Web en incorporant à leur moteur la notion de confiance col-laborative en un site. L’idée est simple et intuitive, si on accepte de consi-dérer que plus un site est populaire, plus il est digne de confiance. Cettenotion de confiance collaborative conduit à utiliser les liens conduisant versune page (liens entrants) comme un indicateur de leur popularité.

Trois intuitions se combinent alors :1 Le nombre de liens entrants d’une page est révélateur d’une certaine

importance. Autrement dit, si beaucoup de gens m’écoutent, c’est queje dis des choses intéressantes.

2 Une page ayant un lien entrant provenant d’un site lui-même impor-tant (journal en ligne, grand site, portail, etc.) est plus importantequ’une page ayant des liens entrants provenant de sites peu impor-tants. Autrement dit, si je suis populaire, les gens dont je parle devien-nent populaires également.

3 Enfin, une page comportant de nombreux liens sortants va augmenterplus faiblement l’importance des pages pointées qu’une page ayantpeu de liens. Autrement dit, même si je suis populaire, parler peu debeaucoup de monde ne va pas les aider tant que cela.

C’est ainsi que se construit la formule du PageRank : d’une part, mon Page-Rank augmente avec mon nombre de liens entrants sur mon site, etd’autre part, je peux distribuer mon propre PageRank aux autres en insé-rant des liens sortants à ma page. Mais ce pouvoir d’influence est diffusé,c’est-à-dire que je dois partager mon capital à distribuer à l’ensemble despages vers lesquelles je souhaite pointer.

Pour les lecteurs préférant réfléchir en termes de probabilités, pensezplutôt que le PageRank représente la probabilité qu’un internaute cliquantau hasard parvienne à une page donnée P. Si beaucoup de liens condui-sent vers P, cette probabilité augmente, bien sûr. Quant à la page Q, qui estpointée par P, elle aura plus de chances d’être visitée si, d’une part, P estdéjà populaire et si, d’autre part, P pointe vers peu d’autres pages.

Page 42: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

B – À l ’ i n t é r i e u r d ’ u n m o t e u r d e r e c h e r c h e

© Groupe Eyrolles, 2010 193

Prenons l’exemple du réseau de sites de la figure ci-après (la valeur duPageRank est indiquée pour chaque page). On constate que la page D, quin’a aucun lien entrant, a une valeur très faible. La page C a de nombreuxliens entrants, et possède donc le PageRank le plus élevé. Enfin, la page An’a qu’un seul lien entrant, mais il s’agit d'un lien sortant de la page C, etelle bénéficie donc de son PageRank élevé.

Pour les amateurs de formules, voici celle du PageRank telle que proposéepar Page et Brin en 1998 :

avec :• Bu : ensemble des pages ayant un lien entrant sur la page u.• C(v) : nombre de liens sortants de la page v (chaque page diffuse son

vote de façon égale sur tous ses liens sortants).• d : facteur d’amortissement ; d vaut 0.85, donc une page n’ayant aucun

lien entrant aura un PageRank de 0.15.

Figure B–2 Exemple de calcul du PageRank

PR u( ) d PR v( )C v( )

--------------- 1 d–( )+

V Bu∈∑=

Page 43: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010194

Pour en savoir plus Les prochaines générations de moteurs de recherche

Si les moteurs de recherche sur le Web font actuellement l’affaire pourbeaucoup de requêtes, ils sont encore limités pour répondre à certainstypes de besoins d’information.Ainsi, concernant des questions précises, factuelles (questions en «qui »,«combien », «où », «quand », par exemple «Qui a remporté la NouvelleStar en 2007 »), l’utilisateur a besoin de transformer son besoin en une série demots-clés pertinents («nouvelle star 2007 »), puis le système lui renvoie desmilliers, voire des millions de documents susceptibles de contenir la réponse.L’internaute doit encore ouvrir les documents et les parcourir pour y trouverson renseignement. Les systèmes de recherche d’information précise, ou systè-mes de question-réponse, permettent à l’utilisateur de poser sa question en«langage naturel », c’est-à-dire une vraie question en français, et d’obtenir laréponse exacte en retour («Julien Doré »), ce qui lui évite de lire des pagesweb. De tels systèmes fonctionnent bien sur des petites collections de docu-ments bien écrits et doivent encore faire leurs preuves sur Internet.D’autres évolutions peuvent concerner des questions plus complexes, concer-nant des opinions ou des explications détaillées. Dans ce cas, bien répondre aubesoin demande de récupérer plusieurs parties de documents et de les agré-ger, voire d’en faire une synthèse. On s’approche alors d’applications comme lerésumé automatique d’un ou de plusieurs documents.Les recherches sur le dialogue entre l’utilisateur et le système sont un autreexemple des futures fonctionnalités des moteurs. Il vous arrive probablementsouvent de devoir modifier votre requête initiale pour réduire son ambiguïté,ajouter des informations ou changer des mots-clés. D’une part, un système dedialogue pourrait détecter lui-même les imperfections des requêtes etdemander des précisions à l’internaute. D’autre part, une véritable discussionpourrait s’instaurer, permettant à l’utilisateur de poser plusieurs questionsd’affilée sur le même sujet sans avoir à tout reprendre à chaque fois.Tous ces systèmes (et d’autres) nécessitent une compréhension bien plusfine des textes, des besoins des personnes et du langage que celle proposéepar le modèle « sac de mots ». Certaines applications commencent àémerger dans des systèmes à vocation grand public, d’autres ont sontencore au stade des laboratoires de recherche. Mais les moteurs que vousconnaissez sont appelés à s’améliorer encore...

Page 44: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

B – À l ’ i n t é r i e u r d ’ u n m o t e u r d e r e c h e r c h e

© Groupe Eyrolles, 2010 195

De nombreuses sociétés se sont spécialisées dans l’amélioration du Page-Rank et des résultats de recherche de leurs clients par des modifications destructure des sites et de recherche active de liens entrants.

Page 45: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

annexe

© Groupe Eyrolles, 2010

C

Page 46: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

© Groupe Eyrolles, 2010

La démarche de recherche

d’informations

Voici quelques exemples de besoins d’information réalistes et des moyens que l’on peut employer pour les satisfaire. Des travaux pratiques à faire en famille !

Sommaire

B Quelques conseils pour une bonne utilisation des moteurs de recherche

B Quelques exemples de requêtes

B Variez vos sources d’informations !

Page 47: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010198

La recherche d’informations sur le Web commence très souvent par unmoteur de recherche. Et très souvent par Google. Elle devrait plutôt com-mencer par quelques secondes de réflexion sur notre besoin d’informationset sur le meilleur moyen de le satisfaire. Internet est-il le meilleur endroit pourobtenir une information objective et complète concernant ma question ?Quel outil dois-je utiliser pour effectuer ma recherche ? Quels mots-clés dois-je employer ? Une fois la requête lancée, les résultats doivent également êtreobservés avec précautions, comme le montre la figure ci-après.

Ce n’est qu’en connaissant les outils à notre disposition et les différentstypes de contenus présents sur le Web que nous saurons en tirer profitsans nous laisser manipuler par les opérations commerciales et idéologi-ques de tous poils.

Voici quelques exemples de stratégies à adopter en fonction du typed’informations que nous souhaitons obtenir.

Figure C–1 Les étapes d’une recherche d’information réfléchie et efficace.

Page 48: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

C – L a d é m a r c h e d e r e c h e r c h e d ’ i n f o r m a t i o n s

© Groupe Eyrolles, 2010 199

Trouver un bon restaurant végétarien à ToulouseVoici un besoin qui se situe dans la problématique générale de larecherche locale. Vous avez besoin d’un service ou d’une information surun lieu particulier. Vous souhaitez également avoir des avis d’utilisateurvous permettant de faire votre choix, ainsi qu’une localisation précise duservice (ici, le restaurant végétarien) sur une carte.

Essayons d’abord une requête « restaurant végétarien Toulouse » surGoogle.

Nous obtenons bien quelques restaurants végétariens, ainsi que leur locali-sation sur une carte. Il s’agit de liens vers le site officiel de chaque restau-rant, ce qui peut être utile pour voir les menus, les prix et les coordonnéesprécises, mais qui ne permettra pas d’avoir des avis de consommateursayant déjà essayé le lieu. Nous avons également des liens sponsorisés àdroite, qui ne doivent pas être confondus avec des résultats du moteur derecherche lui-même.

Figure C–2 Faire le tri dans les résultats de recherche.

Page 49: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010200

Voyons maintenant ce que donne la même requête sur un moteur spécia-lisé dans la recherche géolocalisée, en l’occurrence Nomao.

Nous obtenons alors plus de restaurants, avec leurs coordonnées et leuremplacement sur la carte. Ces restaurants sont classés grâce aux avisfournis par les consommateurs, et des liens sont disponibles pour lire lescommentaires des internautes.

Moralité ? Pour certains besoins précis, mieux vaut utiliser un outil dédiéplutôt que de se diriger immédiatement vers les moteurs de recherche tra-ditionnels. Et c’est toujours ça que Google ignorera sur votre vie privée...

Figure C–3 Le moteur de recherche locale Nomao classe selon les avis des consom-mateurs.

Page 50: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

C – L a d é m a r c h e d e r e c h e r c h e d ’ i n f o r m a t i o n s

© Groupe Eyrolles, 2010 201

Quels sont les acteurs qui ont reçu un césar ?Voici typiquement un besoin qui sera sans aucun doute satisfait par l’ency-clopédie en ligne Wikipédia (voir le chapitre 6). Pour rechercher directe-ment dans l’encyclopédie, vous pouvez utiliser le moteur de recherche dusite, mais aussi imposer à Google de se cantonner aux pages de Wikipédia.

Une fois que la page Wikipédia sur les césars du cinéma est trouvée, lesommaire vous conduit au palmarès par catégories.

Cela vous amène à la page consacrée aux césars du meilleur acteur, quiliste bien entendu l’ensemble des acteurs ayant reçu la récompense, dansl’ordre chronologique.

Figure C–4 Pour une recherche sur Wikipédia, il est possible d’utiliser la zone de recherche du site.

Page 51: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010202

Moralité ? Pour ce type de requêtes très factuelles et très simples,Wiki-pédia est un bon point d’entrée. Mais n’attendez pas beaucoup plus d’elle !

Figure C–5 Vous pouvez également imposer à Google de rechercher seulement les pages d’un site précis, grâce à l’opérateur « site: »

Figure C–6 Vous trouverez souvent des informations factuelles simples sur Wikipédia.

Page 52: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

C – L a d é m a r c h e d e r e c h e r c h e d ’ i n f o r m a t i o n s

© Groupe Eyrolles, 2010 203

Recherche sur les Jeux olympiques 2010Cette requête ne pose pas de problème particulier, nous l’avons choisiepour illustrer l’intérêt des méta-moteurs de recherche. Prenons le casd’Ixquick, une start-up néerlandaise qui a reçu de la Commission euro-péenne le « sceau européen de la vie privée ». En effet, Ixquick ne conservepas l’adresse IP* de ses utilisateurs et ne communique aucune donnée per-sonnelle à personne.

Le rôle d’un méta-moteur est de lancer votre requête sur différents moteurs derecherche et d’en agréger les résultats. Si cette agrégation est performante, lemeilleur de chaque outil peut être utilisé. De plus, il est possible de réordonnerles résultats en fonction du nombre de systèmes qui ont renvoyé chaque page.C’est ce qui arrive pour notre requête «jeux olympiques 2010 », dont le pre-mier résultat, par exemple, provient de 5 moteurs différents.

Figure C–7 La page Wikipédia sur le César du meilleur acteur

Page 53: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010204

Faut-il sortir de l’euro ?Cette question est sensible et très actuelle. C’est pourquoi il est nécessairede faire très attention aux éléments comme la date, l’auteur et le type desite qui héberge les pages renvoyées par les moteurs de recherche. Commetous les sujets qui provoquent des opinions différentes, il faut visiter denombreux sites pour obtenir un tableau aussi complet que possible de laquestion. Il faut également apprendre à faire la part des choses, entre lescommentaires construits et objectifs et les prises de position purementidéologiques qui apportent souvent peu de choses à un observateur exté-rieur qui souhaite simplement se renseigner.

Il est difficile d’extraire des mots-clés vraiment pertinents pour notrebesoin d’information, et nous proposons de taper directement notre ques-tion dans le moteur Yahoo! Search.

Observons les premiers résultats (voir figure C-9). Tout d’abord, on voitque les deux premiers proviennent du même site, ainsi que le troisième etle quatrième.

Le premier lien ① pointe en fait vers un texte payant dont l’auteur est uneétudiante en droit de niveau avancé. Des informations pour le moins insuf-fisantes pour estimer que le document en vaut la peine ! D’autant plusqu’il date de 2004, ce qui est plutôt ancien.

Figure C–8 Avec les méta-moteurs, les résultats des différents moteurs sont agrégés, ce qui permet souvent une meilleure pertinence.

Page 54: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

C – L a d é m a r c h e d e r e c h e r c h e d ’ i n f o r m a t i o n s

© Groupe Eyrolles, 2010 205

Éliminons donc cette page et cliquons sur le lien suivant . De nouveau unpeu ancien (2006), le document est écrit par un professeur d’université, ce

Figure C–9 Observons bien les résultats du moteur avant de cliquer sur les liens...

Figure C–10 Payer pour un document dont on ne connaît pas la valeur, est-ce bien utile ?

Page 55: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010206

qui est a priori un gage de sérieux. Cependant, on peut voir (dans l’URL dulien ou sur la page d’accueil) que le blog se nomme Sortir de l’euro. Celanous montre que le blog est orienté vers une opinion particulière. Bienentendu, cela ne suffit pas à remettre en cause le bien-fondé de l’article,mais nous laisse penser, par exemple, qu’un texte en faveur de l’euro nepourrait pas être publié sur le site. Soyons-en conscients en lisant cettepage, et continuons nos recherches.

Nous arrivons maintenant au lien vers une question posée sur le site«Yahoo! Answers » il y a 3 ans. Dans ce site, n’importe quel internautepeut répondre aux questions, et l’auteur de la question choisit ensuite lameilleure réponse.

Si ce type de sites peut conduire à des informations pertinentes sur denombreux domaines, une question très technique et très discutée commela nôtre débouche souvent sur des commentaires sans intérêt. C’est mal-heureusement le cas ici.

Il est bien entendu intéressant de parcourir les blogs et les textes decitoyens lambda proposant des opinions fortes et même parfois un peuextrêmes. Mais il est également indispensable de prendre connaissance desavis des experts, ainsi que des synthèses des journalistes. Celles-ci n’arri-vent qu’à la deuxième page de résultats de Yahoo!.

Figure C–11 Les sites militants sont bien entendu intéressants, mais ne suffisent pas à se forger une opinion.

Page 56: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

C – L a d é m a r c h e d e r e c h e r c h e d ’ i n f o r m a t i o n s

© Groupe Eyrolles, 2010 207

Figure C–12 Les commentaires d'internautes ne méritent pas toujours la place qu'ils ont sur le Web...

Figure C–13 Sur la deuxième page de résultats, on commence enfin à trouver ce que l'on cherche...

Page 57: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010208

Moralité ? Beaucoup de requêtes méritent que vous ne vous contentiezpas de la première page de résultats, et que vous preniez la peine de réflé-chir à la pertinence des résultats par rapport à votre besoin initial.

Comment gérer les paramètres de confidentialité de Facebook ?Comme nous vous l’avons dit au chapitre 4, les paramètres de confidentia-lité de Facebook ont beaucoup changé au fil du temps. De plus, ce sujet adonné lieu à de très nombreux commentaires sur la Toile, des plus perti-nents aux plus ineptes. C’est pourquoi il est nécessaire d’être très prudentet de bien étudier les résultats des moteurs de recherche si vous souhaitezdes informations utiles sur le sujet. Voici ce que renvoie Google pour larequête « paramètres de confidentialité Facebook ».

Figure C–14 Même Google se trompe parfois ! Et les moteurs de recherche renvoient parfois des informations périmées.

Page 58: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

C – L a d é m a r c h e d e r e c h e r c h e d ’ i n f o r m a t i o n s

© Groupe Eyrolles, 2010 209

Le premier résultat est une question d’internaute qui a peu d’intérêt et pasde réponse. Les deux suivants ne sont pas datés. Il s’avère en lisant lespages qu’il s’agit de commentaires obsolètes datant de plusieurs années.Dans la première page, seul le quatrième lien est à la fois récent(31 mai 2010, après la mise en place des paramètres actuels) et pertinent(un mode d’emploi pour les options de Facebook). Les suivants datentde 2009, ce qui est déjà trop ancien.

Moralité ? Regardez bien les métadonnées des documents, comme ladate, le nom de l’auteur ou le type de site. Ils sont précieux pour estimer lapertinence des pages renvoyées par les moteurs de recherche !

Pour en savoir plus Quelques référencesR Véronique Mesguich et Armelle Thomas, Net Recherche 2009,

ADBS éditions Paris, 2009.Pour les enfants : Aide à la recherche d’informations sur Internet, aucollège et au lycée, actes du cinquième colloque Hypermédias etapprentissages.B http://hal.archives-ouvertes.fr/docs/00/00/21/14/PDF/

HyperAp5p167.pdfA Picture of Search. Greg Pass, Abdur Chowdhury and Cayley Torge-son. First International Conference on Scalable Information Systems,2006.B http://citeseerx.ist.psu.edu/viewdoc/

download?doi=10.1.1.92.3074&rep=rep1&type=pdf

,

Page 59: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

annexe

© Groupe Eyrolles, 2010

adresse IP (Internet Protocol) : numéro unique qui identifie chaquemachine connectée sur Internet, et en particulier nos ordinateurs. Lesadresses IP sont regroupées en classes, qui sont en général localisées géo-graphiquement, même si cette localisation est imparfaite. Voir annexe A.

Ajax (Asynchronous JavaScript and XML) : solution d’utilisation conjointede diverses technologies, Ajax permet une communication entre le client(notre navigateur) et le serveur (un site web) sans obligation de rechargerla page visitée. Les informations peuvent donc être mises à jour rapide-ment en fonction de vos actions sur votre navigateur (voir annexe A).

cheval de Troie : type de logiciel malveillant introduit dans un ordinateurdans le but de lui faire effectuer certaines actions à l’insu de ses utilisa-teurs. Il s’agit d’un bon moyen de lancer des attaques et d’envoyer du spamsans craindre d’être débusqué (voir chapitre 9).

client : ordinateur connecté à un réseau et demandant des services à unserveur, connecté également au réseau (voir annexe A).

DGlossaire

Page 60: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010212

code source : ensemble d’instructions écrites dans un langage de program-mation et destinées à être interprétées par un ordinateur, le tout compo-sant un programme informatique. Si le logiciel est libre* (par exemple, lenavigateur Firefox), le code source est distribué en même temps que l’outil,ce qui permet de le corriger ou de l’améliorer. Par opposition, les logicielsdits propriétaires (Windows, par exemple) se comportent comme desboîtes noires que l’on ne peut pas modifier.

cookie : fichier installé sur votre ordinateur par le serveur d’un site quevous visitez, dans le but de conserver des informations sur vous durantvotre navigation ou entre deux sessions. Ces informations peuvent con-cerner par exemple votre connexion à un site sécurisé, pour ne pas vousréclamer votre mot de passe régulièrement, ou des renseignements survotre activité sur le Web, dans le but de mieux cibler la publicité qui vousest envoyée (voir chapitre 2).

exaoctet : 1.15 milliard de milliards d’octets.

extension Firefox : une extension (ou module) Firefox est un petit outilque vous pouvez ajouter au navigateur Firefox dans le but d’y joindre unefonctionnalité qui n’existe pas sur le logiciel de base1. Ce mécanismed’extension est permis par le fait que Firefox est un logiciel libre. De nom-breux problèmes d’atteinte à la vie privée présentés dans ce livre peuventêtre résolus grâce à des extensions Firefox (voir les chapitres 2 et 6), c’estpourquoi nous conseillons l’utilisation de ce navigateur.

flux RSS : procédé permettant à un internaute de s’abonner à un blog ou àun journal en ligne et d’être averti en temps réel des nouveaux articlespubliés.

hameçonnage : l’hameçonnage, ou phishing, est une technique de fraudesur Internet consistant à se faire passer auprès de vous pour un tiers en quivous avez confiance dans le but de vous soutirer des informations person-nelles, comme un mot de passe ou un code de carte bleue (voirchapitre 9).

HTML (HyperText Markup Language) : langage, format de données utilisépour représenter les pages web sur Internet. HTML permet de structurer etde mettre en forme les pages. Le navigateur est chargé d’interpréter ce lan-

1. https://addons.mozilla.org/fr/firefox/

Page 61: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

D – G l o s s a i r e

© Groupe Eyrolles, 2010 213

gage et de l’afficher de façon à faciliter la lecture par l’humain (voirannexe A).

hypertexte : un document hypertexte est un document contenant deshyperliens permettant de se déplacer d’une partie de texte à une autre,que ce soit à l’intérieur du même document ou d’un document à l’autre.Le Web est un système hypertexte puisque les documents contiennent desliens permettant la navigation.

Google bombing : le bombardement Google est une technique consistantà détourner les mécanismes de référencement utilisés par Google, en par-ticulier les liens hypertextes, dans le but de faire renvoyer certaines pagesweb pour une requête précise sur Google (voir annexe C).

JavaScript : langage de programmation pour les pages web, permettantde modifier les pages en fonction des actions des utilisateurs (contraire-ment au HTML simple, qui ne permet que des pages statiques - voirannexe A).

log (ou journal): fichier gardant la trace de l’exécution d’un processusinformatique. Dans le cas des moteurs de recherche, les logs permettentde conserver la trace des requêtes effectuées par les utilisateurs.

logiciel libre : logiciel dont le code source* peut être librement exécuté,copié, distribué, étudié, modifié et amélioré, par opposition au logiciel pro-priétaire dont le concepteur empêche de consulter le code et ne permetque l’exécution.

messagerie instantanée (ou chat) : outil permettant de converser defaçon instantanée entre deux ou plusieurs ordinateurs distants reliés àInternet. MSN est le logiciel le plus utilisé.

méta-moteur : outil de recherche permettant de regrouper les résultatsde plusieurs moteurs de recherche à partir d’une seule recherche (voirannexe C).

PageRank : formule prenant en compte la popularité des pages web pouraméliorer les résultats d’un moteur de recherche (voir annexe B).

phishing : voir hameçonnage.

pop-up : fenêtre secondaire du navigateur, plus petite, qui s’affiche avec ousans sollicitation de l’utilisateur.

Page 62: Se protéger sur Internet - Fnacmultimedia.fnac.com/multimedia/editorial/pdf/9782212127744.pdf · Se protéger sur Réseaux sociaux et moteurs de recherche. Contrôle parental. Réputation

S E P R O T É G E R S U R IN T E R N E T

© Groupe Eyrolles, 2010214

pop-under : fenêtre secondaire qui s’affiche sous la fenêtre courante, dansle but d’être découverte au moment de fermer le navigateur.

post : article écrit sur un blog, commentaire déposé sur un forum.

référencement : le référencement d’un site web représente sa capacité àêtre bien classé par les moteurs de recherche pour des requêtes stratégi-ques pour son activité (par exemple, « four micro-ondes » pour un ven-deur d’électroménager en ligne).

réseau social : un site de réseau social permet aux utilisateurs inscritsd’être en contact avec leurs amis ou leurs connaissances privées ou profes-sionnelles, et qui propose des fonctionnalités permettant d’agrandir ceréseau et de maintenir les contacts.

serveur : ordinateur connecté à un réseau et proposant des services à desclients, d’autres machines connectées au même réseau (voir annexe A).

spam : message électronique non sollicité et non souhaité (voirchapitre 9).

URL : identifiant unique d’une page web. Elle est composée du protocolede communication utilisé (par exemple http), du nom de la machine, ounom de domaine sur laquelle la page se trouve (par exemplewww.eyrolles.com), puis des répertoires et du fichier :

http://www.eyrolles.com/Accueil/Aide/index.html.

virus : un virus informatique est un logiciel malveillant introduit sur unordinateur à l’insu de ses utilisateurs pour en perturber le fonctionnement(voir chapitre 9).

wiki : un wiki est un site web dont les pages sont modifiables par ses utili-sateurs (après connexion ou non). L’encyclopédie Wikipédia est le wiki leplus populaire, mais les wikis sont très utilisés pour tous types de travauxcollaboratifs.