Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Le prix de la dédup par tenant ratio Chiffré

Scoper la dédup au tenant coûte 2 à 8 % de stockage selon le profil — et achète cinq propriétés structurelles : oracle confiné, crypto compartimentée, facturation exacte, GC borné, certifiabilité. L'assurance coûte moins cher que son propre argument de vente.

D’où vient la dédup — la hiérarchie des sources

  • 1. Temporelle (la même machine, snapshot après snapshot) — la source écrasante : 99 %+ d'une machine ne change pas d'un jour à l'autre. C'est elle qui produit les ratios de l'ordre de 10× et plus observés en production (Wallace et al., FAST'12, 10 000+ systèmes Data Domain). → Intacte avec le scoping tenant.
  • 2. Intra-machine — les doublons au sein d'un poste, significatifs (Meyer & Bolosky, FAST'11, 857 postes Microsoft). → Intacte.
  • 3. Inter-machines du même tenant — les OS/applis communs de la flotte, les documents partagés, les « 100 VMs du même template ». → Intacte — c'est précisément notre périmètre.
  • 4. Inter-tenants — entre entreprises différentes. → Tout ce qu'on perd est ici.

Chiffrer la perte — trois profils

Que partagent deux entreprises qui ne se connaissent pas ? Pas leurs documents — essentiellement les fichiers système et logiciels communs, plus quelques coïncidences (installateurs, PDF publics).

ProfilMécaniquePerte estimée
NAS / serveur de fichiers (cœur de cible)Données propres à chaque entreprise, doublons inter-tenants marginaux≤ 2-3 %
Postes de travail completsLes ~20-40 Go d’OS+applis dédupliquent déjà dans le tenant ; la perte = une copie du corpus par tenant (~30-60 Go)~0,5 % (tenant 10 To) à 5-10 % (micro-tenant de 3 postes — le pire cas)
VMs (section P)Le template déduplique intra-tenant ; perte = la première copie des blocs OS par tenantquelques dizaines de Go / tenant
Le verdict chiffré 2 à 8 % de stockage en plus selon le profil — vers le bas pour les gros tenants NAS, vers le haut pour les micro-tenants de postes. Le facteur ~10× de la dédup temporelle + intra-tenant est intégralement préservé : on perd quelques pourcents du résidu, pas un multiple. En euros : 5 % sur un tenant de 100 To = 5 To ≈ 50-80 € de disque dur. C'est la prime d'assurance.

Ce que la dédup globale coûterait, elle

L’autre plateau de la balance — structurel, pas marginal :

  • L'oracle global — l'attaque par confirmation contre tous les clients à la fois. Précédent historique : après l'attaque DropShip (2011, bâtie sur les travaux de Harnik), Dropbox a désactivé sa dédup inter-utilisateurs — l'industrie a déjà payé pour apprendre. Vendre « chiffré côté client » avec un oracle global est intenable.
  • La crypto — dédup globale = CK unique mondiale : rayon de souffle d'une compromission = tout le monde, et l'attrition par époques devient impraticable.
  • La facturation exacte — « qui paie le chunk partagé entre deux revendeurs ? » n'a pas de bonne réponse ; notre quota exact repose sur la propriété exclusive.
  • Le GC borné — l'avantage structurel (mark-and-sweep par tenant, sans verrou) dépend de la propriété tenant des chunks.
  • Les certifications — la localisation EEE de HDS et la résidence par client exigent de savoir où sont les données de qui — impossible dans un pool global.

Note honnête : des schémas intermédiaires existent dans la littérature (dédup « par popularité » à seuil — un chunk ne devient partagé qu’au-delà de N détenteurs). Complexité réelle, gain marginal sur nos 2-8 % : écartés.

Références : Meyer & Bolosky, FAST’11 ; Wallace et al., FAST’12 ; Harnik et al. 2010, déjà cité.