Le prix de la dédup par tenant ratio Chiffré
Scoper la dédup au tenant coûte 2 à 8 % de stockage selon le profil — et achète cinq propriétés structurelles : oracle confiné, crypto compartimentée, facturation exacte, GC borné, certifiabilité. L'assurance coûte moins cher que son propre argument de vente.
D’où vient la dédup — la hiérarchie des sources
- 1. Temporelle (la même machine, snapshot après snapshot) — la source écrasante : 99 %+ d'une machine ne change pas d'un jour à l'autre. C'est elle qui produit les ratios de l'ordre de 10× et plus observés en production (Wallace et al., FAST'12, 10 000+ systèmes Data Domain). → Intacte avec le scoping tenant.
- 2. Intra-machine — les doublons au sein d'un poste, significatifs (Meyer & Bolosky, FAST'11, 857 postes Microsoft). → Intacte.
- 3. Inter-machines du même tenant — les OS/applis communs de la flotte, les documents partagés, les « 100 VMs du même template ». → Intacte — c'est précisément notre périmètre.
- 4. Inter-tenants — entre entreprises différentes. → Tout ce qu'on perd est ici.
Chiffrer la perte — trois profils
Que partagent deux entreprises qui ne se connaissent pas ? Pas leurs documents — essentiellement les fichiers système et logiciels communs, plus quelques coïncidences (installateurs, PDF publics).
| Profil | Mécanique | Perte estimée |
|---|---|---|
| NAS / serveur de fichiers (cœur de cible) | Données propres à chaque entreprise, doublons inter-tenants marginaux | ≤ 2-3 % |
| Postes de travail complets | Les ~20-40 Go d’OS+applis dédupliquent déjà dans le tenant ; la perte = une copie du corpus par tenant (~30-60 Go) | ~0,5 % (tenant 10 To) à 5-10 % (micro-tenant de 3 postes — le pire cas) |
| VMs (section P) | Le template déduplique intra-tenant ; perte = la première copie des blocs OS par tenant | quelques dizaines de Go / tenant |
Ce que la dédup globale coûterait, elle
L’autre plateau de la balance — structurel, pas marginal :
- L'oracle global — l'attaque par confirmation contre tous les clients à la fois. Précédent historique : après l'attaque DropShip (2011, bâtie sur les travaux de Harnik), Dropbox a désactivé sa dédup inter-utilisateurs — l'industrie a déjà payé pour apprendre. Vendre « chiffré côté client » avec un oracle global est intenable.
- La crypto — dédup globale = CK unique mondiale : rayon de souffle d'une compromission = tout le monde, et l'attrition par époques devient impraticable.
- La facturation exacte — « qui paie le chunk partagé entre deux revendeurs ? » n'a pas de bonne réponse ; notre quota exact repose sur la propriété exclusive.
- Le GC borné — l'avantage structurel (mark-and-sweep par tenant, sans verrou) dépend de la propriété tenant des chunks.
- Les certifications — la localisation EEE de HDS et la résidence par client exigent de savoir où sont les données de qui — impossible dans un pool global.
Note honnête : des schémas intermédiaires existent dans la littérature (dédup « par popularité » à seuil — un chunk ne devient partagé qu’au-delà de N détenteurs). Complexité réelle, gain marginal sur nos 2-8 % : écartés.
Références : Meyer & Bolosky, FAST’11 ; Wallace et al., FAST’12 ; Harnik et al. 2010, déjà cité.