Capture-Recapture

Méthode capture-recapture appliqué à la victimologie Cyber

2 months ago

16 min read

Méthode capture-recapture appliquée à la victimologie cyber

CRC — WP1 · 2024

1. Objet de la note

Cette note propose une adaptation de la méthode capture-recapture à l’estimation de la prévalence de la victimisation cyber en France, dans une perspective de victimologie appliquée. L’idée de fond est simple : les victimes de cyberinfractions ne sont jamais entièrement visibles dans une seule source. Certaines se tournent vers la police, d’autres vers une plateforme d’assistance, d’autres encore vers leur banque, leur assurance, leur service informatique ou ne déclarent rien du tout. La méthode capture-recapture vise précisément à estimer une population partiellement cachée à partir du recouvrement entre plusieurs sources incomplètes. Elle a été largement utilisée en écologie, puis transposée à l’épidémiologie et à l’estimation de populations difficiles à mesurer. (PMC)

Dans le cas de la cybervictimisation, l’intérêt méthodologique est évident : les chiffres observés dans les bases administratives ou les dispositifs d’assistance ne correspondent qu’à une fraction des victimes réelles. La France dispose aujourd’hui de plusieurs flux de signalement ou d’assistance qui attestent d’une intensification de la menace, mais aucun ne constitue à lui seul un recensement exhaustif de la victimisation cyber. Cybermalveillance.gouv.fr signale par exemple une forte hausse des demandes d’assistance liées aux violations de données et à l’hameçonnage, tandis que l’ANSSI rappelle dans ses panoramas que la menace cyber continue de se renforcer, notamment autour des extorsions et des compromissions. (CYBERMALVEILLANCE.GOUV.FR)

L’objectif du présent document n’est donc pas de produire un chiffre définitif “clé en main”, mais de fournir au WP1 un cadre méthodologique robuste, scientifiquement défendable, pour construire une estimation raisonnée de la prévalence de la victimisation cyber en France à partir du modèle Lincoln-Petersen, de sa correction de Chapman, et, si le protocole s’élargit dans le temps, de l’extension de Schnabel. Ces estimateurs sont bien documentés dans la littérature méthodologique capture-recapture. (PMC)

2. Pourquoi utiliser la capture-recapture en victimologie cyber ?

La victimologie cyber souffre d’un problème structurel : la sous-déclaration. Une cybervictime peut ne pas identifier les faits comme infraction, ne pas savoir vers qui se tourner, préférer une résolution privée, craindre un coût réputationnel, ou considérer que la plainte n’apportera rien. Ce phénomène est encore accentué lorsque les faits sont diffus, techniquement ambigus ou perçus comme “mineurs” : phishing, compromission de compte, fraude en ligne, extorsion par données, arnaque sentimentale numérique, usurpation, attaque contre TPE, etc. Les données observées sont donc des captures partielles d’une population cachée. La littérature méthodologique montre justement que la capture-recapture est utile lorsque le recensement exhaustif est impraticable et que plusieurs sources incomplètes, avec recouvrement, sont disponibles. (PMC)

Pour la cybervictimisation en France, on peut imaginer plusieurs sources potentielles :

plaintes ou pré-plaintes ;
signalements ou demandes d’assistance à Cybermalveillance.gouv.fr ;
données d’assureurs cyber ou fraude ;
incidents enregistrés par certains opérateurs ou CERT sectoriels ;
enquêtes de victimation ;
données bancaires ou fraude instrumentale, selon accès et cadre juridique.

L’idée n’est pas de fusionner naïvement ces sources, mais de les utiliser pour estimer la part non observée de la population totale de victimes.

3. Principe général du modèle Lincoln-Petersen

Le modèle Lincoln-Petersen est le modèle capture-recapture à deux sources. On observe deux “captures” successives de la même population cible.

On note :

n1 : nombre d’individus capturés dans la source 1 ;
n2 : nombre d’individus capturés dans la source 2 ;
m2 : nombre d’individus présents dans les deux sources, c’est-à-dire le recouvrement.

L’estimateur classique de la taille totale de la population est :

Son intuition est simple : si le recouvrement est important, cela suggère que les deux sources couvrent une grande part de la même population, donc que la population totale n’est pas très grande. Si le recouvrement est faible, cela suggère qu’une partie importante de la population reste invisible, donc que la population totale est plus élevée. Ce principe est au cœur de l’approche capture-recapture. (PMC)

Exemple conceptuel

Supposons qu’en France, sur une période donnée :

10 000 victimes apparaissent dans la source A ;
8 000 victimes apparaissent dans la source B ;
2 000 victimes apparaissent dans les deux sources.

Alors :

L’estimation de la population totale de victimes serait donc de 40 000 sur la période considérée.

Mais cet estimateur brut est connu pour être biaisé lorsque les effectifs sont faibles ou lorsque le recouvrement est limité. C’est pourquoi, en pratique, on préfère souvent la correction de Chapman. (PMC)

4. Estimateur de Chapman

L’estimateur de Chapman corrige le biais du Lincoln-Petersen, surtout pour les petits échantillons. Il s’écrit :

Sa variance estimée est généralement donnée par :

et l’intervalle de confiance approximatif à 95 % peut ensuite être construit selon la formule usuelle :

La littérature méthodologique en épidémiologie et en estimation de population présente Chapman comme une correction classique et prudente du modèle à deux sources. (PMC)

Exemple

Avec les mêmes nombres :

(n_1 = 10,000)
(n_2 = 8,000)
(m_2 = 2,000)

on obtient :

Dans ce cas, comme les effectifs sont grands, la correction change peu le résultat. Mais lorsque le recouvrement est faible, elle devient méthodologiquement importante.

5. Extension de Schnabel

Lorsque l’on dispose de plus de deux occasions de capture sur une population supposée fermée pendant la période d’étude, on peut utiliser une extension de type Schnabel. Le principe consiste à répéter les captures au fil du temps et à exploiter l’ensemble des recouvrements cumulés. La littérature décrit le Schnabel estimateur comme une extension du cadre Lincoln-Petersen à plusieurs échantillons. (PMC)

Dans une adaptation à la victimologie cyber, Schnabel devient particulièrement intéressant si l’on travaille :

par mois ;
par vagues successives d’enquête ;
ou par fenêtres temporelles courtes de signalement.

Cela permet de lisser certains aléas, mais à condition de conserver une hypothèse de quasi-fermeture de la population sur la période retenue, ou au moins une fenêtre assez courte pour que les entrées/sorties ne faussent pas excessivement l’estimation. La littérature rappelle justement que l’une des hypothèses clés de la capture-recapture est celle d’une population fermée, ou traitée comme telle à l’échelle choisie. (PMC)

6. Hypothèses fondamentales de la capture-recapture

La méthode repose sur plusieurs hypothèses classiques. Elles sont bien identifiées dans la littérature épidémiologique et méthodologique. (PMC)

6.1. Population fermée

Entre les deux captures, la population ne doit pas changer de façon importante : pas d’entrées massives, pas de sorties massives, pas de disparition différentielle des unités. En victimologie cyber, cette hypothèse est délicate si la fenêtre est longue, car de nouvelles victimes apparaissent continuellement. La solution consiste à travailler sur une période courte et définie, par exemple un trimestre, un mois, ou une campagne spécifique.

6.2. Appariement correct des individus

Il faut être capable d’identifier qu’une victime observée dans la source A est la même que celle observée dans la source B. En cybervictimologie, c’est un défi majeur, car il faut concilier :

protection des données ;
pseudonymisation ;
qualité d’appariement ;
erreurs de doublons et quasi-doublons.

6.3. Indépendance des sources

La probabilité d’être observé dans la source B ne doit pas dépendre du fait d’avoir été observé dans la source A. C’est une hypothèse particulièrement fragile en matière cyber. Par exemple, une victime ayant contacté Cybermalveillance peut ensuite être davantage incitée à porter plainte ; inversement, une plainte policière peut orienter vers un dispositif d’assistance. Une dépendance positive tend à réduire artificiellement l’estimation totale, tandis qu’une dépendance négative tend à l’augmenter. La littérature rappelle que, dans le cas à deux sources, cette hypothèse ne peut pas vraiment être testée sans information supplémentaire. (PMC)

6.4. Homogénéité des probabilités de capture

Chaque individu devrait avoir la même probabilité d’être capturé par chaque source. Cette hypothèse est presque toujours violée en pratique. En cybervictimisation, un grand groupe, une administration, une TPE, un particulier âgé ou un jeune adulte n’ont pas la même probabilité de signalement ou de recours. Il faut donc prévoir des stratifications.

7. Spécificités et difficultés propres à la victimologie cyber

C’est ici que l’adaptation CRC devient vraiment intéressante.

7.1. L’unité d’analyse doit être définie avec rigueur

Que cherche-t-on à estimer ?

le nombre de victimes personnes physiques ?
le nombre de victimes organisations ?
le nombre de faits ?
le nombre d’épisodes de victimisation ?
le nombre de victimes uniques par type d’infraction ?

Cette décision change tout. Une même victime peut subir plusieurs épisodes, plusieurs attaques, ou un continuum de faits liés. En capture-recapture, il faut une unité clairement stable. Pour WP1, le plus défendable est souvent de choisir soit :

la victime unique sur une période donnée, soit
l’épisode de victimisation défini par une fenêtre temporelle et une qualification donnée.

7.2. La cybervictimisation est hétérogène

Le phishing, le rançongiciel, l’arnaque au faux support, la compromission de compte, l’usurpation d’identité et la fuite de données n’ont pas la même dynamique de signalement. Une estimation globale de “la victimisation cyber” risque donc d’être trop grossière. Il est méthodologiquement préférable de raisonner par familles homogènes de victimisation.

7.3. Les sources ne capturent pas le même phénomène social

La police capte un fait juridiquement problématisé. Une plateforme d’assistance capte souvent un besoin d’aide. Une assurance capte un sinistre assuré. Une banque capte une fraude financière. Un CERT capte un incident technique. Le recouvrement entre ces sources ne va pas de soi : il faut vérifier qu’elles se rapportent bien à une même population cible conceptuelle.

7.4. Les cascades de signalement créent des dépendances

En matière cyber, une même victime passe souvent d’un acteur à l’autre. C’est un problème central de biais.

8. Proposition de design CRC pour la France

Je te propose un design méthodologique prudent, réaliste et défendable.

8.1. Population cible

Selon le sous-projet, choisir l’une des deux options :

Option A — Victimes individuelles

Personnes physiques résidant en France ayant subi, pendant une période définie, un épisode de victimisation cyber appartenant à une catégorie donnée.

Option B — Organisations victimes

Organisations établies en France ayant subi un incident cybervictimisant défini selon un protocole donné.

Je déconseille de mélanger personnes physiques et organisations dans une même estimation initiale.

8.2. Fenêtre temporelle

Choisir une période courte et fermée :

un trimestre ;
six semaines ;
un mois ;
ou une vague d’événements.

Plus la période est longue, plus l’hypothèse de fermeture devient fragile.

8.3. Sources possibles

Pour une première étude pilote, le plus réaliste serait un modèle à deux sources :

Source A : dispositif d’assistance ou de signalement de type Cybermalveillance.gouv.fr ;
Source B : flux judiciaire/police/gendarmerie ou enquête de victimation ad hoc, selon faisabilité.

Cybermalveillance constitue une source intéressante car il s’agit d’un dispositif national structuré, en forte croissance, avec un volume significatif de demandes d’assistance. (CYBERMALVEILLANCE.GOUV.FR)

8.4. Appariement

L’appariement devra être construit sur une base pseudonymisée à partir de variables comme :

date ou semaine de l’événement ;
type de fait ;
âge ou classe d’âge ;
département ou région ;
sexe, si pertinent ;
modalité d’attaque ;
catégorie socio-professionnelle ou type d’organisation ;
identifiant chiffré dérivé si juridiquement possible.

Il faudra prévoir un protocole clair de matching probabiliste ou de matching déterministe restreint, avec audit du taux d’erreur.

9. Formules opérationnelles pour le protocole

9.1. Estimation principale

Utiliser Chapman comme estimateur principal :

9.2. Variance

9.3. Intervalle de confiance

9.4. Taux de couverture observée

Le taux de couverture des deux sources combinées peut être approximé par :

Cela permet d’évaluer quelle part de la population estimée a effectivement été observée.

10. Exemple appliqué fictif

Supposons une étude pilote sur les victimes d’hameçonnage financier en France sur 3 mois.

Source A : 12 000 victimes observées
Source B : 9 000 victimes observées
Recouvrement : 3 000 victimes appariées

Estimateur de Chapman

Population observée combinée

Couverture observée

On conclurait alors qu’environ la moitié seulement des victimes auraient été observées à travers les deux sources réunies.

Ce type de résultat serait très utile victimologiquement, non pour prétendre à l’exactitude absolue, mais pour objectiver l’ampleur de la zone sombre.

11. Stratification recommandée

Comme l’hypothèse d’homogénéité des captures est presque toujours violée, il faut prévoir des stratifications. La littérature sur la capture-recapture en santé publique insiste sur l’importance de traiter l’hétérogénéité plutôt que de l’ignorer. (PMC)

Stratifications possibles

type de cybervictimisation ;
particuliers / professionnels ;
micro-entreprises / grandes organisations ;
classes d’âge ;
sexe ;
région ;
canal de signalement ;
sévérité du dommage ;
présence d’un dommage financier ou non.

Bon principe

Faire des estimations séparées par strates homogènes, puis agréger si besoin, plutôt qu’une estimation globale grossière.

12. Biais méthodologiques majeurs

12.1. Dépendance positive entre sources

Exemple : une victime conseillée par Cybermalveillance est ensuite plus susceptible de porter plainte. Cela augmente artificiellement le recouvrement et sous-estime (N).

12.2. Dépendance négative

Exemple : une victime résout le problème avec un acteur privé et ne saisit jamais une autre source. Cela réduit le recouvrement et surestime (N).

12.3. Hétérogénéité de capture

Les victimes les plus graves ou les plus informées sont surreprésentées.

12.4. Erreurs d’appariement

faux appariement : deux victimes distinctes considérées comme une seule ;
non-appariement : une même victime considérée comme deux cas différents.

Les deux erreurs affectent fortement l’estimation.

12.5. Population non fermée

La cybervictimisation évolue vite ; si la fenêtre est trop longue, l’estimation perd sa cohérence.

12.6. Mauvaise définition de l’unité

Mélanger faits, victimes et incidents fausse toute l’analyse.

13. Place de Chapman, Schnabel et Lincoln-Petersen dans le protocole CRC

Lincoln-Petersen

À utiliser comme base pédagogique et comme estimateur simple dans les présentations conceptuelles.

Chapman

À utiliser comme estimateur principal pour l’analyse à deux sources.

Schnabel

À réserver :

aux suivis multi-vagues ;
aux fenêtres successives courtes ;
ou à une phase 2 du projet, si plusieurs captures temporelles sont disponibles.

Cette hiérarchie est méthodologiquement cohérente avec les usages décrits dans la littérature. (PMC)

14. Proposition de protocole CRC — version terrain

Étape 1 — Définition du phénomène

Choisir une victimisation précise :

phishing bancaire ;
compromission de compte ;
ransomware TPE ;
escroquerie au faux support ;
etc.

Étape 2 — Définition de l’unité

Victime unique ou épisode unique.

Étape 3 — Fenêtre temporelle

Par exemple 1er janvier–31 mars.

Étape 4 — Sélection de deux sources

Choisir deux flux suffisamment comparables et juridiquement exploitables.

Étape 5 — Construction du protocole d’appariement

Codebook, règles de matching, contrôle qualité.

Étape 6 — Comptages

(n_1)
(n_2)
(m_2)

Étape 7 — Estimation

Calcul de Chapman + variance + IC.

Étape 8 — Analyse de sensibilité

Refaire l’estimation selon :

règles d’appariement plus strictes / plus souples ;
strates ;
hypothèses alternatives sur la dépendance.

Étape 9 — Interprétation prudente

Présenter le résultat comme une estimation sous hypothèses, pas comme un chiffre absolu.

15. Analyse de sensibilité indispensable

Une étude sérieuse en victimologie cyber ne doit jamais livrer une seule estimation brute. Il faut au minimum produire :

une estimation centrale ;
une estimation sous matching strict ;
une estimation sous matching élargi ;
une estimation par strates principales ;
un commentaire sur le sens probable du biais si les sources sont dépendantes.

C’est particulièrement important parce que, dans le cas à deux sources, l’indépendance ne peut pas être réellement testée sans information supplémentaire. (PMC)

16. Limites et précautions d’interprétation

Il faut être très clair : la capture-recapture ne “révèle” pas magiquement le chiffre vrai. Elle produit une estimation conditionnelle à des hypothèses fortes. En cybervictimologie, ces hypothèses sont souvent plus fragiles qu’en écologie classique.

Le protocole est donc crédible si, et seulement si :

le phénomène est bien circonscrit ;
la fenêtre est courte ;
l’unité d’analyse est claire ;
l’appariement est rigoureux ;
les strates sont cohérentes ;
l’analyse de sensibilité est documentée.

Sans cela, on obtient un chiffre spectaculaire mais scientifiquement fragile.

17. Apport scientifique pour le WP1

Malgré ces limites, la méthode a un intérêt majeur pour le CRC.

Elle permet :

d’objectiver la zone sombre de la cybervictimisation ;
de comparer la visibilité institutionnelle de différents types de faits ;
de mesurer l’écart entre données observées et prévalence estimée ;
de renforcer l’argument scientifique sur la sous-déclaration ;
de proposer une méthodologie transposable à d’autres axes victimologiques.

Elle peut aussi nourrir :

la politique publique ;
la réflexion sur les parcours de signalement ;
la coordination institutionnelle ;
la conception d’enquêtes hybrides associant flux administratifs et enquêtes de victimation.

18. Formulation académique prête à l’emploi

Cette étude propose une adaptation de la méthode capture-recapture à l’estimation de la prévalence de la victimisation cyber en France. À partir de deux sources incomplètes décrivant une même population cible sur une période définie, l’estimation principale repose sur le modèle de Lincoln-Petersen corrigé par Chapman, plus robuste en présence d’effectifs modestes ou d’un recouvrement limité. L’analyse tient compte des hypothèses classiques de la capture-recapture — fermeture de la population, indépendance des sources, homogénéité des probabilités de capture et qualité de l’appariement — tout en discutant les biais spécifiques à la victimologie cyber, notamment la sous-déclaration, l’hétérogénéité des parcours de signalement et la dépendance entre dispositifs institutionnels. Lorsque plusieurs vagues temporelles sont disponibles, une extension de type Schnabel peut être envisagée.

19. Conclusion

L’adaptation de la capture-recapture à la victimologie cyber est méthodologiquement exigeante, mais tout à fait pertinente. Le modèle Lincoln-Petersen fournit l’architecture simple, Chapman en constitue la version opérationnelle la plus prudente à deux sources, et Schnabel ouvre la voie à des estimations multi-vagues. La vraie difficulté n’est pas mathématique ; elle est épistémologique et pratique : bien définir la victime, bien définir l’épisode, bien choisir les sources, bien apparier, bien stratifier, et surtout ne jamais oublier que l’on estime une population cachée à partir de traces institutionnelles imparfaites. La littérature méthodologique sur la capture-recapture souligne précisément que la puissance de la méthode dépend étroitement du respect — ou au moins de la discussion honnête — de ses hypothèses. (PMC)

Références méthodologiques de base

Braeye T, et al. Capture-Recapture Estimators in Epidemiology with Applications to Pertussis and Pneumococcal Invasive Disease Surveillance. Article de synthèse méthodologique sur les estimateurs et hypothèses en épidémiologie. (PMC)

Bird SM, King R. Multiple Systems Estimation (or Capture-Recapture Estimation) to Inform Public Policy. Discussion méthodologique utile sur les extensions multi-sources et les limites de l’indépendance. (PMC)

Mukadam N, et al. Estimating undiagnosed dementia in England using capture-recapture. Rappel clair des quatre hypothèses majeures de la méthode. (PMC)

McIntyre AF, et al. Population Size Estimation From Capture-Recapture Studies. Présentation des approches et diagnostics associés. (PMC)

capture-recapture

admin

View all posts