Les mèmes haineux s’attaquant aux communautés LGBTQ+ parviennent souvent à échapper à la détection en modifiant soit la légende, soit l’image, ou les deux. Dans cette étude, nous avons construit le premier benchmark de robustesse pour évaluer comment ces mèmes peuvent être dissimulés, en associant quatre attaques de légendes réalistes à trois types de dégradations d’images, testés sur le jeu de données PrideMM.
Des Détecteurs aux Tests Rigoureux
Nous avons choisi d’examiner deux des détecteurs les plus avancés disponibles actuellement, à savoir **MemeCLIP** et **MemeBLIP2**. Ces modèles ont servi de cas d’étude pour tester leur résilience face à des attaques ciblées.
✓ **Comportement Différent :** Tout en dégradant plus lentement, MemeCLIP montre une robustesse générale. En revanche, MemeBLIP2 est particulièrement vulnérable aux modifications de légende, ce qui nuit à sa capacité de traitement linguistique.
Le Text Denoising Adapter (TDA) : Une Innovation Ciblée
Pour améliorer la résilience de MemeBLIP2, nous avons introduit un nouvel outil appelé le **Text Denoising Adapter (TDA)**.
✓ **Renforcement de la Robustesse :** L’ajout du TDA permet de restaurer certaines faiblesses observées dans MemeBLIP2, faisant de ce modèle le plus robuste de notre analyse.
✓ **Influence des Choix Architecturaux :** Nos ablations montrent que bien que tous les systèmes dépendent fortement du texte, les choix architecturaux et les données de pré-entraînement jouent un rôle clé dans la robustesse des modèles analysés.
Résultats et Perspectives pour la Sécurité en Ligne
Notre benchmark met en lumière les faiblesses des modèles de sécurité multimodaux existants. Il est évident que des modules légers et spécifiques, comme le TDA, offrent des voies prometteuses pour renforcer la protection contre les contenus nuisibles.
Pour l’avenir, il sera crucial d’adapter ces techniques et d’engager des recherches approfondies afin d’assurer une défense robuste contre les mèmes haineux, tout en protégeant les communautés vulnérables en ligne.