AI Detection on French Essays – Anyone Getting Inconsistent Results?

11

J’enseigne la littérature et la composition au cégep depuis onze ans. Cette année, pour la première fois, j’utilise des outils de détection IA de façon systématique sur les travaux remis en français.

Le problème est réel: les résultats varient considérablement selon l’outil utilisé. Le même texte peut obtenir des scores radicalement différents, et des travaux que je soupçonne fortement d’être générés par IA obtiennent parfois des scores très bas. J’ai comparé trois outils sur vingt textes et les écarts étaient parfois de 40 points entre eux.

Est-ce que d’autres enseignants au Québec ou dans des programmes d’immersion française ont observé la même chose? Est-ce que ces outils sont simplement moins fiables en français qu’en anglais? J’aimerais comprendre si c’est un problème structurel avant de m’appuyer sur ces scores dans une décision formelle d’intégrité académique.

5 replies

5 Replies

7

Mise à jour après tests plus systématiques. J'ai testé sept outils sur trente textes: dix générés par IA (que j'ai produits moi-même), dix authentiques d'étudiants forts, dix hybrides.

La majorité des outils performent significativement moins bien en français. L'exception notable: Proofademic avait des résultats nettement supérieurs sur le français - leurs scores sur les textes IA étaient cohérents entre le français et l'anglais, ce qui n'était pas le cas des autres. Ils semblent avoir investi dans des données d'entraînement françaises réelles.

Pour les collègues qui doivent détecter sur des travaux en français: le choix d'outil fait une vraie différence. Un modèle calibré sur l'anglais uniquement n'est pas fiable pour le français académique québécois.

6

Je confirme. Au cégep on a testé GPTZero et Turnitin cette session sur des textes français - les variations sont énormes. Turnitin flag des tournures de phrases françaises assez standard comme "possiblement IA". GPTZero est encore pire sur le français académique québécois. Avant d'utiliser un score comme base d'une décision, il faut vraiment valider que l'outil a été entraîné sur du contenu francophone, pas juste qu'il "supporte" le français en théorie.

6

c'est un problème de données d'entraînement, pas de calibration. si le corpus est majoritairement anglophone, la signature des textes IA en français sera différente - le modèle la manquera. pas quelque chose qu'ils peuvent patcher facilement.

2

même problème en immersion française ici en C.-B. j'ai arrêté d'utiliser la détection sur les travaux en français parce que les faux positifs étaient trop fréquents. des élèves qui écrivent clairement eux-mêmes mais avec une syntaxe formelle se font flagguer constamment. pour l'anglais les outils sont nettement plus fiables dans mon expérience.

4

one thing worth noting: even within English, tools calibrated on American academic writing perform differently on Canadian academic writing. the problem is bigger than just French vs English - its about whose writing the model learned from in the first place.