Définition de TF-IDF

— 7 minutes de lecture
Définition de TF-IDF : occurrence et rareté d'un mot pour le SEO

Le TF-IDF est relativement peu connu dans l’univers du référencement naturel. Pourtant, c’est un indicateur qui peut être très utile dans le cadre de la mise en place d’une stratégie de contenu. C’est en partie pour cette raison que les algorithmes de certains outils SEO reposent sur le fameux score TF-IDF. Mais, de quoi s’agit-il concrètement ? Comment le détermine-t-on ? Comment peut-il être interprété ? Est-il réellement efficace ? Dans ce guide sur le TF-IDF, je vous présente les réponses à ces différentes questions.

Qu’est-ce que le TF-IDF ?

TF et IDF sont deux indicateurs qui signifient respectivement Terme Frequency et Inverse Document Frequency. Le TF désigne la fréquence à laquelle un terme donné est utilisé dans un document. Sa méthode de calcul est la même que celle qui permet de déterminer la densité d’un mot-clé dans un texte. On divise simplement le nombre d’occurrences du mot concerné dans le texte par le nombre total de mots du texte.

L’IDF quant à lui est relatif à l’importance d’un terme donné dans un ensemble de documents.

En résumé, le TF-IDF est donc un score qui sert à mesurer la pertinence d’un mot ou d’un terme clé dans un article en se basant sur sa rareté dans un ensemble de pages. Il est très précis, car son utilisation permet d’écarter les mots vides qui apparaissent en très grand nombre dans tous les textes, quelle que soit la thématique traitée.

Comment est-il calculé ? Quelle est sa formule ?

La formule du TF-IDF combine celle des deux indicateurs qui la composent.

La formule TF*IDF
La formule TF*IDF

Elle s’écrit comme suit :

  • Wx,y désigne le score de pertinence d’un terme x quelconque dans un document y (TF-IDF) ;
  • TFx,y désigne la fréquence du terme x dans le document y ;
  • DFx désigne le nombre de documents contenant x ;
  • N est le nombre total de documents.

Voici un exemple pratique pour que vous puissiez mieux comprendre.

On souhaite déterminer le score de pertinence du terme « netlinking » dans un article de 1000 mots qui contient l’expression 25 fois. Le TF donne 0,025 (soit 25/1000).

On considère à présent que le site internet concerné possède 1000 pages et que le terme netlinking apparaît dans 100 d’entre elles. Le calcul de l’IDF donne : log (1000/10) = 2.

Le score TF-IDF de notre terme est donc le résultat de l’opération 0,025*2, ce qui donne 0,05.

Comment l’interprète-t-on ?

Dans une analyse, deux éléments peuvent faire varier plus une moins significativement le TF-IDF : l’occurrence d’un terme dans un document donné et le nombre de documents dans lequel le terme se trouve. Ainsi, plus le score TF-IDF d’un mot-clé est élevé, plus il est pertinent d’un point de vue lexical.

Mais, pour bien interpréter le résultat d’une analyse TF-IDF, il faut le comparer avec d’autres résultats. Par exemple, si pour un même document, un terme A présente un score de 5 et un terme B un score de 3, alors cela signifie que A est le mot-clé le plus important/pertinent dans le contexte de l’analyse. C’est sur un principe similaire (mais beaucoup plus complexe) que les algorithmes explorateurs de contenu se basent pour catégoriser les articles par thématique et par mots-clés.

Quand peut-on l’utiliser ?

De nombreux spécialistes SEO et webmasters utilisent le TF-IDF pour comparer le degré d’optimisation de leur contenu avec celui des articles les mieux référencés sur la page de résultats de Google (les 10 premiers résultats). De cette manière, ils peuvent corriger les insuffisances de leur stratégie de mots-clés afin de la rendre efficace et performante. Cependant, pour que cette démarche soit efficace, elle doit être réalisée seulement dans certains cas. Lesquels ?

Lorsqu’un contenu à forte valeur ajoutée est bloqué en deuxième page

Il n’est pas rare qu’un contenu à fort potentiel reste bloqué sur la deuxième page de Google malgré toutes les actions d’optimisation mises en œuvre pour le propulser : netlinking, optimisation technique, balisage, mise à jour régulière… Dans ce cas, le problème peut être lié à une optimisation sémantique insuffisante (un mot-clé principal très peu exploité par exemple).

Pour pallier cette insuffisance, il suffit de faire une analyse TF-IDF du mot-clé concerné sur chacun des sites positionnés sur la première page du moteur de recherche afin de savoir ce qui manque au contenu qu’on souhaite propulser. Grâce aux résultats de cette analyse, l’on pourra aisément ajuster la stratégie de mots-clés du site internet bloqué en deuxième page afin qu’il monte dans la SERP.

Attention aujourd’hui les algorithmes de Google ont progressé, ils sont devenus bien plus intelligents qu’avant. Le TF IDF reste un élément à prendre en compte mais il ne doit pas être la seule donnée à regarder lorsque l’on souhaite optimiser ses contenus.

Lorsqu’un contenu perd progressivement son classement

Apparaître en première page de Google, c’est une chose. Mais réussir à conserver ce positionnement sur le long terme, c’en est une autre. En effet, puisque la compétition est très rude et que l’algorithme du moteur de recherche est en constante évolution, une page peut perdre à petit coup son classement si elle ne maintient pas un degré d’optimisation sémantique très élevé.

Ici, l’analyse TF-IDF permet d’identifier ce qui est à la base du déclassement et d’agir rapidement pour l’endiguer.

Lorsqu’une page de vente a du mal à ranker sur des mots-clés

Le TF-IDF n’est pas seulement utile pour les contenus informatifs ou les articles de blog. Il peut être aussi utilisé pour l’optimisation du contenu textuel d’une page de vente. Dans ce cas précis, l’analyse comparative doit être faite avec d’autres pages de vente (ou fiches produits) qui rankent bien sur le mot-clé visé.

Comment faire une analyse TF-IDF ?

Il existe de nombreux outils SEO qui permettent de déterminer avec exactitude le TF-IDF d’un mot-clé en une fraction de seconde : les plus connus sont Ryte et Link Assistant. Mais pour pouvoir les utiliser, il vous faut d’abord passer par un analyseur de SERP afin de recueillir des données sur le top 10 des sites les mieux positionnés sur les mots-clés que vous visez. Ce sont ces données que vous exporterez dans l’outil d’analyse TF-IDF pour obtenir les résultats de l’analyse comparative.

TF-IDF, ce qu’il faut retenir

Même si l’analyse TF-IDF semble être pertinente pour l’optimisation de contenu, il convient de la prendre avec des pincettes, et cela pour plusieurs raisons. En effet, il s’agit d’une approche primitive, extrêmement simpliste, qui ne prend pas en compte les synonymes, les intentions de recherche et les objectifs de rédaction. C’est tout le contraire des algorithmes des moteurs de recherches qui ont beaucoup évolué ces dernières années. Ils peuvent repérer les synonymes et même prendre en compte le contexte lexical pour savoir si deux mots sont censés parler de la même chose ou pas, ce que le TF-IDF ne fait pas.

En conclusion, je suggère de ne pas se baser exclusivement sur le TF-IDF pour optimiser le contenu d’un site, car il peut y avoir des biais. Par contre, ce score peut être très utile dans le cadre de l’analyse du niveau d’optimisation sémantique d’un texte à potentiel élevé qui a du mal à ranker.