Indexation | Habefast
En informatique, on parle surtout d’indexation automatique de documents. Mais qu’est-ce que c’est ? C’est une méthode logicielle qui sert à organiser des documents pour faciliter la recherche de contenu, comme un système de classement de bibliothèque mais informatique. Selon le type de documents à classer, vidéo, textes, media ou autre, les approches d’indexation peuvent différer.
Google par exemple utilise un index de référencement pour classer et organiser les différents sites web qui sont sur le moteur de recherche. Le référencement Google a pour but de permettre un affichage pertinent par rapport aux recherches des utilisateurs du web.
Chaque document est associé à ce qu’on appelle des métadonnées (titre, date de parution, auteur, catégorie…) ce qui aide à indexer ces différents documents. Mais ces métadonnées ne sont pas toujours précises ou représentatives. C’est pour cette raison que l’indexation informatique se base également sur le contenu pour pouvoir mieux le classer. D’où l’importance de la sémantique et de l’utilisation de mots clés. Cela permet de classer un document en fonction de catégories et de thèmes. L’algorithme Google se base d’ailleurs essentiellement sur le contenu pour classifier les différentes pages web et les indexer.
L’indexation automatique est plus que nécessaire car le nombre de données sur le web ne cesse d’augmenter, et des informations diverses et variées sont exposées tous les jours. Il faut donc réussir à classer les données selon leurs similarités pour pouvoir faciliter les recherches des internautes.
Indexation de textes :
Pour indexer un texte sur le web, on va surtout se concentrer sur les mots les plus utilisés qui logiquement font partie du thème principal de la page, en intégrant bien sûr des filtres. Logiquement, les mots qui apparaissent le plus sont « et », « de », « les », etc. De ce fait, on filtre ces mots fréquents mais vides de sens, pour pouvoir trouver les mots porteurs de sens les plus fréquents.
Indexation d’images :
Elles sont indexées de deux façons : soit par leurs métadonnées, c’est-à-dire leur titre ou autre information textuelle à leur sujet, soit par leur apparence, c’est-à-dire les formes, les couleurs, le graphisme, etc.
Indexation sonore et vidéo:
Comme pour les images, les contenus sonores ou vidéos peuvent être classés en fonction de leurs métadonnées, ou autrement en fonction de données comme leur durée ou encore leur auteur.