Il y a quelques jours une personne de mon entourage professionnel m’a demandé d’installer Apache Solr sur un server et de le coupler avec le plugin Drupal.
Je n’avais pas encore fait d’installation d’Apache Solr et je n’avais pas encore eu l’occasion de mesurer les potentialités de ce « moteur » d’indexation et de recherche.
C’est à partir de ce moment que j’ai commencé à m’y intéresser et voir de plus près son fonctionnement. Après quelques tests j’ai donc décidé, convaincu des capacités et performances de ce logiciel, de l’utiliser sur d’autre sites et remplacer la recherche fulltext de Mysql.
A vrai dire, la chose qui m’a le plus intéressé, n’est pas seulement d’améliorer la recherche sur le site mais d’utiliser cette technique pour proposer des liens des contenus similaires sur chaque ‘article/page’ du site à l’aide du scoring retourné par Apachesolr.
J’avais déjà fait quelque chose de ce genre en utilisant le fulltext Mysql et dans 70% des cas les résultats étaient satisfaisants.
En gros, pour pouvoir faire ceci, je cherche le contenu de la page sur l’ensemble de la base de données indexées, et ApacheSolr (ou Mysql en full texte) me retourne des résultats triés par scoring de pertinence.
J’aimerais compléter et enrichir cette méthode de « auto-linking » en utilisant des tags (auto-créés) à la place du contenu complet de la page et enfin étendre ce concept pour proposer des contenus multimédiaux (audio/vidéo/image) en plus du texte.
C’est ici que ma recherche des API sémantiques a démarré.
Ma recherche a pour le moment abouti principalement sur 2 API, Open Calais et Zemanta, mais je pense tester aussi le web service Term Extraction de Yahoo et choisir ensuite lequel je vais adopter pour auto-tagguer le contenu du site et utiliser ensuite les tags créés comme matière première pour la création automatique de « auto-linking ».
Voici en image le processus.
![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=ac0e0e4b-fae1-4306-b38e-a4007f5e8d59)
j’aime et je bookmark, merci pour cet article