Analyse de la présence Web

Publié le 28 juin 2011

Les projets d’étudiants se sont terminés aujourd’hui avec un forum. De beaux projets ont été présentés toute la journée. Parmi eux, un projet que j’ai co-encadré avec Corinne Le Moan, concernant l’extraction d’informations personnelles depuis le web public.

Que peut-on extraire comme information sur vous et votre entreprise depuis le web ?

Les étudiants ont planché sur la question. Leur but ? Enrichir des profils d’utilisateurs du service mobile Opportuner. Cette application de matchmaking professionnel (un « meeting » opportuniste pro) permet de favoriser les rencontres professionnelles lors de salons, forums ou plus généralement dans des espaces comme les halls d’aéroports où des rencontres professionnelles sont possibles, potentiellement riches, mais pas toujours évidentes à rencontrer.

Leur état de l’art listant les sources d’information, principalement les réseaux sociaux, mais aussi les blogs, Wikipédia, PeerIndex, ou encore les sites officiels d’entreprise est disponible. (lien)

« Le développement de l’outil de profiling a consisté à extraire les informations disponibles sur Internet. Pour ce faire, la voie la plus simple est l’utilisation de l’API, si elle existe, du site, qui permet à l’aide d’une clé d’obtenir simplement les informations voulues. Ainsi, nous avons implémenté l’extraction de données de LinkedIn, Twitter et Facebook, et nous avons classé ces données dans une base de données que nous avons définie. Néanmoins, pour les sites ne disposant pas d’API, nous avons utilisé la méthode de parsing, afin d’extraire l’information depuis les pages html. Enfin, pour extraire les mots-clés de textes longs concernant la personne ou l’entreprise, que l’on peut par exemple trouver sur des blogs, nous avons implémenté un algorithme permettant d’extraire les mots ou groupes de mots les
plus récurrents. Notre programme permet donc, en prenant en entrée le nom d’une personne ou d’une entreprise, de ressortir des informations la concernant disponibles sur Internet.

Leur conclusion :

  • Profiling d’une personne : les différents réseaux sociaux sont très complémentaires, LinkedIn pour un cv riche et des informations de carrière, Twitter pour comprendre les centres d’intérêt et PeerIndex pour mesurer la eRéputation. Facebook n’apporte pas vraiment d’informations supplémentaires, mais s’avère utile s’il est le seul réseau social utilisé.
  • Profiling d’une entreprise : pour les grandes entreprises, Wikipédia et LinkedIn sont les plus riches et détaillent les spécialités, taille de l’entreprise. Pour les plus petites, telles que des start-ups, les blogs ou encore LinkedIn de façon marginale, peuvent être utiles. Les sites officiels des entreprises sont plus difficiles à analyser, surtout s’ils sont conçus en flash. Cependant les meta-données associées au site dans les balises html sont simples et efficaces à utiliser si elles existent.

En savoir plus : http://opportuner.com, Etat de l’art, l’intervention des élèves sur la Wiki Radio de Telecom Bretagne (à partir de la minute 11:35).

 


Les commentaires sont fermés sur cet article.

Derniers articles

Nuage de tags

a-brest Analyse d'opinions analyse de réseaux sociaux Analysis of social network apprentissage automatique book Canopédia communautés en ligne cours Détection de communautés e-learning emarketing Facebook Flixster Folksonomies grands graphes réels hypergraphes information society informatique LUSSI machine learning MapReduce mathématique Mazadoo Mazadoo2.0 modèles Médias Sociaux Ontologies OpenID Opinion analysis Opinion mining Personnes âgées recommendation systems réseaux complexes réseaux d'entraide Semantic Web Social tagging Social Web système de recommendation séniors Thesauri Twitter virtual communities web2.0 éco-pratiques

Meta

Cécile Bothorel est fièrement propulsé par WordPress et le thème SubtleFlux traduit par WordPress tuto.

Copyright © Cécile Bothorel.