Cigarette électronique : les modèles
Des modèles supervisés sont construits et évalués pour identifier les promoteurs de cigarettes électroniques sur Twitter . Les deux profils bio et les tweets récents jouent un rôle dans l’amélioration des performances des modèles.
Les promoteurs peuvent être identifiés avec un score F de 91 % et une précision de 96 %. Les promoteurs soulignent de façon disproportionnée les saveurs des cigarettes électroniques, leurs aspects sans fumée et de réduction des méfaits potentiels, et leur utilisation revendiquée pour cesser de fumer.
RésuméContexte Les cigarettes électroniques (e-cigarette ou e-cigs) sont un produit du tabac émergent populaire. Comme les e-cigs ne génèrent pas de produits toxiques de combustion du tabac qui résultent de la cigarette ordinaire, ils sont parfois perçus et promus comme une solution de rechange moins nocive au tabagisme et aussi comme un moyen d’arrêter de fumer. Cependant, l’innocuité des e-cigs et leur efficacité à soutenir l’abandon du tabac n’ont pas encore été déterminées. Fait important, l’administration fédérale des médicaments (FDA) ne réglemente actuellement pas les e-cigs et, à ce titre, leur fabrication, leur commercialisation et leur vente n’est pas assujettie aux règles qui s’appliquent aux cigarettes traditionnelles. Un certain nombre de fabricants, de défenseurs et d’utilisateurs d’e-cig font activement la promotion des e-cigs sur Twitter.
Objectif Nous développons un modèle prédictif supervisé de haute précision pour identifier automatiquement les « promoteurs » e-cig sur Twitter et analyser la variation quantitative de leur comportement de tweet sur des thèmes populaires par rapport aux autres utilisateurs de Twitter (ou tweeters).
Méthodes À l’aide d’un jeu de données de 1000 profils Twitter annotés indépendamment par deux annotateurs différents, nous avons utilisé une variété de fonctionnalités textuelles provenant du dernier contenu de tweet et de la biographie du profil de tweeter pour créer des modèles prédictifs permettant d’identifier automatiquement les tweeters des promoteurs. Nous avons utilisé un ensemble de phrases clés créées manuellement pour analyser les tweets des promoteurs e-cig à partir d’un corpus de plus d’un million de tweets e-cig le long de thèmes e-cig bien connus et comparé les résultats avec ceux générés par des tweeters réguliers.
Résultats Notre modèle identifie les promoteurs de l’e-cig avec une précision de 97 %, un rappel de 86 %, un score F de 91 % et une précision globale de 96 %, avec des intervalles de confiance serrés de 95 %. Nous constatons que, contrairement aux tweeters réguliers qui forment plus de 90 % de l’ensemble de données, les promoteurs d’e-cig sont un sous-ensemble beaucoup plus petit, mais tweeter deux à cinq fois plus que les tweeters ordinaires. Les promoteurs soulignent également de façon disproportionnée (un à deux ordres de grandeur de plus) les saveurs e-cig, leurs aspects sans fumée et de réduction des méfaits potentiels, ainsi que leur utilisation alléguée dans le renoncement au tabac.
Conclusions Étant donné que la FDA est en train de proposer une réglementation significative, nous croyons que notre travail démontre le fort potentiel des approches informatiques, en particulier l’apprentissage automatique, pour la surveillance électronique automatisée sur Twitter.
Voir plus d’informations : http://www.sciencedirect.com/science/article/pii/S1532046416000460