Fonctionnement d’AZOT¶
Comment l’installer?¶
Les prérequis indispensables sont les suivants:
newspaper (pour le web scraping)
nltk (pour le traitement des textes)
système de gestion de base de données No-SQL:
- mongodb, il faut aussi installer mongoengine
- couchdb. Il nécessite le plugin couchdbpython
Ceci étant fait, le projet peut être cloné sur ce lien.
Avant toute exécution, il faut s’assurer que le fichier de configuration config.ini continne les bonnes informations:
- nom du système de gestion de base de données adopté (mongodb ou couchdb, commenter celui qui n’est pas utilisé
- nom de la base de donnée
- les chemins de log et de stopwords sont par défaut ceux avec le projet.
Comment le lancer?¶
- La collecte est lancée autant de fois que possible en background, afin d’avoir les informations en temps réel émises par les sites scrapés Il faut donner en paramètre le site à parcourir (exemple: https://www.lemondefr)
python collect_newspaper_article.py https://www.lemondefr
- Pour le clustering, il est à lancer quelque fois par semainepour maintenir l’integrité des évènements.
python clustering_article.py