Fonctionnement d’AZOT¶

Comment l’installer?¶

Les prérequis indispensables sont les suivants:

newspaper (pour le web scraping)
nltk (pour le traitement des textes)
système de gestion de base de données No-SQL:
- mongodb, il faut aussi installer mongoengine
- couchdb. Il nécessite le plugin couchdbpython

Ceci étant fait, le projet peut être cloné sur ce lien.

Avant toute exécution, il faut s’assurer que le fichier de configuration config.ini continne les bonnes informations:

nom du système de gestion de base de données adopté (mongodb ou couchdb, commenter celui qui n’est pas utilisé
nom de la base de donnée
les chemins de log et de stopwords sont par défaut ceux avec le projet.

Comment le lancer?¶

La collecte est lancée autant de fois que possible en background, afin d’avoir les informations en temps réel émises par les sites scrapés Il faut donner en paramètre le site à parcourir (exemple: https://www.lemondefr)

python collect_newspaper_article.py https://www.lemondefr

Pour le clustering, il est à lancer quelque fois par semainepour maintenir l’integrité des évènements.

python clustering_article.py

Fork me on GitHub