Fonctionnement d’AZOT ===================== Comment l’installer? ~~~~~~~~~~~~~~~~~~~~ Les prérequis indispensables sont les suivants: + `newspaper`_ (pour le web scraping) + `nltk`_ (pour le traitement des textes) + système de gestion de base de données No-SQL: + `mongodb`_, il faut aussi installer `mongoengine`_ + `couchdb`_. Il nécessite le plugin `couchdbpython`_ .. _newspaper: https://github.com/antsafi/newspaper.git .. _nltk: http://www.nltk.org/ .. _mongodb: https://docs.mongodb.com/manual/tutorial/getting-started/ .. _mongoengine: http://mongoengine.org/ .. _couchdb: http://couchdb.apache.org/ .. _couchdbpython: https://pythonhosted.org/CouchDB/ Ceci étant fait, le projet peut être cloné sur `ce lien`_. .. _`ce lien`: https://github.com/azotdata/azot-event-extractor.git Avant toute exécution, il faut s'assurer que le fichier de configuration *config.ini* continne les bonnes informations: + nom du système de gestion de base de données adopté (mongodb ou couchdb, **commenter celui qui n'est pas utilisé** + nom de la base de donnée + les chemins de log et de stopwords sont par défaut ceux avec le projet. Comment le lancer? ~~~~~~~~~~~~~~~~~~ + La collecte est lancée autant de fois que possible en background, afin d’avoir les informations en temps réel émises par les sites scrapés Il faut donner en paramètre **le site à parcourir** (exemple: https://www.lemondefr) :: python collect_newspaper_article.py https://www.lemondefr + Pour le clustering, il est à lancer quelque fois par semainepour maintenir l'integrité des évènements. :: python clustering_article.py