Structure du projet

Pour l’instant, Azot s’intéresse surtout aux articles de journaux, dont les informations sont quasiinexploitées. Il est basé sur une intelligence artificielle :

  • qui restructure les articles des presses en ligne en données manipulables
  • qui classifie automatiquement ces article selon leur sujet

Le but est de synthétiser les informations contenues dans les journaux pour faire émerger leur potentiel. Pour ce faire, l’équipe a adopté l’approche par la classification automatique en mode non-supervisé des textes ainsi recueillis.

L’intégralité d’Azot est développé en Python

Le traitement comprend donc deux phases:

Phase de collecte de données

  • Effectué via le script collect_newspaper_article.py
  • Il fait du “ web scraping”, puis stocke les données restructurées dans la base de données.
  • L’extraction des informations se fait avec l’outil newspaper, dont l’utilisation et les fonctionnalités sont explicitées dans la` documentation`_
>>> import newspaper

>>> ...class CollectArticle(ArticleManager):

>>> ... def extract_from_source(self, url):

>>> ... /* ... */

>>> ...  article = self._extract_articles(url)

>>> ...  self._store_articles(article)
  • Le script principal fait appel à la classe CollectArticle qui contient la définition des attributs et méthodes propres à l’extraction d’articles jusqu’au stockage.
>>> from scraping_newspapers import CollectArticle

>>> ...  article = CollectArticle()

>>> ...  article.extract_from_source(source)

Phase d’élaboration des évènements

  • Effectué via le script clustering_articles.py
  • Il traite “ la classification automatique”via clustering.
  • Pour ce faire, la librairie sickitlearn a été utilisé, en important le package cluster L’approche par le Kmeans a été utilisée pour réaliser la classification.
>>> from sklearn import cluster

>>> ...cluster.KMeans()
  • Chaque groupe obtenu après la classification est encore re- partitionner pour avoir des groupes d’articles beaucoup plus cohérents.
  • Durant chaque partitionnement, le nombre de cluster a été évalué à 5% de l’effectif total.