Résumé automatique de texte
Un résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document[1]. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence. Bien comprendre et gérer les phénomènes de redondance, cohérence et cohésion est fondamental afin de produire des résumés automatiques humainement crédibles.
Extraction, abstraction et compression
[modifier | modifier le code]Il existe trois approches principales pour générer des résumés de texte : par abstraction, par extraction et par compression de phrases.
- Par abstraction : rédiger un résumé en générant des phrases, pas forcément contenues dans l'original. La réécriture ou paraphrase est aussi utilisé. Cette approche est la plus difficile.
- Par extraction : se limite à extraire des phrases complètes censées être les plus pertinentes du document, et à les concaténer de façon à produire un extrait. Cette approche est de loin la plus utilisée dans les systèmes réels.
- Par compression : générer un résumé par compression de phrases. Les phrases ainsi extraites sont ensuite compressées afin d'éliminer l'information superflue.
Types de résumés
[modifier | modifier le code]Il y a plusieurs types de résumés selon leur but : mono-document, mi-document, guidé (personnalisé) ou non (générique) par une requête utilisateur, entre autres[1]. Dernièrement des résumés autres que textuelles ont vu leur jour. Ainsi des résumés audio et vidéo font partie des recherches actuelles. Des résumés dans des domaines très spécialisés comme la médecine ou la chimie organique posent des vraies défis aux systèmes de traitement automatique de la langue naturelle.
Un sujet connexe est l'extraction de sentiments à partir d'un texte. On part de l'hypothèse que pour un texte donné, il est non seulement possible de déterminer s'il contient une opinion (i.e. une vue subjective) mais également de déterminer si cette opinion est positive ou négative. Un exemple immédiat d'application est la recherche de critiques sur un film, où elles seraient organisées automatiquement en critiques positives et négatives. On peut également penser à un classement de produits du commerce en fonction des sentiments donnés en retour par les commentaires. Une première approche naïve fait appel aux mots clés du texte : en se basant sur un dictionnaire d'adjectifs, on atteindrait une précision de 62 % sur les sentiments exprimés dans un texte, pouvant aller jusqu'à 68 % si on prend en compte noms, verbes, etc. D'autres approches utilisent des arbres de décision pour classer le sujet (jusqu'à 73 % de précision) ou la rhétorique utilisée dans le texte[2],[3].
Évaluation
[modifier | modifier le code]Évaluer les résumés automatiques est une tâche difficile à laquelle la communauté a des réponses partielles. En effet, une évaluation automatique demande de disposer d'un système capable de générer des résumés de qualité humaine, afin qu'il soit capable de juger. Des solutions pragmatiques peuvent être envisagées. Un des objectifs des conférences NIST (Document Understanding Conferences DUC devenu Text Analysis Conference (TAC) ), consiste à utiliser la métrique ROUGE (Recall-Oriented Understudy for Gisting Evaluation)[4],[5]. Cette métrique mesure la couverture entre les N-gramme produits automatiquement par une machine à ceux contenus dans des résumés écrits par un certain nombre de juges humains. Un haut niveau en ROUGE implique empiriquement un niveau de corrélation avec les résumés humains.
Notes
[modifier | modifier le code]- Torres-Moreno, Juan-Manuel, Automatic Text Summarization, Wiley, , 320– (ISBN 978-1-84821-668-6, lire en ligne)
- Ce paragraphe provient d'une présentation de Maite Taboada à l'Université Simon Fraser. Voir (en) Not All Words are Created Equal: Extracting Semantic Orientation as a Function of Adjective Relevance, K. Voll et M. Taboada, Proceedings of the 20th Australian Joint Conference on Artificial Intelligence, décembre 2007, pp. 337-346.
- (en) Thumbs up? Sentiment Classification using Machine Learning Techniques, Bo Pang, Lillian Lee et Shivakumar Vaithyanathan, Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): pp. 79–86, 2002.
- (en) ROUGE
- (en) ROUGE: A Package for Automatic Evaluation of Summaries, Chin-Yew Lin, Proceedings of the ACL-04 Workshop, 2004. Publié par l'Association for Computational Linguistics, pp. 74--81
Bibliographie
[modifier | modifier le code]- Endres-Niggemeyer, Brigitte (1998): Summarizing Information (ISBN 3-540-63735-4)
- Marcu, Daniel (2000): The Theory and Practice of Discourse Parsing and Summarization (ISBN 0-262-13372-5)
- Mani, Inderjeet (2001): Automatic Summarization (ISBN 1-58811-060-5)
- (en) Abderrafih Lehmam, Essential summarizer : innovative automatic text summarization software in twenty languages, [1]: RIAO Adaptivity, Personalization and Fusion of Heterogeneous Information LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE Paris, France, 2010.
- Torres-Moreno, Juan-Manuel (2014): Automatic Text Summarization (ISBN 978-1-848-21668-6)