4.1 - Fondements du NLP
Fondements du Traitement du Langage Naturel
Le NLP permet aux machines de comprendre, interpréter et générer le langage humain de manière utile.
💬 Défis du NLP
Ambigÿité
- Lexicale : Un mot peut avoir plusieurs sens
- Syntaxique : Structure grammaticale ambiguë
- Sémantique : Sens global ambigu
Variabilité
- Différents styles d'écriture
- Argot et expressions familières
- Erreurs de frappe et de grammaire
🔄 Pipeline NLP Classique
1. Tokenisation
Division du texte en unités plus petites (mots, phrases).
2. Nettoyage
- Suppression de la ponctuation
- Conversion en minuscules
- Suppression des mots vides (stop words)
3. Lemmatisation/Racinisation
- Lemmatisation : Réduction à la forme canonique
- Racinisation : Réduction à la racine
4. Étiquetage Morpho-Syntaxique
Attribution d'une catégorie grammaticale à chaque mot.
5. Analyse Syntaxique
Identification de la structure grammaticale.
📊 Représentation du Texte
Bag of Words (BoW)
- Représentation vectorielle simple
- Ignore l'ordre des mots
- Efficace pour la classification
TF-IDF
- TF : Fréquence du terme
- IDF : Fréquence inverse dans le document
- Met en avant les mots discriminants
Word Embeddings
- Word2Vec : Représentation dense des mots
- GloVe : Factorisation de matrice
- FastText : Prend en compte les sous-mots
🎯 Applications Principales
- Classification de texte : Sentiment, thème, langue
- Extraction d'entités : Noms, lieux, dates
- Réponse aux questions : Systèmes de Q&A
- Génération de texte : Résumés, traduction
- Chatbots : Dialogue automatique
Découvrez les bases du traitement automatique du langage naturel.
Évaluation
0
0
Il n'y a aucune réaction pour le moment.