Copied!





Copied!





Copied!







from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Create a pipeline with TfidfVectorizer and LogisticRegression
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LogisticRegression())
])

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Create a pipeline with TfidfVectorizer and LogisticRegression
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LogisticRegression())
])





Copied!







from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Create a pipeline with TfidfVectorizer and LogisticRegression
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LogisticRegression())
])

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Create a pipeline with TfidfVectorizer and LogisticRegression
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LogisticRegression())
])





Copied!







import pandas as pd

train_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/train-00000-of-00001.parquet")
test_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/test-00000-of-00001.parquet")

import pandas as pd

train_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/train-00000-of-00001.parquet")
test_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/test-00000-of-00001.parquet")





Copied!







import pandas as pd

train_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/train-00000-of-00001.parquet")
test_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/test-00000-of-00001.parquet")

import pandas as pd

train_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/train-00000-of-00001.parquet")
test_df = pd.read_parquet("hf://datasets/stanfordnlp/imdb/plain_text/test-00000-of-00001.parquet")





Copied!







train_df.head(5)

train_df.head(5)





Copied!







train_df.head(5)

train_df.head(5)





Copied!







from sklearn.metrics import classification_report

pipeline.fit(train_df['text'], train_df['label'])
y_pred = pipeline.predict(test_df['text'])
report = classification_report(test_df['label'], y_pred)
print(report)

from sklearn.metrics import classification_report

pipeline.fit(train_df['text'], train_df['label'])
y_pred = pipeline.predict(test_df['text'])
report = classification_report(test_df['label'], y_pred)
print(report)

              precision    recall  f1-score   support

           0       0.88      0.88      0.88     12500
           1       0.88      0.88      0.88     12500

    accuracy                           0.88     25000
   macro avg       0.88      0.88      0.88     25000
weighted avg       0.88      0.88      0.88     25000





Copied!







from sklearn.metrics import classification_report

pipeline.fit(train_df['text'], train_df['label'])
y_pred = pipeline.predict(test_df['text'])
report = classification_report(test_df['label'], y_pred)
print(report)

from sklearn.metrics import classification_report

pipeline.fit(train_df['text'], train_df['label'])
y_pred = pipeline.predict(test_df['text'])
report = classification_report(test_df['label'], y_pred)
print(report)

              precision    recall  f1-score   support

           0       0.88      0.88      0.88     12500
           1       0.88      0.88      0.88     12500

    accuracy                           0.88     25000
   macro avg       0.88      0.88      0.88     25000
weighted avg       0.88      0.88      0.88     25000





Copied!







import numpy as np

# Extract the vocabulary and the classifier from the pipeline
vocab = pipeline.named_steps['tfidf'].vocabulary_
clf = pipeline.named_steps['clf']

# Get the feature names (words) from the TfidfVectorizer
feature_names = np.array(pipeline.named_steps['tfidf'].get_feature_names_out())
# Calculate predict_proba for each word
probabilities = pipeline.predict_proba(feature_names)

# Create a dataframe with words and their probabilities
proba_df = pd.DataFrame(probabilities, index=feature_names, columns=clf.classes_)
proba_df.rename(columns={1 : 'positive', 0 : 'negative'}, inplace=True)
proba_df = proba_df.sort_values(by='positive', ascending=False)

import numpy as np

# Extract the vocabulary and the classifier from the pipeline
vocab = pipeline.named_steps['tfidf'].vocabulary_
clf = pipeline.named_steps['clf']

# Get the feature names (words) from the TfidfVectorizer
feature_names = np.array(pipeline.named_steps['tfidf'].get_feature_names_out())
# Calculate predict_proba for each word
probabilities = pipeline.predict_proba(feature_names)

# Create a dataframe with words and their probabilities
proba_df = pd.DataFrame(probabilities, index=feature_names, columns=clf.classes_)
proba_df.rename(columns={1 : 'positive', 0 : 'negative'}, inplace=True)
proba_df = proba_df.sort_values(by='positive', ascending=False)





Copied!







import numpy as np

# Extract the vocabulary and the classifier from the pipeline
vocab = pipeline.named_steps['tfidf'].vocabulary_
clf = pipeline.named_steps['clf']

# Get the feature names (words) from the TfidfVectorizer
feature_names = np.array(pipeline.named_steps['tfidf'].get_feature_names_out())
# Calculate predict_proba for each word
probabilities = pipeline.predict_proba(feature_names)

# Create a dataframe with words and their probabilities
proba_df = pd.DataFrame(probabilities, index=feature_names, columns=clf.classes_)
proba_df.rename(columns={1 : 'positive', 0 : 'negative'}, inplace=True)
proba_df = proba_df.sort_values(by='positive', ascending=False)

import numpy as np

# Extract the vocabulary and the classifier from the pipeline
vocab = pipeline.named_steps['tfidf'].vocabulary_
clf = pipeline.named_steps['clf']

# Get the feature names (words) from the TfidfVectorizer
feature_names = np.array(pipeline.named_steps['tfidf'].get_feature_names_out())
# Calculate predict_proba for each word
probabilities = pipeline.predict_proba(feature_names)

# Create a dataframe with words and their probabilities
proba_df = pd.DataFrame(probabilities, index=feature_names, columns=clf.classes_)
proba_df.rename(columns={1 : 'positive', 0 : 'negative'}, inplace=True)
proba_df = proba_df.sort_values(by='positive', ascending=False)





Copied!







proba_df.head()

proba_df.head()





Copied!







proba_df.head()

proba_df.head()





Copied!







proba_df.tail()

proba_df.tail()





Copied!







proba_df.tail()

proba_df.tail()





Copied!







#from sklearn.model_selection import learning_curve

def learning_curve(pipeline, train_df, test_df, cv, train_sizes):
    from tqdm import tqdm
    def get_score(pipeline, train_df, test_df):
        X = train_df['text']
        y = train_df['label']
        pipeline.fit(X, y)
        train_score = pipeline.score(X, y)
        test_score = pipeline.score(test_df['text'], test_df['label'])
        return train_score, test_score
    
    all_train_scores = []
    all_test_scores = []
    all_train_sizes = []
    for train_size in tqdm(train_sizes):
        train_scores = []
        test_scores = []
        train_sizes = []
        for i in range(cv):
            # Sample the training data
            train_df_ = train_df.sample(frac=train_size, random_state=i)
            train_score, test_score = get_score(pipeline, train_df_, test_df)
            train_scores.append(train_score)
            test_scores.append(test_score)
            train_sizes.append(len(train_df_))

        all_train_scores.append(train_scores)
        all_test_scores.append(test_scores)
        all_train_sizes.append(train_sizes)
    return np.array(all_train_sizes), np.array(all_train_scores), np.array(all_test_scores)


# Generate learning curve data
train_sizes, train_scores, test_scores = learning_curve(
    pipeline, train_df, test_df, cv=5, train_sizes=np.logspace(-2, 0, 10, base=10)
)

#from sklearn.model_selection import learning_curve

def learning_curve(pipeline, train_df, test_df, cv, train_sizes):
    from tqdm import tqdm
    def get_score(pipeline, train_df, test_df):
        X = train_df['text']
        y = train_df['label']
        pipeline.fit(X, y)
        train_score = pipeline.score(X, y)
        test_score = pipeline.score(test_df['text'], test_df['label'])
        return train_score, test_score
    
    all_train_scores = []
    all_test_scores = []
    all_train_sizes = []
    for train_size in tqdm(train_sizes):
        train_scores = []
        test_scores = []
        train_sizes = []
        for i in range(cv):
            # Sample the training data
            train_df_ = train_df.sample(frac=train_size, random_state=i)
            train_score, test_score = get_score(pipeline, train_df_, test_df)
            train_scores.append(train_score)
            test_scores.append(test_score)
            train_sizes.append(len(train_df_))

        all_train_scores.append(train_scores)
        all_test_scores.append(test_scores)
        all_train_sizes.append(train_sizes)
    return np.array(all_train_sizes), np.array(all_train_scores), np.array(all_test_scores)


# Generate learning curve data
train_sizes, train_scores, test_scores = learning_curve(
    pipeline, train_df, test_df, cv=5, train_sizes=np.logspace(-2, 0, 10, base=10)
)

  0%|          | 0/10 [00:00<?, ?it/s]

100%|██████████| 10/10 [04:48<00:00, 28.86s/it]





Copied!







#from sklearn.model_selection import learning_curve

def learning_curve(pipeline, train_df, test_df, cv, train_sizes):
    from tqdm import tqdm
    def get_score(pipeline, train_df, test_df):
        X = train_df['text']
        y = train_df['label']
        pipeline.fit(X, y)
        train_score = pipeline.score(X, y)
        test_score = pipeline.score(test_df['text'], test_df['label'])
        return train_score, test_score
    
    all_train_scores = []
    all_test_scores = []
    all_train_sizes = []
    for train_size in tqdm(train_sizes):
        train_scores = []
        test_scores = []
        train_sizes = []
        for i in range(cv):
            # Sample the training data
            train_df_ = train_df.sample(frac=train_size, random_state=i)
            train_score, test_score = get_score(pipeline, train_df_, test_df)
            train_scores.append(train_score)
            test_scores.append(test_score)
            train_sizes.append(len(train_df_))

        all_train_scores.append(train_scores)
        all_test_scores.append(test_scores)
        all_train_sizes.append(train_sizes)
    return np.array(all_train_sizes), np.array(all_train_scores), np.array(all_test_scores)


# Generate learning curve data
train_sizes, train_scores, test_scores = learning_curve(
    pipeline, train_df, test_df, cv=5, train_sizes=np.logspace(-2, 0, 10, base=10)
)

#from sklearn.model_selection import learning_curve

def learning_curve(pipeline, train_df, test_df, cv, train_sizes):
    from tqdm import tqdm
    def get_score(pipeline, train_df, test_df):
        X = train_df['text']
        y = train_df['label']
        pipeline.fit(X, y)
        train_score = pipeline.score(X, y)
        test_score = pipeline.score(test_df['text'], test_df['label'])
        return train_score, test_score
    
    all_train_scores = []
    all_test_scores = []
    all_train_sizes = []
    for train_size in tqdm(train_sizes):
        train_scores = []
        test_scores = []
        train_sizes = []
        for i in range(cv):
            # Sample the training data
            train_df_ = train_df.sample(frac=train_size, random_state=i)
            train_score, test_score = get_score(pipeline, train_df_, test_df)
            train_scores.append(train_score)
            test_scores.append(test_score)
            train_sizes.append(len(train_df_))

        all_train_scores.append(train_scores)
        all_test_scores.append(test_scores)
        all_train_sizes.append(train_sizes)
    return np.array(all_train_sizes), np.array(all_train_scores), np.array(all_test_scores)


# Generate learning curve data
train_sizes, train_scores, test_scores = learning_curve(
    pipeline, train_df, test_df, cv=5, train_sizes=np.logspace(-2, 0, 10, base=10)
)

  0%|          | 0/10 [00:00<?, ?it/s]

100%|██████████| 10/10 [04:48<00:00, 28.86s/it]





Copied!







# Calculate mean and standard deviation for training and test scores
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)
train_sizes = np.mean(train_sizes, axis=1)


# Calculate mean and standard deviation for training and test scores
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)
train_sizes = np.mean(train_sizes, axis=1)





Copied!







# Calculate mean and standard deviation for training and test scores
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)
train_sizes = np.mean(train_sizes, axis=1)


# Calculate mean and standard deviation for training and test scores
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)
train_sizes = np.mean(train_sizes, axis=1)





Copied!







test_scores_std

test_scores_std

array([0.04412753, 0.01505746, 0.00520771, 0.00231387, 0.00297183,
       0.00209783, 0.00268345, 0.00145459, 0.00060101, 0.        ])





Copied!







test_scores_std

test_scores_std

array([0.04412753, 0.01505746, 0.00520771, 0.00231387, 0.00297183,
       0.00209783, 0.00268345, 0.00145459, 0.00060101, 0.        ])





Copied!







# Plot the learning curve
import matplotlib.pyplot as plt
plt.figure(figsize=(5, 3))
plt.plot(train_sizes, train_scores_mean, label='Training score', color='blue')
plt.fill_between(train_sizes, train_scores_mean - 2*train_scores_std, train_scores_mean + 2*train_scores_std, color='blue', alpha=0.2)
plt.plot(train_sizes, test_scores_mean, label='Cross-validation score', color='orange')
plt.fill_between(train_sizes, test_scores_mean - 2*test_scores_std, test_scores_mean + 2*test_scores_std, color='orange', alpha=0.2)

plt.title('Learning Curve')
plt.xlabel('Training Set Size')
plt.ylabel('Accuracy')
plt.legend(loc='best')
plt.semilogx()


plt.grid()
plt.show()

# Plot the learning curve
import matplotlib.pyplot as plt
plt.figure(figsize=(5, 3))
plt.plot(train_sizes, train_scores_mean, label='Training score', color='blue')
plt.fill_between(train_sizes, train_scores_mean - 2*train_scores_std, train_scores_mean + 2*train_scores_std, color='blue', alpha=0.2)
plt.plot(train_sizes, test_scores_mean, label='Cross-validation score', color='orange')
plt.fill_between(train_sizes, test_scores_mean - 2*test_scores_std, test_scores_mean + 2*test_scores_std, color='orange', alpha=0.2)

plt.title('Learning Curve')
plt.xlabel('Training Set Size')
plt.ylabel('Accuracy')
plt.legend(loc='best')
plt.semilogx()


plt.grid()
plt.show()





Copied!







# Plot the learning curve
import matplotlib.pyplot as plt
plt.figure(figsize=(5, 3))
plt.plot(train_sizes, train_scores_mean, label='Training score', color='blue')
plt.fill_between(train_sizes, train_scores_mean - 2*train_scores_std, train_scores_mean + 2*train_scores_std, color='blue', alpha=0.2)
plt.plot(train_sizes, test_scores_mean, label='Cross-validation score', color='orange')
plt.fill_between(train_sizes, test_scores_mean - 2*test_scores_std, test_scores_mean + 2*test_scores_std, color='orange', alpha=0.2)

plt.title('Learning Curve')
plt.xlabel('Training Set Size')
plt.ylabel('Accuracy')
plt.legend(loc='best')
plt.semilogx()


plt.grid()
plt.show()

# Plot the learning curve
import matplotlib.pyplot as plt
plt.figure(figsize=(5, 3))
plt.plot(train_sizes, train_scores_mean, label='Training score', color='blue')
plt.fill_between(train_sizes, train_scores_mean - 2*train_scores_std, train_scores_mean + 2*train_scores_std, color='blue', alpha=0.2)
plt.plot(train_sizes, test_scores_mean, label='Cross-validation score', color='orange')
plt.fill_between(train_sizes, test_scores_mean - 2*test_scores_std, test_scores_mean + 2*test_scores_std, color='orange', alpha=0.2)

plt.title('Learning Curve')
plt.xlabel('Training Set Size')
plt.ylabel('Accuracy')
plt.legend(loc='best')
plt.semilogx()


plt.grid()
plt.show()

from sklearn.feature_extraction.text import CountVectorizer
pipeline = Pipeline([
    ('cv', CountVectorizer()), # Changed from 'tfidf', TfidfVectorizer()
    ('clf', LogisticRegression())
])

	text	label
0	I rented I AM CURIOUS-YELLOW from my video sto...	0
1	"I Am Curious: Yellow" is a risible and preten...	0
2	If only to avoid making this type of film in t...	0
3	This film was probably inspired by Godard's Ma...	0
4	Oh, brother...after hearing about this ridicul...	0

	negative	positive
great	0.000714	0.999286
excellent	0.001973	0.998027
best	0.007317	0.992683
perfect	0.007732	0.992268
wonderful	0.009355	0.990645

	negative	positive
boring	0.998190	0.001810
waste	0.998523	0.001477
awful	0.998854	0.001146
bad	0.999601	0.000399
worst	0.999931	0.000069

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Text classification with a Bag-of-Words approach: a case study for sentiment analysis¶

Classification by logistic regression¶

Representing texts using Bag-of-words¶

Dataset: IMDB dataset¶

Why did it classify as it did?¶

How much data do we need?¶

Conclusion¶

Activities¶

Questions¶

Suggested answers¶