10 Week 10: 线性回归与逻辑斯蒂回归——预测爆款

10.1 课程目标

使用 Scikit-learn 进行简单的数据预测，并从社会学角度理解算法中的“权重”和“偏差”。

10.2 核心内容

10.2.1 1. 线性回归 (Linear Regression)

试图找到一条直线，最好地拟合数据点。 - 场景：根据文章的字数、图片数，预测阅读量。 - 公式：\(y = wx + b\) - \(w\) (权重)：变量的重要性。 - \(b\) (偏差)：基础值。

10.2.2 2. 逻辑斯蒂回归 (Logistic Regression)

虽然名字叫“回归”，但其实是分类算法。 - 场景：预测一篇文章是“爆款”还是“普通”（0 或 1）。

10.2.3 3. 算法的社会学隐喻

权重 (Weights)：在算法眼里，什么特征更重要？（例如：震惊体标题的权重是否过高？）
偏差 (Bias)：模型是否存在预设的偏见？

10.3 实战：使用 Scikit-learn

我们不再手写公式，而是使用 Python 强大的机器学习库 scikit-learn。

from sklearn.linear_model import LinearRegression
import numpy as np

# 模拟数据：[文章字数]
X = np.array([[1000], [2000], [3000], [500]])
# 模拟数据：[阅读量]
y = np.array([5000, 9000, 14000, 2000])

# 创建模型
model = LinearRegression()
# 训练模型
model.fit(X, y)

# 预测一篇 2500 字文章的阅读量
print(model.predict([[2500]]))

10.4 作业

收集你关注的公众号最近 10 篇文章的“在看数”和“标题长度”，尝试用线性回归模型分析二者是否存在相关性。