10  Week 10: 线性回归与逻辑斯蒂回归——预测爆款

10.1 课程目标

使用 Scikit-learn 进行简单的数据预测,并从社会学角度理解算法中的“权重”和“偏差”。

10.2 核心内容

10.2.1 1. 线性回归 (Linear Regression)

试图找到一条直线,最好地拟合数据点。 - 场景:根据文章的字数、图片数,预测阅读量。 - 公式\(y = wx + b\) - \(w\) (权重):变量的重要性。 - \(b\) (偏差):基础值。

10.2.2 2. 逻辑斯蒂回归 (Logistic Regression)

虽然名字叫“回归”,但其实是分类算法。 - 场景:预测一篇文章是“爆款”还是“普通”(0 或 1)。

10.2.3 3. 算法的社会学隐喻

  • 权重 (Weights):在算法眼里,什么特征更重要?(例如:震惊体标题的权重是否过高?)
  • 偏差 (Bias):模型是否存在预设的偏见?

10.3 实战:使用 Scikit-learn

我们不再手写公式,而是使用 Python 强大的机器学习库 scikit-learn

from sklearn.linear_model import LinearRegression
import numpy as np

# 模拟数据:[文章字数]
X = np.array([[1000], [2000], [3000], [500]])
# 模拟数据:[阅读量]
y = np.array([5000, 9000, 14000, 2000])

# 创建模型
model = LinearRegression()
# 训练模型
model.fit(X, y)

# 预测一篇 2500 字文章的阅读量
print(model.predict([[2500]]))

10.4 作业

收集你关注的公众号最近 10 篇文章的“在看数”和“标题长度”,尝试用线性回归模型分析二者是否存在相关性。