Skip to content

机器学习基础与神经网络技术

用产品经理能理解的方式,讲解机器学习基础概念,以及三种主流神经网络技术的特点和应用场景。


Part 1:机器学习基础

在学习具体的神经网络技术之前,先理解机器学习的核心概念。

1. 什么是机器学习?

一句话解释:让计算机从数据中自动学习规律,而不是人工编写规则。

传统编程 vs 机器学习

方式输入输出举例
传统编程规则 + 数据结果if "傻X" in text → 违规
机器学习数据 + 结果规则(模型)学习10万条标注数据 → 自动识别违规

为什么需要机器学习?

  • 规则太多写不完(违规词变体无穷无尽)
  • 规则太复杂写不出(什么是"阴阳怪气"?)
  • 规则需要持续更新(新梗层出不穷)

2. 学习类型

2.1 监督学习(Supervised Learning)

定义:给模型提供「输入-答案」配对数据,让模型学习对应关系。

训练数据示例:
┌─────────────────────────────┬────────┐
│ 输入(文本)                  │ 标签    │
├─────────────────────────────┼────────┤
│ "这个产品太垃圾了"            │ 负面    │
│ "质量很好,推荐购买"          │ 正面    │
│ "一般般吧"                   │ 中性    │
│ "你这个sb"                   │ 违规    │
└─────────────────────────────┴────────┘

内容安全中的应用

  • 文本分类(违规/正常)
  • 图片分类(色情/暴力/正常)
  • 情感分析(正面/负面/中性)

2.2 无监督学习(Unsupervised Learning)

定义:只给模型数据,让模型自己发现规律,不提供标签

内容安全中的应用

  • 聚类分析:发现新型违规模式
  • 异常检测:识别异常行为(水军、刷量)
  • 话题发现:识别热点和敏感话题

2.3 强化学习(Reinforcement Learning)

定义:通过「尝试-反馈-调整」的循环来学习。

内容安全中的应用

  • 审核策略优化
  • 推荐系统的安全边界学习

3. 分类任务详解

分类是内容安全最核心的任务类型。

3.1 二分类(Binary Classification)

定义:将内容分为两类。

场景类别1类别2
违规检测违规正常
垃圾过滤垃圾非垃圾
情感分析正面负面

输出示例

输入:"这个产品太垃圾了"
输出:{
  "label": "负面",
  "confidence": 0.92  // 置信度
}

3.2 多分类(Multi-class Classification)

定义:将内容分为多个互斥类别(只能属于一类)。

场景类别
情感分析正面 / 中性 / 负面
违规类型色情 / 暴力 / 政治 / 广告 / 正常
内容分类新闻 / 娱乐 / 体育 / 科技 / ...

输出示例

输入:"血腥暴力的画面"
输出:{
  "label": "暴力",
  "probabilities": {
    "色情": 0.02,
    "暴力": 0.89,  // 最高
    "政治": 0.01,
    "广告": 0.03,
    "正常": 0.05
  }
}

3.3 多标签分类(Multi-label Classification)

定义:一条内容可以同时属于多个类别。

输入:"裸露暴力的政治讽刺漫画"
输出:{
  "labels": ["色情", "暴力", "政治"],  // 同时命中多个
  "probabilities": {
    "色情": 0.85,
    "暴力": 0.78,
    "政治": 0.92,
    "广告": 0.03
  }
}

重要区别

类型输出数量类别关系典型场景
二分类1个二选一违规/正常判断
多分类1个多选一违规类型识别
多标签多个可同时复杂内容标注

4. 数据标注

数据质量决定模型上限。没有好的标注数据,再好的模型也无法发挥作用。

4.1 标注流程

原始数据 → 制定标注规范 → 标注员培训 → 试标注 → 正式标注 → 质检 → 交付
              ↑                                      ↓
              └──────── 规范迭代 ←─────────────────────┘

4.2 标注规范要素

一份完整的标注规范应包含:

要素说明示例
类别定义每个类别的明确定义"色情"指包含裸露、性行为等内容
正例样本应该被标为该类的例子图片示例(脱敏)
负例样本不应该被标为该类的例子艺术品、医学图片
边界案例模糊情况如何处理泳装照→不算色情
优先级规则多标签时哪个优先涉政 > 色情 > 暴力

4.3 标注质量控制

方法说明
交叉标注同一样本多人标注,取多数意见
黄金集测试用已知答案的样本测试标注员
一致性检验计算 Kappa 系数,评估标注一致性
抽样复核专家抽查标注结果

Kappa 系数参考

范围一致性程度
< 0.20极低
0.21-0.40一般
0.41-0.60中等
0.61-0.80较高
0.81-1.00极高

5. 模型训练流程

5.1 数据集划分

全部标注数据

┌─────────────────────────────────────────────┐
│  训练集 (70%)  │  验证集 (15%)  │  测试集 (15%)  │
│    Training    │   Validation  │     Test      │
│                │               │               │
│  模型从这学习   │  调参时评估    │  最终评估      │
│                │               │  (只用一次)   │
└─────────────────────────────────────────────┘

为什么要划分?

数据集用途关键点
训练集模型学习越大越好
验证集调整参数防止过拟合
测试集最终评估模拟真实场景,只用一次

5.2 训练过程

         准确率

           │    ★ 最佳点
           │   ╱╲
   训练集 →│  ╱  ╲
           │ ╱    ╲← 验证集
           │╱      ╲
           └────────────→ 训练轮次
              欠拟合  │  过拟合

                  刚刚好

产品经理需要关注的

  • 不是训练越久越好
  • 要在验证集效果最好的时候停止
  • 过度训练会导致"死记硬背"

6. 模型评估指标

6.1 混淆矩阵

                    实际情况
                 违规      正常
预测   违规    TP(真阳性)  FP(假阳性)  ← 误伤
结果   正常    FN(假阴性)  TN(真阴性)

                 漏放
指标说明业务含义
TP预测违规,实际违规正确拦截
FP预测违规,实际正常误伤用户
FN预测正常,实际违规漏放违规
TN预测正常,实际正常正确放行

6.2 核心指标

指标公式业务含义关注场景
准确率 PrecisionTP / (TP+FP)判违规的有多少是对的关心误伤
召回率 RecallTP / (TP+FN)实际违规抓了多少关心漏放
F12×P×R / (P+R)准确率和召回率的平衡综合评估

举例

假设测试集 1000 条,其中违规 100 条

模型 A 预测结果:
- 预测违规 120 条,其中 90 条确实违规
- 准确率 = 90/120 = 75%(误伤较多)
- 召回率 = 90/100 = 90%(漏放较少)
- F1 = 2×0.75×0.90/(0.75+0.90) = 81.8%

模型 B 预测结果:
- 预测违规 80 条,其中 78 条确实违规
- 准确率 = 78/80 = 97.5%(误伤很少)
- 召回率 = 78/100 = 78%(漏放较多)
- F1 = 2×0.975×0.78/(0.975+0.78) = 86.7%

6.3 业务场景选择

场景优先指标原因
涉政内容召回率漏放后果严重,宁可误伤
广告营销准确率误伤影响用户体验
普通违规F1平衡考虑

7. 过拟合与欠拟合

7.1 概念解释

问题表现类比
欠拟合训练集和测试集效果都差学生连课本都没学会
过拟合训练集效果好,测试集效果差学生死记硬背,不会举一反三
刚刚好训练集和测试集效果都好学生理解了知识,能灵活应用

7.2 过拟合的危害

训练时:
"傻X" → 违规 ✅
"傻×" → 违规 ✅(学过)

实际使用:
"傻❌" → 正常?❌(没见过这个变体)

模型只记住了训练数据的具体样例,没有学会泛化。

7.3 解决方案

问题解决方案
欠拟合增加模型复杂度、增加训练时间、调整学习率
过拟合增加训练数据、数据增强、正则化、早停

产品经理关注点

  • 如果线下效果好但线上效果差 → 可能过拟合
  • 需要持续补充新数据,保持模型泛化能力

Part 2:神经网络技术

理解了机器学习基础后,下面介绍三种主流的神经网络技术。


一句话理解

技术一句话解释类比
CNN擅长看"局部特征"像放大镜,专注细节
RNN擅长理解"顺序关系"像读书,从前往后逐字理解
LLM擅长理解"整体上下文"像专家,博览群书后回答问题

8. CNN(卷积神经网络)

是什么?

CNN 全称 Convolutional Neural Network,最初是为图像识别设计的。

它的核心思想是:用小窗口扫描,提取局部特征

工作方式

想象你在看一张猫的照片:

  • CNN 会用一个小方框在图片上滑动
  • 每次只看方框内的一小块(比如眼睛、耳朵、胡须)
  • 识别出这些局部特征后,再组合判断"这是一只猫"
图片 → 提取边缘 → 提取纹理 → 提取部件 → 组合判断
      (线条)   (毛发)   (眼睛耳朵)  (是猫)

用在文本上

虽然 CNN 是为图像设计的,但也能用来处理文本:

  • 把一句话当作一张"图片"
  • 用小窗口扫描连续的几个词(比如每次看3个词)
  • 提取"词组特征"

举例:判断"这个产品太垃圾了"是负面评价

  • CNN 会发现"太垃圾了"这个3词组合是负面特征
  • 不需要理解整句话,只要发现这个特征就能判断

优缺点

优点缺点
✅ 速度快(可并行处理)❌ 只看局部,难理解整体
✅ 模型小,部署方便❌ 词序变化可能影响判断
✅ 擅长提取关键特征❌ 长距离关系理解弱

适用场景

  • 文本分类(垃圾邮件、情感分析)
  • 关键词/敏感词检测
  • 需要高速处理的场景

9. RNN(循环神经网络)

是什么?

RNN 全称 Recurrent Neural Network,专门为序列数据设计。

它的核心思想是:按顺序处理,记住前面的内容

工作方式

想象你在读一本小说:

  • 你从第一个字开始,逐字往后读
  • 读到后面时,你还记得前面的情节
  • 前面的内容会影响你对后面的理解
"我" → "喜欢" → "这个" → "产品"
  ↓        ↓         ↓        ↓
[记忆] → [记忆+新词] → [记忆+新词] → [最终理解]

RNN 就是这样工作的:一边读一边记忆,用记忆帮助理解后面的内容

LSTM:增强版RNN

普通 RNN 有个问题:记忆力不好,读到后面就忘了前面。

LSTM(Long Short-Term Memory)是增强版:

  • 有一个"笔记本"专门记重要信息
  • 可以选择性地记住和遗忘
  • 能处理更长的文本

优缺点

优点缺点
✅ 理解词的顺序和上下文❌ 必须按顺序处理,无法并行
✅ 能处理变长文本❌ 训练和推理都慢
✅ 适合时序数据❌ 太长的文本仍然会"忘记"

适用场景

  • 语音识别(声音是序列)
  • 机器翻译(需要理解句子结构)
  • 情感分析(需要上下文理解)

10. LLM(大语言模型)

是什么?

LLM 全称 Large Language Model,基于 Transformer 架构。

它的核心思想是:同时看所有内容,关注重要的部分

工作方式

想象你是一个专家在审阅文章:

  • 你不是从头到尾逐字读
  • 而是快速浏览全文,重点关注关键段落
  • 前后内容可以互相参照
"虽然价格贵,但是质量真的很好"

普通模型:看到"贵" → 可能判断负面
LLM:同时看到"虽然...但是..."和"很好" → 判断正面

LLM 的核心是注意力机制(Attention)

  • 每个词都可以"关注"其他所有词
  • 自动学习哪些词之间关系更重要
  • 能理解复杂的语言结构

为什么叫"大"模型?

维度GPT-2GPT-3GPT-4
参数量15亿1750亿传闻万亿+
训练数据几GB几百GB更多
能力基础强大非常强大

参数量可以理解为模型的"脑容量",越大通常越聪明,但也越贵。

优缺点

优点缺点
✅ 语言理解能力极强❌ 计算成本极高
✅ 能理解复杂上下文❌ 推理延迟大
✅ 零样本/少样本学习❌ 需要大量GPU资源
✅ 通用性强❌ 输出可能不稳定

适用场景

  • 复杂语义理解(阴阳怪气、反讽)
  • 生成式任务(写作、对话)
  • 需要推理的任务
  • 处理新概念、新梗

11. 三种技术对比

核心差异

维度CNNRNNLLM
处理方式局部扫描顺序处理全局注意力
并行能力
长距离理解
速度最快中等(但贵)
参数量极大

成本与效果

        效果

         │            ★ LLM
         │          ╱
         │        ╱
         │      ╱
         │    ★ RNN/BERT
         │  ╱
         │★ CNN

         └──────────────→ 成本

选择建议

场景推荐技术原因
高QPS文本分类CNN速度快、成本低
需要理解上下文BERT(Transformer)准确度高、成本适中
复杂语义/新概念LLM理解能力最强
实时语音处理RNN/Transformer流式处理

12. 在内容审核中的应用

分层使用

内容输入

┌─────────────┐
│ CNN/FastText │ ← 第一道关,快速过滤明确违规
└─────────────┘
    ↓ 不确定
┌─────────────┐
│ BERT        │ ← 第二道关,理解变体和上下文
└─────────────┘
    ↓ 困难样本
┌─────────────┐
│ LLM         │ ← 第三道关,理解复杂语境
└─────────────┘

各技术擅长的内容

技术擅长识别不擅长
CNN"傻X"、"去死""呵呵,你可真是个人才"
BERT"傻❌"、"s13"最新网络梗、复杂反讽
LLM阴阳怪气、新梗(成本太高无法全量使用)

BERT vs LLM:什么时候用哪个?

以今日头条(日均数亿条内容)为例:

场景用 BERT用 LLM
占比95%+<5%
成本~0.0001元/条~0.01-0.1元/条
典型内容标准违规、常见变体反讽、新梗、疑难样本

BERT 适用

  • "你这个s13" → 常见变体,有训练数据
  • 评论/弹幕实时审核 → 需要低延迟
  • 置信度高的样本 → 直接处理

LLM 适用

  • "你可真是个人才呢" → 反讽,需要理解语境
  • "蚌埠住了"、"栓Q" → 新梗,BERT 没见过
  • 置信度 0.4-0.6 的灰度样本 → 最终裁决

一句话:BERT 是主力军处理日常,LLM 是专家顾问解决难题。


13. 产品经理需要知道的

与算法沟通时

不需要

  • 知道反向传播怎么算
  • 理解 softmax 公式
  • 会写训练代码

需要知道

  • 不同模型的能力边界
  • 速度、成本、效果的权衡
  • 什么问题用什么方案

常见问题

Q:为什么不直接全用 LLM? A:太贵了。一条内容用 GPT-4 审核约 0.01-0.1 元,每天审核 1 亿条就是 100-1000 万元。

Q:BERT 和 LLM 有什么区别? A:BERT 是"小号" Transformer,参数约 1 亿;LLM 是"大号",参数千亿以上。能力和成本都差很多。

Q:CNN 这么老的技术还能用吗? A:能用,而且用得很多。在需要高速处理、对理解要求不高的场景,CNN 依然是性价比之王。


🔗 相关链接

同目录延伸阅读

  • LLM科学-对齐表征与学习理论 — 想深入了解 LLM 内部机制可继续阅读:本文只讲到"LLM 是基于 Transformer 的大模型",那篇文章从机制可解释性(emotion vectors、persona 假说)和学习理论(缩放律、Lazy/Rich 相变、表征收敛)两条路线,进一步回答"模型为什么这样"。注意那篇内容偏理论,建议先消化本文再去读。
  • Token原理与Tokenizer机制 — 本文提到 LLM 处理文本,但没展开"文本怎么变成模型能算的数字"。那篇详细讲 Token 切分、BPE 训练、嵌入矩阵、自回归预测。

业务方向交叉

MIT License