抖音推荐、人脸解锁、游戏AI咋来的？聊聊机器学习三兄弟-阿南达文事网

抖音推荐、人脸解锁、游戏AI咋来的？聊聊机器学习三兄弟

希里安近日见闻

开源圈子里这两天发生了这么几件事，希里安也给大家报道一下

• ChatGPT可以直接生成完成度很高的图片了
• 谷歌决定不再开源安卓系统，这个看新闻说是为了节约成本，具体对于咱们普通终端使用者说应该影响不大

Google 对 Android 的维护分为两条路径：公开的 AOSP 分支面向全球开发者开放，包含纯净的开源代码，不涉及任何 Google 专有服务。任何厂商或个人均可基于此分支开发系统。而内部闭源分支仅供签署了 GMS（Google Mobile Services）协议的厂商使用。Android 目前运行于 Linux 内核上，后者是 GPL 许可证开源的。GPL 是一个强传染性的许可证，要求所有衍生工作都必须按照 GPL 许可证同样开源，从而贯彻无限开源、扩大社区的精神。

• 理想汽车开源车载系统，是自研汽车操作系统“理想星环OS”不过预计将于今年4月上线开源社区，开源社区的力量是强大的
• 丽珠医药在 GitHub 上向开源项目 Dify 提交了一份拉取请求（PR），其中将 Dify 的 logo 替换为丽珠医药的。丽珠医药开发者还将内部密钥、证书等敏感信息误提交至 Dify 主仓库。Dify 随后向丽珠医药发出了律师函，要求停止相关侵权行为。看的让人目瞪口呆。。。违反开源协议：Dify采用的Apache 2.0修改版协议，在保留原有开源自由度的基础上增设了限制：根据协议规定，任何使用Dify前端代码（web/目录或Docker的"web"镜像）的产品必须保留原始LOGO与版权信息。

分享前回忆

上次文章讲了一些AI的基础概念，再来回忆一下：

AI的本质：通过数据、算法和计算，模拟人类智能

基础原理：数据驱动 + 模型优化 + 计算支持

语言模型原理：Transformer为核心，预训练+微调为流程，注意力机制为关键

这次我们就来介绍下AI学习相关的概念，主要是机器学习、深度学习、强化学习，当我们具备了这些基础的概念和知识，后期就可以利用AI工具更好的创造自己的东西了。

AI学习的本质是通过数学模型（比如神经网络）和大量数据，不断优化自身的预测或决策能力，广泛应用于语音识别、图像处理、自动驾驶等领域。

目的就是通过算法和数据让机器具备类似人类的学习能力。它不是简单地执行程序员写好的固定指令，而是让机器自己从经验中“学到”规律，进而解决复杂问题。AI学习的终极目标是让机器能够像人一样感知、推理甚至创造。

为什么要了解以上这些，你有没有想过以下场景：

• 手机上的语音助手比如siri、小爱同学都是怎么听懂你说话的？
• 抖音为啥总能给你推你喜欢的视频？
• 还有那些打败人类冠军的游戏AI是怎么练成的，比如打败围棋冠军阿尔法go？

这些神奇的事件背后，都离不开：机器学习、深度学习和强化学习。它们是人工智能AI的核心，今天我们就来聊聊这些是啥、怎么用、有啥区别，顺便看看还有哪些“隐藏知识”值得关注

虽然咱不是专业的算法工程师，但是了解基础知识，总比什么也不知道的好些，是不是这么个理？

机器学习（Machine Learning, ML）

机器学习（英语：machine learning）是人工智能的一个分支。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法（要防止错误累积）。很多推论问题属于非程序化決策，所以部分的机器学习研究是开发容易处理的近似算法。 --维基百科

机器学习通常分为几个主要类型：

监督学习：AI通过大量标记好的数据（比如输入和对应的正确输出）进行训练。有标注数据（labelled data），训练目标是学习输入到输出的映射关系。例如，给AI看猫和狗的图片并告诉它哪些是猫哪些是狗，让它学会识别。

监督学习就像一个有老师指导的学生。AI会拿到一堆“带答案”的数据（称为训练集），通过学习输入和输出之间的关系，预测新数据的输出。

常见的算法：

• 线性回归（Linear Regression）在画一条直线，尽量靠近一堆散落的点。这条线可以帮你预测：如果给你一个新的x值，你可以沿着这条线找到对应的y值
• 逻辑回归（Logistic Regression）不是预测具体数值，而是预测可能性（0到1之间）预测邮件是不是垃圾邮件，结果是"是"或"否"的概率
• 决策树（Decision Tree）像是玩"20个问题"游戏，通过一系列是/否问题，最终得出结论医生诊断疾病。"病人发烧吗？"→是→"有咳嗽吗？"→否→"喉咙痛吗？"→依此类推，直到确定病因
• 随机森林（Random Forest）找几个医生会诊，采纳大多数人的意见
• 支持向量机（Support Vector Machine, SVM）尝试找到一条线（或平面），最好地分开两类数据，并尽量让这条线与两边最近的点保持最大距离
• 朴素贝叶斯基于数学概率，根据已知信息计算不同结果的可能性如果天空乌云密布，根据过去经验，下雨的概率是多少？

应用场景：

• 语音识别
• 目标检测
• 医疗诊断

无监督学习：AI在没有明确标签的情况下，从数据中找出模式或结构。比如，把一堆杂乱的数据分组，自动发现相似性。

无监督学习是没有“老师”的自学。AI只拿到一堆数据，没有标签，任务是自己发现数据的内在结构或模式。

常见算法：

• K-Means 聚类把相似的数据点分到同一组，不需要提前知道每组是什么图书馆整理书籍，把相似题材的书放在一起，不需要事先知道有哪些题材
• 主成分分析（PCA）数据太复杂？PCA 会帮助去掉不重要的信息，只保留核心特征比如学生的考试成绩，有多门课程，希望找出影响成绩的最重要因素, 语文、英语、历史 → 归为 语言能力 数学、物理、化学 → 归为 理科能力 这样就把多维的数据压缩成 2 维

应用场景：

• 客户分群
• 异常检测
• 数据可视化

半监督学习：介于监督和无监督学习之间，使用少量标注数据+大量未标注数据来训练模型。

强化学习：AI通过试错和奖励机制学习，就像训练宠物一样——做得好有奖励，做不好就调整。比如，AI玩游戏时不断尝试，找到得分最高的策略。

强化学习像训练宠物，AI通过试错和奖励机制学习最佳策略。没有明确告诉它“正确答案”，而是让它在环境中探索。

详细内容会在文章后面一节中讲解

深度学习（Deep Learning, DL）

深度学习（英语：deep learning）是机器学习的分支，是一种以人工神经网络为架构，对资料进行表征学习的算法。深度学习中的形容词“深度”是指在网络中使用多层。 --维基百科

深度学习是机器学习的一个子集，使用深度神经网络（Deep Neural Networks, DNN）模拟人脑神经元的工作方式，从大量数据中提取特征并进行推理。

这里用表格来看下

特性	机器学习	深度学习
特征	需要手工提取特征（如 SVM, 决策树）	自动提取特征（如 CNN, RNN）
数据需求	可用于小规模数据	需要大量数据
计算资源	适用于低算力设备	需要 GPU/TPU
表现	适用于规则明确的任务	在图像、语音、自然语言处理等领域表现卓越

深度学习核心架构

人工神经网络（Artificial Neural Network, ANN）

• 基本结构：输入层、隐藏层、输出层
• 主要用于回归(预测数字)、分类问题(猫狗、垃圾邮件)

想象你有个机器人小弟，想教它干活。ANN就是它的“小脑瓜”，模仿人脑神经元，能学会简单任务。你给它输入信息（比如“房子多大”），它通过层层思考，最后输出答案（比如“值多少钱”）。它是最基础的神经网络，像个“万能小助手”

卷积神经网络（Convolutional Neural Network, CNN）

特别擅长看图片。想象一个会自动发现图片中重要特征（边缘、形状、纹理）的系统。

识别照片中是猫还是狗。先看毛发纹理，再看耳朵形状，最后综合判断

适用领域： 计算机视觉（CV） 关键模块：

• 卷积层（Convolution Layer）你拿放大镜看漫画，先找头发、眼睛这些特征
• 池化层（Pooling Layer）看完漫画，只记“大眼睛、小鼻子”，细节忘了
• 全连接层（Fully Connected Layer）拼完拼图，看全图喊：猫咪~

循环神经网络（Recurrent Neural Network, RNN） 适用领域：自然语言处理（NLP）

有"记忆力"的网络，能处理有前后关系的数据

预测句子的下一个词，需要记住前面说了什么，有个朋友特别会聊天，你说“我今天很…”，他马上接“累吧？”因为他记住了你前面说了啥

关键模块：

• 长短时记忆网络（LSTM）像“聪明记事本”，能挑重点记，忘掉不重要的。比如，你说“昨天吃了面，今天饿了想…”，它记“饿了想吃”，忘了“昨天的面”
• 门控循环单元（GRU）像LSTM的“轻便版”，记事本薄点，但更快。比如，只记“今天饿了”，不记太久远的事
• 变换器（Transformer，如 GPT、BERT）像“全能助手”，不只记前面，还能看整句话，秒猜下一词。比如，你说“我饿了想吃”，它一下猜“pizza”

生成对抗网络（Generative Adversarial Networks, GAN） 有两个阵营：一个造假，一个查假，最后假的东西能以假乱真

生成逼真的数据（如 AI 画作、人脸合成）

刷抖音看到的AI换脸视频，就是GAN实现的

结构：

• 生成器（Generator）造假东西（图片、声音）
• 判别器（Discriminator）挑毛病，逼造假的越造越真

强化学习（Reinforcement Learning, RL）

强化学习是一种让智能体通过与环境交互学习的范式，目标是找到一个策略（Policy），使智能体在长期内获得最大化的累积奖励。它的灵感来源于行为心理学中的“试错学习”（Trial-and-Error Learning）和“奖励机制”。

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为，这个方法具有普适性 --维基百科

关键概念

环境（Environment）：智能体学习的世界（如棋盘、游戏、现实世界）。 智能体（Agent）：学习者，学习和做决策的实体（如机器人、自动驾驶系统） 状态（State, s）：描述当前环境的信息（如围棋棋局） 动作（Action, a）：智能体可执行的操作（如走棋） 奖励（Reward, r）：动作的即时反馈（如胜利+1分） 策略（Policy, π）：智能体选择动作的规则 价值函数（Value Function, V）：衡量状态的长期收益

主要算法

强化学习的算法就像教一个“新手”学会玩游戏的不同方法。每个算法都有自己的套路，有的简单直接，有的复杂聪明。这里用王者荣耀的例子（比如训练“鲁班七号”学会打得好）来理解以下算法

价值迭代方法

Q-Learning Q学习就像给鲁班七号一个“记分表”，记录每种情况下每种动作能拿多少分。鲁班试着玩游戏，边玩边更新这个表，最后学会挑得分最高的动作

• 鲁班先乱试，攻击早了没补到（0分），记在表里
• 下次晚点攻击，补到了（+1分），更新表：“晚点攻击得分高”
• 玩几局后，表里写着“血剩10%时攻击=1分，不攻击=0分”
• 鲁班以后就挑得分高的动作，学会补兵
• 深度 Q 网络（DQN）

DQN是Q学习的“升级版”，不用记分表了，改用一个“超级大脑”（神经网络）来猜每个动作的得分。鲁班不用记每个情况，而是靠大脑预测“现在干啥最好”

• 鲁班一开始乱打，神经网络猜“攻击=0.5分，走位=0.3分”
• 他试着攻击，补到兵（+1分），告诉网络“猜错了，攻击值1分”
• 网络调整，下次猜得更准：“攻击=0.9分，走位=0.2分”
• 玩几千局后，网络能看地图猜：“现在攻击敌人能得5分，走位才1分”，鲁班就优先打人

策略优化方法

• 策略梯度（Policy Gradient, PG） 策略梯度不记得分，而是直接教鲁班一个“行动指南”（策略），比如“敌人近时攻击，远时走位”。通过试错，调整指南让它更好

• 鲁班有个初始指南：“50%概率攻击，30%放技能，20%走位”
• 他试着攻击，杀了敌人（+5分），指南调整成“60%攻击，25%技能，15%走位”
• 下次走位被杀（-2分），指南再调：“55%攻击，25%技能，20%走位”
• 玩多了，指南变成“80%攻击，15%技能，5%走位”，鲁班学会优先打人
• 近端策略优化（PPO） PPO是策略梯度（Policy Gradient）的“安全升级版”。它还是教鲁班一个“行动指南”（策略），但加了个“安全带”，让鲁班学得稳一点，不至于试错时跑太偏。比如，它不会让鲁班一下子从“猥琐补兵”变成“疯狂冲塔”，而是小步调整，确保进步靠谱

• 鲁班有个初始指南：“40%攻击，40%技能，20%走位”
• 他试着放技能，杀了敌人（+5分），指南想调成“30%攻击，50%技能，20%走位”
• PPO说：“别调太多，先试试45%技能，慢慢来。”鲁班试了，效果不错
• 再试几局，发现走位被杀（-2分），PPO又小调：“50%技能，20%攻击，30%走位”
• 玩几千局后，指南变成“60%技能，25%攻击，15%走位”，鲁班学会草丛偷袭

Actor-Critic（演员-评论家） Actor-Critic是个“双人组合”算法：

• 演员（Actor）：负责选动作，告诉鲁班“现在干啥”
• 评论家（Critic）：负责评分，告诉演员“你干得咋样” 两人合作：演员试着玩，评论家给反馈，演员再改进，慢慢配合得越来越好

• 演员说：“试试攻击吧，50%概率。”鲁班攻击，杀了敌人（+5分）
• 评论家看完说：“这一步值5分，做得不错！”然后告诉演员“攻击靠谱，多试试”
• ：“攻击60%，技能30%，撤退10%”
• 下次鲁班撤退被追杀（-2分），评论家说：“撤退才-2分，不好。”演员再调：“攻击65%，技能30%，撤退5%”
• 玩几千局，演员学会“塔下反击”，评论家也能准评“啥时候打值钱”
• 深度确定性策略梯度（DDPG） DDPG是一种强化学习算法，专门用来处理连续动作的问题。它结合了“策略梯度”（教鲁班一个行动指南）和“Q学习”（记分表）的优点，用神经网络来帮忙，让鲁班学会更精细的动作。比如，不是简单选“攻击还是不攻击”，而是决定“攻击的力度多大”或“走位偏移几度”。它像一个“精准教练”，教鲁班在复杂环境中做出流畅、精确的决策。

• 鲁班一开始乱试，比如技能瞄偏了，走位撞墙（-2分）
• DDPG用两个“教练”帮忙： 策略教练（Actor）：说“试试瞄准30度，走位左移1米” 评分教练（Critic）：看结果，说“这一步值3分，不错”
• 鲁班试了几次，发现“瞄准45度，走位右移2米”杀了敌人（+5分）
• 策略教练调整：“多试45度方向，走位2米左右。”评分教练更新：“这值5分！”
• 玩几千局后，鲁班学会精准瞄准+灵活走位，像个“操作大师”

典型应用

• AlphaGo：使用强化学习+深度学习击败人类围棋冠军
• 自动驾驶：强化学习控制无人车决策
• 机器人控制：学会如何抓取、行走等

一点总结

以上就是这三种学习的基础概念，大概有所了解了，具体有哪些区别呢，总结一下

关联：

• 深度学习是机器学习的子集
• 强化学习可以结合深度学习技术(深度强化学习)
• 机器学习关注从数据中学习模式
• 深度学习专注于通过多层网络学习复杂特征
• 强化学习关注通过与环境交互学习策略

适用场景：

• 机器学习适用于结构化数据和明确定义的问题
• 深度学习擅长处理非结构化数据(图像、文本、音频)
• 强化学习适用于需要序列决策的问题(游戏、机器人控制)

计算资源:

• 传统机器学习算法计算需求较低
• 深度学习通常需要更多计算资源
• 强化学习在复杂环境中计算开销大

机器学习 VS 深度学习 VS 强化学习

对比项	机器学习（ML）	深度学习（DL）	强化学习（RL）
核心	数据驱动的模型学习	神经网络建模复杂数据	通过奖励信号学习策略
是否使用神经网络	可选	必须	可选（DQN, PPO）
数据需求	适中	大量	依赖环境交互
应用领域	预测、分类	计算机视觉、NLP	机器人、游戏、控制系统

学完以上内容，以下这张图片是ChatGPT直接生成绘制的区别图，大家看看对不对呢？欢迎大家交流

未来趋势

• 融合发展：强化学习+深度学习（像DQN、PPO）越来越强
• 少数据学习：迁移学习、自监督学习让AI更省力
• 可解释性：让AI说出“为啥这么选”，更可信
• 现实应用：从游戏到工业、医疗，AI无处不在

人工智能（AI）的学习范式不断发展，除了经典的机器学习（ML）、深度学习（DL）和强化学习（RL）之外，还有许多新的学习方法，如自监督学习（SSL）、元学习（Meta-Learning）、联邦学习（FL）等。这些东西一篇文章无法讲完，后面希里安也会把基础概念慢慢分享给大家，咱们做不了专业算法工程师，但可以了解相关基础的知识，这样可以结合自己的行业经验，能够利用AI更好的体现自己的价值发挥更好的作用。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-03-30，如有侵权请联系 cloudcommunity@tencent 删除算法游戏AI机器学习强化学习数据

抖音推荐、人脸解锁、游戏AI咋来的？聊聊机器学习三兄弟