推荐算法的工程演进 - 推荐系统架构与工程实践

1. 算法迭代，本质是系统工程的适配升级

很多刚接触推荐的朋友，都会有一个固有认知误区。大家普遍觉得，推荐技术升级就是换模型、堆更复杂的深度学习网络，谁用的模型最新、结构最复杂，谁的推荐效果就更好。

但从多年工业落地和架构迭代的经验来看，事实并非如此。推荐算法的迭代，不是单纯为了把模型做复杂。而是用户规模、内容数量、用户行为类型、业务实时性要求越来越高后，整套推荐系统不得不做的适配升级。每一次算法更新，都是为了解决当下阶段系统跑不通、业务推不动的实际问题。

我们可以思考一个最基础的问题：完全依靠人工规则的推荐系统，为什么撑不住业务长期发展？

在业务刚起步的时候，用户少、内容少、使用场景单一。这个时候靠人工规则完全够用，上线快、效果直观，能快速跑通基础业务流程。但随着产品不断迭代，用户量和内容量飞速上涨，用户的浏览行为变得越来越丰富，业务玩法和使用场景也越来越多元。

这个时候如果还死守人工规则，就会出现大量规则堆叠、规则互相冲突的问题，后期维护会变得异常艰难。

也是在这个阶段，算法模型开始正式引入来解决推荐问题。这里有一个很关键的认知：算法只是推荐工程体系的一部分，不是全部。算法迭代永远服务于系统架构和业务发展，只做单点算法优化、脱离工程落地的优化，在实际业务中很难长期产生价值。

这也是本篇的核心写作思路。本文不堆砌公式、不讲数学推导、不聊学术理论。只结合一线落地经验，复盘每一代算法在工业系统里的实际作用、解决的实际问题、带来的架构变化，以及在落地过程中的取舍思考。

2. 算法在推荐全链路里的真实位置

结合第一篇讲的工业级推荐全链路架构，大家要清楚一点：算法不是只作用于排序这一个环节。从用户请求发起，到最终内容返回，整条流水线的多个核心步骤，都有算法能力的参与。

完整的线上请求流程可以简单概括为：

用户请求 → 多路内容召回 → 内容融合、粗排筛选 → 精排模型打分排序 → 重排规则微调 → 结果返回用户

除了线上流程，线下的数据清洗、样本制作、特征生产、模型训练和迭代，也全部依赖算法体系支撑。

本文讲到的规则、LR、GBDT、DNN、LLM Rank 这几代算法，覆盖了召回、粗排、精排、重排所有线上环节，也覆盖了线下的特征建模、模型训练、策略融合等核心流程。

整篇文章都以工程落地优先的思路，弱化理论知识，重点复盘每类算法的实际功能、适配场景、对系统复杂度的影响，以及不同业务阶段该如何选型。

3. 初代方案：人工规则，最原始的静态推荐模式

规则推荐是工业推荐最早的落地形态。完全依靠业务经验和人工配置策略搭建，是所有推荐系统的技术起点。哪怕现在深度学习、大模型已经普及，规则依然是线上兜底、业务管控的基础保障，无法被完全替代。

3.1 具体落地方式

规则推荐的逻辑很直白，就是靠人工提前写好筛选、匹配、排序的固定策略，完成内容分发。业内最常用的落地方式主要有这么几种：

热度排序：统计内容的点击、浏览、互动数据，让热门内容优先展示；
维度筛选：按照频道、类目、地域、发布时间等固定维度，筛选对应内容推送给用户；
人工权重干预：针对不同内容、不同场景手动调整排序权重，扶持优质新内容、打压低质内容、置顶运营重点内容；
标签匹配推荐：根据用户的基础静态标签，匹配对应类目的内容，实现最简单的个性化分发。

3.2 适用场景与实际价值

规则模式非常适合业务冷启动和早期小规模迭代阶段。最大的优势就是成本低、可控性强、上线速度快，完全能满足早期业务的基本需求。

在用户体量小、内容数量少、场景单一的阶段，不需要复杂的个性化建模。而且规则无需大量数据积累，不用训练模型，开发周期短，可以快速上线验证产品思路。

同时规则体系的优势是完全可追溯、可人工干预，没有模型黑盒问题。早期业务目标简单，核心只是完成内容分发、留住用户，规则完全够用。

早期做新闻网站、短视频App、资讯平台，最开始都是用纯规则做推荐。

最基础的做法就是做热门排行榜，首页直接按播放、点击、互动量排序，热度高的内容往前排，靠大众喜欢的内容吸引普通用户点击浏览。

之后会叠加地域规则，例如给北京用户推送本地资讯，给上海用户推送同城内容，实现最简单的差异化分发。

再进阶一点，会把多个规则融合打分。例如首页排序公式可能是：内容总分 = 点击率 × 0.4 + 新鲜度 × 0.3 + 类目匹配度 × 0.2 + 地域匹配度 × 0.1。靠人工固定权重，整合多个维度指标，完成综合排序。

3.3 架构短板与扩容局限

很多团队在规则阶段，最先遇到的问题并不是效果，而是规则越来越难维护。

业务初期，规则的优势非常明显：开发简单、运维轻松、结果可控、迭代方便。但只要业务规模开始扩张，这些优势会全部变成短板，直接卡住业务发展。

还是以资讯平台为例，业务做大之后，整个业务环境会发生全方位变化。首页推荐不再只看热度，还要结合用户偏好、设备、时段、活跃度等几十个维度。用户行为也不再只有简单点击，新增了停留、点赞、关注、完读、转发、不感兴趣等正负反馈。用户和内容的体量，更是会暴涨数个数量级。

这个时候纯规则架构的问题会彻底暴露，主要集中在：

规则越堆越多：为了适配各类细分场景，只能不断新增定制规则，最后规则数量泛滥，毫无章法；
规则互相冲突：热门规则、个性化规则、地域规则没有统一调度逻辑，经常互相覆盖，导致推荐结果忽好忽坏、异常波动；
做不到千人千面：一套固定规则适配所有用户，无法匹配不同用户的差异化兴趣，没有真正的个性化；
权重无法调到最优：所有权重都是人工凭经验设定，没有数据支撑。人工根本没法遍历所有场景，调不出适配全局的最优权重；
维护成本持续飙升：规则越复杂，问题排查、策略优化、版本迭代就越困难，长期堆积大量技术债务，系统慢慢失去迭代能力。

复盘来看，规则系统可以支撑业务从0到1起步，但完全撑不住业务从1到100的规模化、个性化发展。

4. 二阶迭代：LR线性模型，从人工经验转向数据驱动

当业务进入规模化增长阶段，规则的各种问题会集中爆发。人工调权不准、无法自适应变化、维护成本高、没有个性化能力。也是在这个阶段，行业推荐架构完成了第一次关键升级，从人工经验驱动，正式切换为数据驱动。LR逻辑回归作为第一代工业化机器学习模型，彻底重构了早期推荐的工程架构。

4.1 为什么一定要从规则迭代到LR

规则模式的问题，不是出在排序结果不对，而是所有策略、所有权重都是人工写死的，不会跟着业务变化、用户变化自动调整。

前面提到的打分公式，所有权重都是研发和运营凭感觉配置的，没有数据依据，而且全局统一、一成不变。

但真实的业务场景是动态变化的。不同用户、不同时段、不同内容、不同使用场景，各个维度的重要性完全不一样。固定的人工权重，根本适配不了动态的业务变化，时间久了推荐效果会停滞甚至倒退。

行业急需一套新方案，能够自动从数据里学权重、跟着业务迭代更新、适配不同用户的个性化需求，LR模型就此成为最优选择。

4.2 LR模型的核心价值

LR最大的变革，就是彻底告别人工拍脑袋调权重的模式。依托海量真实的用户行为数据，让模型自动算出每一个特征的最优权重，让排序逻辑完全由数据说了算。

举几个一线落地的真实例子，大家就能直观感受到LR的优势：

适配不同场景：早上用户更喜欢看资讯内容，晚上更喜欢休闲娱乐内容。LR可以自动学到时段的权重差异，动态调整排序倾向。而规则只能全程用同一套固定权重；
适配不同用户：新用户没有行为数据，LR会自动拉高热门、通用内容的权重。老用户兴趣固定，LR会重点匹配历史偏好内容。规则完全做不到这种精细化分层适配；
适配热点变化：出现突发热点内容时，用户的点击和互动会暴涨。LR能快速捕捉这种数据变化，自动抬高热点内容权重，不用人工加规则、手动调参。

除此之外，LR结构简单、线上推理速度快、能扛高并发、可解释性强、适配海量稀疏特征，训练和部署成本都很低，非常贴合业务规模化初期的工程需求。

4.3 LR带来的整套工程升级

从规则架构升级至LR模型架构，表层是算法迭代，本质是推荐系统的全链路体系性重构。自此，推荐系统不再是单纯的在线业务服务，正式构建起一套完整的体系：数据生产、特征治理、模型训练、实验迭代全流程打通。

从而，让整个系统完善了一整套基础能力：样本清洗、离线特征生产、在线特征服务、模型版本管理、灰度发布与回滚、A/B实验体系。

这样的升级，让推荐彻底摆脱了人工运营的粗放模式，正式进入数据驱动的迭代阶段。

5. 三阶迭代：GBDT树模型，自动做特征组合与非线性拟合

LR解决了人工调权的问题，让推荐进入了数据驱动的阶段。但LR是线性模型，表达能力有限，满足不了后期精细化的推荐需求，于是行业开始迭代出GBDT梯度提升树模型。

5.1 线性模型的固有短板

LR的核心局限很明显。它只能学习单个特征的独立权重，没办法挖掘特征和特征之间的关联关系，也做不到非线性拟合。

这就导致模型效果非常依赖人工特征工程。复杂的特征组合，必须靠研发手动设计、手动拼接。

举个真实的业务场景：一个用户长期喜欢体育、近期频繁看NBA赛事、当前是晚间休闲时段、内容是最新篮球资讯。

LR可以分别识别出"体育匹配""近期浏览NBA""晚间时段""内容新鲜"这些单点优势，但它不知道这些特征叠加在一起，会产生更强的推荐增益。这种高维组合的优势，只能靠人工手动设计特征来实现，成本极高，而且永远无法穷尽所有组合。

5.2 GBDT的核心突破

GBDT最大的价值，就是补齐了线性模型的表达短板。它可以自动挖掘特征之间的非线性关联，自己完成高价值特征的交叉组合。

以前需要工程师熬夜手动设计的特征组合，GBDT可以直接从海量数据里自动学习、自动加权。能够精准捕捉复杂的用户兴趣规律，大幅提升排序精度。同时GBDT可以自动区分特征的重要程度，弱化无效特征、强化优质特征，非常适配结构化特征丰富的业务场景。

从这一阶段开始，特征工程本身逐渐变成推荐系统最核心的竞争力之一。

5.3 迭代带来的工程代价

GBDT提升效果的同时，也拉高了整套系统的工程复杂度。推荐服务从此进入了精细化、高复杂度的模型驱动阶段。

训练成本明显变高：GBDT 需要更多数据、更多迭代轮数，训练时间更长，对 CPU、内存资源消耗更大，离线训练流程需要专门优化。
线上推理速度变慢：树模型的预测逻辑比 LR 复杂，单次请求耗时更高。在高并发场景下，会直接增加服务延迟压力，需要做性能优化。
特征一致性要求变得更严格：离线训练和在线推理的特征只要差一点点，线上效果就会掉得很明显。特征对齐、特征口径、特征处理逻辑必须一模一样，排查难度大幅上升。
模型可解释性下降：LR 每个特征权重清清楚楚，出问题能快速定位。GBDT 是多棵树组合决策，很难直观解释"为什么这条内容排第一"，线上问题定位变慢。
模型部署与发布更复杂：模型文件更大、版本更多，需要专门的模型管理、加载、降级、回滚机制。不像 LR 轻量简单，直接更新就行。
调参与迭代成本更高：GBDT 可调节的参数更多（树深度、树数量、学习率、正则等），需要大量实验才能调到最优。人力成本、实验成本都比 LR 高。

整体来看，GBDT解决了人工特征组合的效率问题，但也让推荐系统的运维成本和迭代难度，迈上了一个新台阶。

6. 四阶迭代：DNN深度学习，从人工特征到模型自学习

GBDT把结构化特征的拟合效果做到了极致。但当业务走向成熟，数据体量爆炸式增长，传统机器学习的短板会彻底暴露，深度学习DNN就此成为新的迭代方向。

6.1 传统模型的适用瓶颈

平台成熟之后，业务复杂度会大幅提升。用户和内容体量达到千万、亿级，稀疏的ID特征越来越多。用户的长短期兴趣会随时变化，内容也涵盖图文、视频等多种形态，场景逻辑越来越复杂。

这个时候，LR、GBDT的局限性彻底显现。这类模型高度依赖人工特征工程。面对海量稀疏特征、复杂的语义关联、动态变化的用户兴趣，人工根本设计不出所有高价值特征和交叉组合。

简单来说，人工设计特征的速度，已经跟不上业务复杂度增长的速度。行业需要一套不依赖人工、可以自主学习深层规律的方案。

6.2 DNN深度学习的落地价值

DNN深度神经网络，给推荐系统带来了一次本质升级。

DNN 最大的变化，是推荐系统开始摆脱对人工特征工程的强依赖。过去很多高价值特征，需要研发手动设计。而 DNN 开始让模型自己学习用户、内容、上下文之间的深层关联。

它彻底改变了推荐的建模逻辑，不再局限于人工定义的特征组合。核心价值体现在几个方面：

通过Embedding向量技术，把海量稀疏特征转化为低维向量，解决了稀疏特征无法建模的问题；
可以精准建模用户的长期、短期动态兴趣，贴合用户真实浏览习惯；
能够适配图文、视频等多模态内容，理解不同形态内容的特征；
支持行为序列建模、多目标联合优化，同时兼顾多种业务诉求；
实现召回、排序一体化建模，全方位突破传统模型的效果上限。

6.3 深度学习带来的体系升级

DNN不是简单替换旧模型，而是对推荐架构的颠覆性升级。整套系统从"人工特征驱动"，正式变成"表示学习+大型工程平台驱动"的模式，工程复杂度实现了跨越式提升。

深度学习需要海量训练数据支撑，需要大数据计算体系全面升级。模型训练依赖GPU集群和分布式架构，算力成本大幅增加。

同时需要单独搭建向量特征、序列特征、多模态特征的治理平台。线上推理延迟、离线在线一致性、模型监控运维的难度，都提升了一个档次，对团队工程能力和资源储备提出了很高要求。

DNN 时代之后，推荐系统团队开始明显平台化。算法、特征、训练、推理，逐渐拆成独立方向。

7. 五阶迭代：LLM大模型排序，从特征匹配到认知理解

DNN深度学习，让推荐系统具备了自主学习、自主建模的能力，完美支撑了海量业务的规模化落地。但行业进入存量竞争阶段后，用户对体验的要求越来越高，传统深度模型的能力边界逐渐显现，LLM大模型开始融入推荐排序体系。

7.1 传统深度模型的能力边界

线上在用的主流DNN模型，核心短板主要有三点：

第一，语义理解比较表层。只能学到向量层面的隐性关联，没办法真正读懂内容的深层逻辑、文字情绪、核心主题。

第二，没有逻辑推理能力。不能结合多维度条件做综合判断，也揣摩不出用户的隐性浏览意图，只会拟合历史行为。

第三，泛化能力弱、冷启动效果差。新内容、新热点、小众垂类内容，没有充足的业务样本，模型就很难推准。

在流量增量时代，靠行为拟合、向量匹配就能满足基本需求。但现在用户更看重个性化、智能化体验，大模型的认知和推理能力，刚好能补齐传统模型的短板。

7.2 LLM Rank的核心能力升级

大模型赋能推荐排序，跳出了传统"特征拟合+向量匹配"的固有模式，让推荐从"匹配学习"升级为"认知推理"，核心提升非常直观：

真正读懂内容：可以理解长文本、视频文案、剧情介绍、评论观点的核心语义和情绪，不再只靠向量模糊匹配；
揣摩隐性意图：结合用户历史行为、用户画像、实时场景，推理用户当下的真实浏览需求，不只是机械复刻历史兴趣；
复杂逻辑判断：可以自主整合多维度业务规则、用户偏好、场景特征，完成精细化的个性化排序决策；
泛化能力更强：依托海量通用知识预训练，面对新热点、新内容、小众垂类、新用户冷启动，都能给出不错的结果，不依赖大量业务样本；
调试迭代更灵活：可以用自然语言Prompt定义排序偏好和业务规则，替代大量硬编码规则，迭代效率远高于传统模型调参。

7.3 LLM落地的工程取舍与现状

大模型带来了体验上的质变，但也把推荐系统的复杂度、算力成本、运维门槛推到了新高，是目前工业落地难度最大的方案。

大模型参数量大，原生推理延迟高、算力消耗极高，完全不适合全站高并发精排。同时模型输出有随机性、偶尔会出现幻觉，打分区间不稳定，必须配套严格的风控和兜底策略。除此之外，Prompt工程、语义打分、大模型特征治理，都需要单独搭建体系，对团队综合能力要求极高。

所以行业里有统一共识：不会用LLM替换全量精排。主流落地方式都是DNN精排为主、LLM重排微调为辅，在效果、成本、稳定性之间做平衡。

7.4 工业主流落地架构

为了解决大模型延迟高、算力消耗大的问题，业内统一采用离线预打分+在线轻量重排的混合架构。一般会把耗算力的语义认知计算，全部放在离线闲时批量完成，提前生成多维语义分数入库，规避在线推理压力。线上依靠成熟的DNN模型完成全量精排，筛选出少量优质候选内容后，再用轻量化LLM做精细重排，最后搭配分数归一化和业务规则兜底，保证结果稳定可控。这一套架构，是目前大模型推荐能够规模化量产的最优方案。

8. 五代算法横向对比

为了方便大家直观理解每一代算法的适配场景和能力差异，下面从核心能力、解决问题、工程难度、适配阶段四个维度，做了一个全景对比：

算法阶段	核心能力	解决的核心问题	工程复杂度	适配业务阶段
规则推荐	人工可控、规则约束、快速兜底	快速上线、业务强管控、冷启动兜底	低	业务冷启动、早期小规模系统
LR逻辑回归	数据驱动、自动学习特征权重	解决人工调权主观性问题，实现基础个性化排序	中	业务规模化初期、基础个性化场景
GBDT梯度提升树	非线性拟合、自动特征组合	降低人工特征成本，挖掘高维特征关联，提升排序精度	中高	结构化特征丰富、需要精细化排序的场景
DNN深度学习	表示学习、序列建模、多模态建模	解决海量稀疏特征、复杂用户兴趣、多场景适配难题	高	业务成熟期、海量数据与高并发场景
LLM大模型排序	语义理解、逻辑推理、认知打分、零样本泛化	解决浅层语义不足、无推理能力、冷启动泛化弱、个性化不足的高阶体验问题	极高	存量精细化运营、高阶体验升级、复杂内容生态场景

9. 架构选型：适配业务，远比追逐新技术更重要

结合多年落地经验，最大的感受是：算法选型从来不是比谁的技术更先进，而是综合业务阶段、数据体量、团队工程能力、运维成本、业务效果做权衡。行业没有万能的最优算法，只有最适配当下业务的方案。

很多人觉得规则、LR、GBDT都是落后技术，但在真实工业场景里，它们至今不可替代。规则是所有系统的管控兜底，运营干预、风控约束、内容过滤都离不开它。LR在轻量化、高并发场景里，性价比远超复杂模型。GBDT在结构化特征充足的场景，效果稳定、运维简单，很适合中小团队。DNN是成熟业务的标配，适配海量数据、高并发的规模化场景。

而LLM大模型，从来不是用来替代传统模型的工具，只是用来做体验增强的补充方案。它只适合精细化运营、追求用户体验升级、有充足算力和工程能力的头部业务。中小团队盲目落地大模型，只会徒增成本、拖慢服务性能，最终得不偿失。

顶级的工程架构设计，从来不盲目追新。只追求适配业务、成本可控、效果稳定。

10. 全链路多模型协同，工业级标准落地方式

正规的工业级推荐系统，不会用单一算法贯穿全流程。一般都会根据召回、粗排、精排、重排各环节的性能和效果需求，分层选型、多模型协同，以此平衡效果、性能和成本，这也印证了"算法服务系统、系统服务业务"的核心逻辑。

召回层：核心是保证内容覆盖全、延迟低、扛得住高并发。一般用规则筛选、协同过滤、向量召回等轻量化算法，优先保障候选池完整、服务稳定。在相关性召回源中，LR或者GBDT也会作为算法选择之一，提升最终的效果；
粗排层：核心是平衡效果和成本，快速筛掉低质内容。大多用轻量化LR、简易DNN模型，用极低耗时完成候选集初步筛选；
精排层：核心是追求极致排序精度，是效果优化的核心环节。普遍使用GBDT、深度DNN、多目标深度学习模型，作为整套排序体系的核心底座；
重排层：核心是优化用户体验、贴合业务规则。在传统规则兜底的基础上，加入LLM大模型做认知打分、语义去重、意图适配、调性筛选，实现体验精细化升级。

多算法分层协同，是工业推荐的标准形态。可以有效弥补单一模型的能力短板，实现性能、效果、体验、成本的多维平衡。

11. 全文总结：算法迭代，是工程体系的持续进化

复盘完整的迭代路径：人工规则（经验驱动）→ LR（数据驱动权重学习）→ GBDT（非线性特征自动组合）→ DNN（深度表示学习建模）→ LLM（认知理解与推理排序）。

表面看是模型能力越来越强，本质是整套推荐工程体系的持续重构。从最初纯人工的经验系统，迭代为标准化的数据驱动系统，再升级为自主学习的智能化平台，最终进化为大模型赋能的认知推荐体系。

每一次算法升级，都会带来系统复杂度、运维成本、资源消耗的提升。成熟的工业架构，永远不会盲目追逐新技术。只会结合业务发展阶段，在推荐效果、服务成本、系统稳定性、可维护性、用户体验之间，寻找最合适的平衡点。

算法只是工具，工程才是底座，业务才是最终目标。吃透这套演进逻辑，才能真正落地出一套可迭代、高性价比、稳定可靠的工业级推荐系统。

← 上一篇：推荐系统架构全景下一篇：召回层架构与工程实践 →