Raina-软件测试指南
AI测试学习圈
  • 基础测试方向

    • 测试基础理论面试题
    • 测试用例设计面试题
    • 功能测试面试题
    • 性能测试面试题
    • 自动化测试面试题
    • 接口测试面试题
    • 移动端测试面试题
    • 安全测试面试题
    • 测试管理面试题
    • 测试工具面试题
    • 敏捷测试面试题
    • 数据库测试面试题
    • 兼容性测试面试题
    • 测试环境管理面试题
    • 测试文档面试题
    • 测试编程语言面试题
    • 测试最佳实践面试题
    • 项目实战面试题
  • AI 测试方向

    • AI测试基础与AI辅助测试面试题
    • 大模型LLM应用测试面试题
    • AI Agent与AIGC评估面试题
    • 机器学习模型与AI安全测试面试题
    • AI Agent协议与扩展机制测试面试题
  • 业务领域专项

    • 电商交易系统测试面试题
    • IM即时通讯系统测试面试题
    • 支付与金融系统测试面试题
    • 直播与短视频系统测试面试题
    • 社交Feed系统测试面试题
    • 外卖与出行系统测试面试题
    • 在线教育系统测试面试题
    • RTC实时音视频系统测试面试题
    • 办公SaaS与多租户系统测试面试题
关于作者
🌍 知识星球
📕 小红书
📺 B站
AI测试学习圈
  • 基础测试方向

    • 测试基础理论面试题
    • 测试用例设计面试题
    • 功能测试面试题
    • 性能测试面试题
    • 自动化测试面试题
    • 接口测试面试题
    • 移动端测试面试题
    • 安全测试面试题
    • 测试管理面试题
    • 测试工具面试题
    • 敏捷测试面试题
    • 数据库测试面试题
    • 兼容性测试面试题
    • 测试环境管理面试题
    • 测试文档面试题
    • 测试编程语言面试题
    • 测试最佳实践面试题
    • 项目实战面试题
  • AI 测试方向

    • AI测试基础与AI辅助测试面试题
    • 大模型LLM应用测试面试题
    • AI Agent与AIGC评估面试题
    • 机器学习模型与AI安全测试面试题
    • AI Agent协议与扩展机制测试面试题
  • 业务领域专项

    • 电商交易系统测试面试题
    • IM即时通讯系统测试面试题
    • 支付与金融系统测试面试题
    • 直播与短视频系统测试面试题
    • 社交Feed系统测试面试题
    • 外卖与出行系统测试面试题
    • 在线教育系统测试面试题
    • RTC实时音视频系统测试面试题
    • 办公SaaS与多租户系统测试面试题
关于作者
🌍 知识星球
📕 小红书
📺 B站
  • 基础测试方向

    • 测试基础理论面试题
    • 测试用例设计面试题
    • 功能测试面试题
    • 性能测试面试题
    • 自动化测试面试题
    • 接口测试面试题
    • 移动端测试面试题
    • 安全测试面试题
    • 测试管理面试题
    • 测试工具面试题
    • 敏捷测试面试题
    • 数据库测试面试题
    • 兼容性测试面试题
    • 测试环境管理面试题
    • 测试文档面试题
    • 测试编程语言面试题
    • 测试最佳实践面试题
    • 项目实战面试题
  • AI 测试方向

    • AI测试基础与AI辅助测试面试题
    • 大模型LLM应用测试面试题
    • AI Agent与AIGC评估面试题
    • 机器学习模型与AI安全测试面试题
    • AI Agent协议与扩展机制测试面试题
  • 业务领域专项

    • 电商交易系统测试面试题
    • IM即时通讯系统测试面试题
    • 支付与金融系统测试面试题
    • 直播与短视频系统测试面试题
    • 社交Feed系统测试面试题
    • 外卖与出行系统测试面试题
    • 在线教育系统测试面试题
    • RTC实时音视频系统测试面试题
    • 办公SaaS与多租户系统测试面试题

社交 Feed 系统测试面试题

本文档包含 18 道社交 Feed 系统方向的高频面试题,覆盖 Feed 架构与推拉模型、推荐排序、A/B 实验、热搜与热点、信息流广告、互动(点赞/评论/转发)、关系链、通知系统、话题与超话、内容审核、防刷防作弊、监控大盘。Feed 是国内大厂(微博、抖音、小红书、知乎、B 站、X / Twitter)的核心业务形态之一,准备时建议把自己用过的产品当作案例对照展开。


一、Feed 架构与数据模型(4题)

Q1: Feed 流的推拉模型怎么选?

答案:

Feed 流是社交系统的核心,本质问题是"用户 A 关注了 1000 人,怎么把 1000 人的最新动态高效组合成一条时间轴"。工程上有三类经典方案。

推模式(Push / Fan-out on Write)。用户发动态时主动写到所有粉丝的"收件箱",粉丝读时直接查自己的收件箱。优点:读极快,扩展性好。缺点:大 V 发一条要扇出几百万、几千万次写入("明星结婚导致微博崩溃"就是这个原因)。

拉模式(Pull / Fan-out on Read)。用户读时主动去拉所有关注对象的最新动态,聚合排序后展示。优点:写极轻量、存储省。缺点:读极重,关注 1000 人就要做 1000 次查询。

推拉结合。普通用户走推模式(粉丝少扇出便宜),大 V 走拉模式(避免百万级扇出)。读时把"普通收件箱"+"大 V 拉取"两路合并。Twitter 早期就是这套架构,国内微博、小红书也都用类似方案。

选型考虑:

读写比。读多写少用推模式(多数社交产品),读写均衡用拉模式(少数)。

用户分层。粉丝量分布是否长尾(少数大 V + 大量普通用户)。

实时性。推模式更实时,拉模式有聚合延迟。

存储成本。推模式收件箱重复存储,拉模式按需聚合更省。

测试关注点:

推模式扇出。大 V 发动态时扇出延迟、扇出完整性(千万粉丝是否都收到了)、扇出过程中失败重试、扇出期间粉丝列表变化(新增、删除粉丝)的处理。

拉模式聚合。关注 1000 人时聚合时长、分页正确性、聚合时部分依赖超时的降级。

混合模式合并。两路数据合并排序的正确性、去重、顺序一致性。

实战 Bug 多在边界场景:扇出未完成时粉丝刷新看到部分新动态、删除关注后还能看到旧动态、聚合时某条慢查询拖垮整体响应。

Q2: 推拉结合的 Feed 模型怎么测?

答案:

推拉结合是主流方案但测试复杂度高,因为有两套并行的链路,要测它们的合作、合并、降级。

测试维度:

边界判定。"什么用户走推、什么走拉"通常按粉丝数阈值划分(如粉丝 > 100 万走拉模式)。要测:

阈值附近(99 万 vs 101 万)行为是否正确切换。

阈值切换时机(用户从普通涨到大 V 的过渡)。

不同业务场景(普通动态 vs 视频 vs 直播预告)是否用同一阈值。

扇出 + 拉取的合并。

时间戳排序。两路数据合并后按发布时间排序,要测时间戳精度(毫秒级,否则同秒发的两条顺序可能乱)。

去重。如果普通用户互相关注的大 V 同时被推和被拉,会不会重复出现。

新鲜度。两路数据更新延迟可能不同(推可能慢几秒),要测整体新鲜度是否一致。

写时扇出正确性。

扇出范围。当前在线粉丝 / 全量粉丝 / 活跃粉丝,不同策略都要测。

扇出顺序。一般按粉丝活跃度优先扇出(活跃用户优先看到),要测优先级队列正确。

扇出幂等。重试或并发场景下不应扇出多次(粉丝看到重复)。

读时聚合正确性。

关注列表变化的同步。用户关注/取关后多久生效到 Feed。

聚合的实时性。新发布的内容多久能拉到。

排序稳定性。同一用户多次刷新 Feed,前几条应大致相同(不应每次完全打乱)。

异常处理。

某路数据源故障(推模式收件箱不可达)的兜底(降级到完整拉模式)。

部分关注对象不可达的处理(跳过 vs 失败重试)。

数据一致性。

冷启动。新用户刚关注一批人,立即打开 Feed 能否看到内容(推模式还没扇出来)。

历史数据迁移。架构升级时新老两套 Feed 数据怎么合并、用户能否平滑过渡。

测试方法:

人工对比。模拟一组用户的关注关系,按预期推演 Feed 内容,和系统实际返回比对。

自动化用例。配置不同关注关系矩阵(1 个大 V、10 个普通用户、混合),多次刷新看是否符合预期。

线上巡检。监控两路数据的延迟分布、合并失败率、Feed 内容缺失率,超过阈值告警。

Feed 系统测试的"正确性"判断标准模糊(什么样算"对"),更多靠业务直觉和长期数据观察。

Q3: Feed 分页和回滚怎么测?

答案:

Feed 流的分页跟普通分页不同,因为内容是动态新增的(用户随时发新动态),传统"page + size"分页会出问题。

经典 Bug。用户翻到第 3 页(第 21~30 条)时,刚好有 5 条新内容发布,第 4 页(21+10=31~40)就会重复显示原来的 26~30 条。这是 Feed 分页最经典的"漂移"问题。

主流分页方案:

按时间戳分页(Cursor-based)。每次请求带"上次拉到的最后一条的时间戳",服务端返回比这个时间戳早的 N 条。优点:不会因新增数据漂移。这是 Feed 的事实标准。

按 ID 分页。和时间戳类似,但用消息 ID 作为游标。

混合分页。结合时间戳和 ID,处理同毫秒发布的多条。

测试维度:

分页正确性。

第一页加载、下拉刷新、上拉加载更多,三个动作返回的数据正确。

边界条件:第一页 0 条数据、不足一页、刚好一页、超过一页。

刷新与回顶。

下拉刷新加载新内容,断言新内容在最上面、旧内容保留、不重复。

回顶(点 Tab 或滚动按钮)后能否快速回到顶部并刷新。

新内容标识。下拉时如果有新内容,要不要展示"有 N 条新内容"的横幅提示。

无限滚动 vs 分页按钮。

无限滚动(Feed 流标配)。下拉到底自动加载下一页,要测加载状态、失败重试、到底提示。

分页按钮。某些场景(评论列表、动态详情)用按钮分页,测翻页、跳页、最后一页禁用。

回滚与历史。

用户点了一条动态进详情,返回 Feed 应回到原来的位置(不是回到顶部)。

刷新 Feed 后跳转再返回,行为是否一致。

特殊场景。

广告插入。Feed 中按规则插入广告,要测广告位置准确、广告不参与去重、广告点击行为正常。

视频自动播放。某些 Feed 会在视频条目滑到屏幕中央时自动播放,要测自动播放策略、滑出时停止、上下条切换的播放接续。

预加载。Feed 通常预加载下一屏的内容和图片,要测预加载策略和性能影响。

异常路径:

加载失败重试机制。

返回数据格式异常(字段缺失、类型不对)的容错。

长时间不刷新后再回来,已经过期了多久的内容(一般 24 小时以上)要给"重新刷新"提示。

测试方法上多用自动化 + 手工探索结合。自动化覆盖正向、边界、错误;手工探索找设计不合理的体验问题。

Q4: Feed 的排序策略有哪些?怎么测?

答案:

Feed 排序是产品策略的核心,从最简单的"时间倒序"到最复杂的"个性化推荐",不同产品差异巨大。

主流排序策略:

时间倒序(Reverse Chronological)。最朴素的方案,按发布时间从新到旧。优点:直观、可预期。缺点:用户错过没及时刷的内容、活跃用户淹没不活跃用户。Twitter、微博早期都用。

热度排序(Hot)。按互动量(点赞、评论、转发)排序,热门内容先看到。适用于"广场式"产品(如 Reddit、虎扑)。

算法推荐(Algorithmic)。综合用户兴趣、行为相似度、内容质量等多因素排序。抖音、小红书、Twitter 现在都是这套。

混合排序。多种策略混合,比如"前 3 条算法推荐 + 接下来时间倒序",或"主页用算法、关注页用时间"。

测试维度:

时间倒序测试。

时间精度。同秒发的多条动态怎么排(一般用 ID 或精度 ms 级时间戳)。

时区。跨时区用户看到的"现在时间"是否正确。

发布时间和展示时间。"5 分钟前"这种相对时间的渲染。

热度排序测试。

权重计算。点赞、评论、转发各占多少权重,要按规则验证。

时间衰减。热度随时间下降,老内容不能一直占榜。

榜单刷新频率。多久重排一次(一般几分钟)。

防刷。机器刷热度应被识别(详见 Q17)。

算法排序测试(详见 Q5、Q6)。是测试系统里最难的部分,重点测 A/B 实验、效果评估、降级兜底。

混合排序测试。

策略边界。前 3 条用算法、第 4 条开始时间倒序,要测过渡区域是否合理。

策略切换。用户主动切换排序方式(如"时间 / 热度 / 推荐"按钮),切换后内容立即更新。

策略灰度。新排序策略灰度发布,部分用户看到新版、部分看到旧版,要测灰度切流和 A/B 评估。

异常路径。

排序服务故障的降级。算法服务挂了降级到时间倒序,时间倒序也挂了降级到"系统精选内容",最终都不能空白。

数据延迟。排序依赖的特征(用户兴趣、热度数据)延迟时,排序结果是否会异常波动。

实战中"用户为什么没看到某条动态"是产品最常见的投诉,测试同学要能用排序日志和用户行为日志快速定位"是没有这条""被排到很后""排序了但用户没下滑"哪一种原因。


二、推荐排序与 A/B 实验(5题)

Q5: 推荐系统怎么分层?每层怎么测?

答案:

现代推荐系统是个庞大的工程系统,从用户进入到看到推荐内容要经过几个阶段,每个阶段都有自己的测试关注点。

推荐分层(业界标准):

召回(Recall)。从亿级内容池里选出几千个候选。多路召回是主流:用户兴趣召回、协同过滤召回、相似召回、热门召回、新内容召回等。

粗排(Pre-rank)。从几千个候选选出几百个,用轻量模型(LR、FM、轻量 DNN)快速打分。

精排(Fine-rank)。从几百个候选精排,用复杂模型(Wide&Deep、DIN、Transformer)输出几十个。

重排(Re-rank)。最后阶段做多样性、去重、广告插入、商业化调权等。

每层测试关注点:

召回测试。

召回完整性。给定用户特征,每路召回应返回预期范围的候选数(如兴趣召回 200 条、协同过滤 100 条)。

召回时延。每路召回响应时间(一般要求 P95 < 50ms),多路并行后总时延。

召回质量。召回的内容与用户兴趣的相关度,可建"金标准用户画像"测试集。

新内容召回。新发布内容多久能进召回池(一般几分钟到几小时)。

冷启动召回。新用户没有行为数据时的召回策略(一般用热门、地域热门、用户画像启动)。

粗排测试。

打分准确性。给定输入特征,模型输出分数应符合预期。

粗排速度。几千个候选打分时延(一般 P95 < 30ms)。

粗排和精排的一致性。粗排选出来的应该是精排打分较高的(否则精排白排)。

精排测试。

模型版本切换。新模型上线 vs 旧模型,结果差异分析。

特征质量。输入特征是否新鲜(用户实时行为应反映在特征里)、特征是否完整(不应大量缺失)。

精排时延。几百个候选打分时延(一般 P95 < 100ms)。

重排测试。

多样性。同一用户连续刷 50 条,品类、作者、内容类型不应过度集中。要测多样性指标(如品类熵)。

去重。同一作者的多条内容不应连续出现、用户看过的内容不应再次出现。

广告插入。按规则插入广告(如每 10 条插 1 条),要测插入位置、广告内容相关性。

业务规则。各种运营规则(推置顶内容、压制低质内容、保护新人内容)。

测试方法:

模拟用户。建一组"标准用户画像"(喜欢宠物、喜欢美食、新用户、活跃用户),跑推荐链路看输出是否合理。

回放测试。线上真实用户的请求日志在测试环境回放,对比新老版本的差异。

A/B 实验(详见 Q7)。新算法上线必须 A/B 实验,统计学显著后才全量。

线下指标。AUC、NDCG、Recall@K 等,用历史数据评估模型质量。

推荐系统的测试不是单一接口测试,是"用户体验"测试,需要建立完整评估体系(线下指标 + 线上 A/B + 用户调研三位一体)。

Q6: 推荐的多样性和冷启动怎么测?

答案:

多样性和冷启动是推荐系统的两大经典难题,做不好直接影响用户体验。

多样性问题。算法过度依赖"用户兴趣"会导致信息茧房,用户只看到同一类内容。要在"相关度"和"多样性"间平衡。

多样性维度:

品类多样性。50 条内容里美食占比不应超过 70%。

作者多样性。同一作者的内容不应连续超过 2 条。

内容形式多样性。图文、视频、直播应有合理比例。

时效性多样性。新内容(24 小时内)和优质老内容混合。

观点多样性。同一话题不同观点都呈现(如新闻 Feed)。

地域多样性。本地内容 + 异地热门内容混合。

测试方法:

指标计算。

品类熵。熵越高多样性越好。

Jaccard 相似度。相邻条目的相似度,越低越多样。

ILSD(Intra-List Similarity Diversity)。列表内平均相似度。

线下回归。每次算法升级都跑这些指标对比,不能下降。

人工评估。让人工浏览 50 条 Feed,主观打分(不重复、不无聊、有惊喜)。

冷启动问题。新用户没有行为数据,怎么推、推什么。

新用户冷启动策略:

注册时让用户选兴趣标签("你感兴趣的话题")。

基于地域、性别、年龄、手机型号等基础特征推荐。

启动时推热门内容("今日热门"),看用户互动行为快速收集兴趣信号。

引入老用户行为做迁移(同 device id 之前的行为、同手机号之前的账号)。

新内容冷启动策略:

刚发布的内容没有互动数据,要主动"投流"给一批种子用户。

种子用户的反馈(点击、停留、互动)决定后续投流量级。

投流失败的内容会被快速淘汰,避免占用流量。

测试方法:

冷启动场景模拟。注册一个全新账号,按各种路径使用(直接浏览 vs 选兴趣后浏览),看推荐策略生效。

兴趣探测速度。从"全无兴趣"到"明显有偏好"的转变需要多久(一般 30 分钟内能看到变化)。

新内容投流。发布一条新内容,跟踪它的投流路径、覆盖用户数、互动反馈。

冷启动指标。

新用户次日留存(看冷启动有没有快速吸引到用户)。

新用户首次互动率。

新内容曝光率(新内容多快能获得初次曝光)。

实战中多样性和冷启动会持续优化,测试同学要参与指标定义、长期监控、A/B 评估,是推荐质量的长期保障者。

Q7: A/B 实验系统怎么测?

答案:

A/B 实验(Online Controlled Experiments)是推荐和产品迭代的核心工具。测试同学常常负责实验平台的质量保障和实验数据的可信性。

A/B 实验流程:

定义假设。"新推荐算法比旧的能提升 CTR 5%"。

分流。把用户随机分到对照组(旧算法)和实验组(新算法)。

收集数据。运行一段时间(一般 7~14 天)。

统计分析。计算两组指标差异、统计学显著性。

决策。显著且业务正向则全量推广,否则回滚。

测试维度:

分流准确性。

分流均匀。50% / 50% 实验时,两组用户特征分布应基本一致(年龄、地区、活跃度等),不能出现"实验组都是高活跃用户"这种偏差。

分流稳定。同一用户每次访问应分到同一组,不应反复切换。

分流隔离。多个实验同时跑互不干扰。每个实验有独立的分流规则。

灰度切换。实验流量比例可动态调整(1% → 10% → 50% → 100%)。

数据收集准确性。

指标埋点。所有关键行为(点击、播放、互动、留存)都要埋点上报,不丢不重。

实验归因。用户行为要正确归因到所属实验组,不能错算。

数据延迟。从行为发生到数据可分析的时延(一般 T+1)。

指标计算准确性。

基础指标。CTR、播放完成率、停留时长、留存率,每个都要单元测计算逻辑。

统计显著性。用 t 检验、卡方检验等统计方法判断差异是否显著(一般要求 p-value < 0.05)。

样本量。要保证实验时间和样本量足够(功效分析)。

异方差和分层。某些指标在不同用户群表现差异大(VIP 用户 vs 普通用户),要分层分析。

实验可信度:

A/A 测试。把同一算法分两组跑,理论上指标应无显著差异。如果有差异说明分流或指标有问题。每个新实验前都要做 A/A 验证。

新颖效应。用户对新功能本能感兴趣,刚上线时指标好看,几天后回落。要等"稳态"再做决策。

季节性。节假日、大促期间用户行为异常,实验最好避开。

实验冲突。多个实验同时跑互相影响,要测正交分流和实验隔离。

实验生命周期:

实验配置。能配置实验流量、目标用户、过滤规则、统计指标。

实验启停。能随时启动、暂停、终止、回滚。

实验数据看板。实时看实验指标,发现异常立即停止。

实验结果存档。所有历史实验的配置、数据、决策都存档。

线上事故响应:

实验组指标异常恶化(如 CTR 暴跌、错误率飙升)时能否秒级回滚。

异常告警机制(实验组指标偏离阈值时告警值班)。

A/B 实验是工程 + 统计 + 业务的综合,测试同学的核心价值是保证"实验数据可信",否则团队基于错误结论做错误决策,损失远大于功能 Bug。

Q8: 热搜和热点系统怎么测?

答案:

热搜是社交产品的"晴雨表",是用户感知最强、监管最严、商业价值最高的功能之一。技术上看似简单(统计热度排序),实际涉及实时计算、防刷、人工干预、合规审核多方面。

热搜计算流程:

数据采集。搜索量、点赞、评论、转发、阅读等行为实时上报。

实时聚合。按时间窗口(如最近 1 小时、最近 6 小时)聚合各内容/话题的热度分。

热度算法。一般 = 互动量 × 时间衰减系数 × 质量加权 - 反刷量。

排序与展示。按热度分排序,展示 Top N(如热搜 Top 50)。

人工干预。运营按规则置顶、压制、删除某些条目。

测试维度:

热度计算准确性。

权重正确。点赞 1 分、评论 2 分、转发 3 分这种权重要按配置准确执行。

时间衰减。1 小时前的互动应有更高权重,24 小时前的权重低。

新鲜度。最近 30 分钟突然上升的话题应快速涌现("事件爆发")。

实时性。

热度变化的延迟(一般要求 < 5 分钟)。

突发事件(明星结婚、灾难新闻)的反应速度。

热搜刷新频率(一般每 5~15 分钟刷新)。

排序稳定性。

不应剧烈波动(热搜每分钟都在变会让用户困惑)。

平滑过渡(话题热度上升/下降时排名应平滑变化)。

防刷与反作弊(详见 Q17)。

机器刷量识别(同一 IP 大量搜索)。

僵尸账号识别(注册后立即活跃)。

恶意热搜(黑产推热)。

人工干预。

置顶。运营手动置顶(如重要通知、紧急公告)。

下沉。压制低质或敏感话题。

删除。涉政涉黄等违规内容直接移除。

每种操作都要有权限校验、操作日志、生效时间、可回滚。

商业化热搜。

部分热搜是付费投放的(明星打榜、品牌活动),要测投放、计费、排序加权、用户体验(一般要有"广告"标识)。

合规与监管。

涉政热搜的处理(一般直接屏蔽并不留痕迹)。

敏感时段(重大会议期间)的限制策略。

监管要求的报送和审计。

特殊场景:

突发事件。地震、疫情、明星离世等突发事件,热搜要能秒级捕捉并展示。

事件持续。同一事件持续几天热度,要避免长期占榜。

事件演化。一个事件可能有多个相关话题(如疫情有"确诊数""新增地区""防控措施"等),要测话题聚合和分发。

测试方法:

模拟数据。用脚本模拟海量搜索、互动行为,看热搜变化是否符合预期。

回放历史。用真实历史热点数据回放,验证算法在不同场景下的表现。

实时监控。线上热搜变化大盘,发现异常立即告警和介入。

实战中"热搜事故"屡见不鲜(如重大新闻没上热搜、负面热搜被刷上去),每次事故都是测试体系的改进机会。

Q9: 信息流广告怎么测?

答案:

信息流广告是国内互联网最大的变现方式(抖音、快手、小红书、微博、知乎都是),融合了内容、推荐、广告、计费、风控。测试要覆盖整个变现链路。

广告业务链路:

广告主投放。客户在广告后台投放广告:定向人群、出价、预算、素材。

投放系统。广告进入候选池,等待被推荐到 Feed。

竞价分发(RTB)。用户刷 Feed 时实时竞价,价高者中标。

展示与点击。广告插入到 Feed,用户点击跳转。

转化追踪。用户点击后的行为(下载、注册、购买)归因到广告。

计费结算。按 CPC(点击)、CPM(千次曝光)、CPA(行动)等模式计费。

测试维度:

定向精准度。

人群定向。年龄、性别、地域、兴趣、行为定向是否生效。

排除定向。已购买过的用户不应再看到该广告。

设备定向。iOS / Android / 不同机型差异化投放。

时段定向。指定时段才投放。

竞价正确性。

竞价规则。第二高价计费(GSP)或一价计费(FPA)的算法正确。

底价。低于底价的广告不展示。

预算控制。当天预算用完后停止投放。

频次控制。同一用户每天看到同一广告不超过 N 次。

展示与点击。

广告位插入。按规则插入到 Feed(如每 10 条插 1 条),要测插入位置、密度、用户体验影响。

广告标识。要有"广告"标签(监管要求),不能伪装成普通内容。

点击跳转。点击后跳转到广告主的目标(落地页、APP 下载、电商商品)。

兼容性。各端(iOS、Android、H5)的广告渲染、跳转一致。

转化追踪。

归因模型。用户点击广告 → 下载 APP → 注册 → 购买,每一步归因到广告,要测归因准确性。

归因窗口。点击后多久内的行为算归因(一般 24 小时、7 天、30 天)。

去重。同一用户多次点击同一广告,归因只算一次。

防作弊(详见 Q17)。

机器刷点击(黑产帮广告主刷量赚钱)。

机器刷曝光(拉低 CTR 让广告下架)。

恶意点击(竞争对手刷点击耗预算)。

计费准确性。

每次点击/曝光按规则计费,金额正确。

预算消耗实时反馈给广告主。

计费数据可对账(广告主反馈数据 vs 平台数据)。

广告主后台测试。

投放配置。各种定向、出价、预算、素材的配置 UI 和保存。

数据看板。曝光、点击、CTR、CPA、ROI 等指标的实时展示和导出。

权限。多账号、子账号、代理商的权限管理。

合规:

广告法。"绝对""最好""国家级"等禁用词识别。

行业准入。医疗、金融、教育、保健品等敏感行业有专门资质要求。

未成年人保护。某些广告不投给未成年用户。

测试方法:

广告主视角测试。模拟广告主创建广告 → 投放 → 看数据 → 续费的完整链路。

平台视角测试。看广告分发链路、计费链路、风控链路。

用户视角测试。看到广告的体验、跳转流畅度、是否影响 Feed 体验。

广告测试是商业化的核心,资深测试同学的价值在于能从"广告主、平台、用户"三方视角全面保障。


三、互动、关系链与通知(5题)

Q10: 点赞、评论、收藏、转发的测试要点有什么不同?

答案:

四种互动看着简单,工程上每种有自己的存储模型、并发挑战、产品策略,测试关注点差异很大。

点赞测试要点:

幂等。同一用户重复点赞同一条内容应只生效一次(一般是"取消点赞"行为)。

实时性。点赞后所有用户看到的点赞数应秒级更新(一般通过本地乐观更新 + 服务端最终一致)。

聚合。海量点赞(万级、十万级)的展示常用"模糊数字"(10w+、100w+),要测各档显示规则。

性能。点赞操作不应阻塞用户行为(点赞失败也不应影响后续操作)。

防刷。同一用户高频点赞、机器点赞要识别。

评论测试要点:

层级。一级评论 + 回复(二级评论),有些产品三级(盖楼,如网易云音乐)。要测层级展示、回复关系、删除时子评论的处理。

排序。最新、最热、按楼层、按时间分桶。

@和回复。@某人能否给对方推送通知、@到不存在的用户的兜底。

权限。仅作者能删自己评论、博主能删任意评论、管理员能删全部。

敏感词。评论内容要过审,违规自动屏蔽并通知发布者。

折叠。低质评论、违规评论自动折叠或隐藏。

收藏测试要点:

收藏夹。是否支持多个收藏夹、收藏夹的增删改、收藏夹的分享。

收藏状态。已收藏 vs 未收藏的状态显示要准。

排序。按收藏时间、按内容时间、按自定义排序。

取消收藏。从收藏列表里看的内容被取消后,已经查看过的本地缓存如何处理。

权限。私密收藏夹仅自己可见、公开收藏夹他人可见但不能修改。

转发测试要点:

转发类型。

原创转发(再创作,加自己评论)。

直接转发(一键转发到自己主页)。

跨平台分享(分享到微信、QQ、其他 APP)。

引用关系。转发链是否能追溯到原作者、原作者删除后转发链如何处理。

权限。原作者设置"禁止转发"时不能转发;转发后能否在转发者主页删除。

数据归属。转发的曝光、互动归原作者还是转发者,按业务规则。

跨平台。分享到微信时的卡片样式、跳转回 APP 的链路、对方未安装 APP 的兜底。

并发与一致性:

四种互动都涉及"计数器",常用 Redis 自增 + 异步写 DB。要测:

并发自增不丢数据。

Redis 与 DB 最终一致(详见 24-Q14)。

计数器值过大(几亿点赞)的存储和展示。

测试时建议每类互动建独立的回归用例集,覆盖正向、并发、异常、权限、跨端各场景。

Q11: @、私信和通知系统怎么测?

答案:

通知系统是社交产品的"血管",把"用户行为"转化为"对方感知",做不好用户会错过重要互动或被骚扰。

@功能测试:

@提示。输入 @ 后弹出好友列表/最近联系人,要测搜索、模糊匹配、滚动加载。

@权限。被 @的人能否看到(一般好友、关注、陌生人有不同策略)。@陌生人是否会触发反骚扰策略。

@通知。被 @的人收到通知,要测推送时机、推送内容、点击跳转到对应位置。

@撤销。撤回带 @的内容时,对应通知应消失或标记"已撤回"。

@格式。@后面的用户名展示为高亮 + 可点击。

私信测试:

陌生人私信。陌生人发私信的策略(默认免打扰 / 验证消息 / 直接接收)。

私信会话。多轮对话、消息撤回、已读未读、富媒体消息(类似 IM 系统,详见 25 章)。

私信权限。被对方拉黑、关闭私信、对方注销账号后的体验。

私信安全。敏感词过滤、诈骗识别、举报机制。

通知中心测试:

分类展示。互动通知(点赞、评论、@)、关注通知、私信、系统通知分类展示。

未读管理。按分类计数、跨端同步、清零规则。

通知聚合。同一类多条通知聚合显示("5 个人赞了你"),要测聚合规则、点击展开、不聚合的特殊场景。

历史。通知保留多久(一般 30 天 ~ 1 年),过期自动清理。

通知触达:

APP 内消息。打开 APP 立即看到。

推送通道。

前台:APP 内 banner / toast。

后台:厂商通道(华为、小米、OPPO、APNs 等,详见 25 章)。

精细化:

频次控制。同一用户每日推送上限、相同类型推送合并。

时段控制。免打扰时段(22:00 ~ 08:00)不推送。

用户偏好。用户可配置哪些类型推送、推送方式。

A/B 实验。推送文案、推送时机、推送密度的 A/B 优化。

合规:

不能滥发。监管和苹果/Google 都对推送有限制,违规会被下架。

明确触达目的。每条推送要让用户能明确知道为什么收到。

可关闭。用户能在 APP 内或系统设置关闭推送。

通知系统是社交产品体验的"双刃剑",做好了拉活,做不好用户卸载。测试同学要在频次、内容、时机三个维度精细把控。

Q12: 关注关系和粉丝列表怎么测?

答案:

关注关系是社交系统的"图结构"基础,所有 Feed、推荐、通知都依赖关注图谱。测试时要把关系链当作独立的领域来覆盖。

关系类型:

单向关注(关注)。如 Twitter、微博,A 关注 B 不需要 B 同意。

双向好友(互关)。需要双方都关注对方(A 关注 B + B 关注 A)才形成好友关系。

特别关注。在普通关注上加额外标记,对方发动态优先看到、提醒。

互相关注。系统自动识别"我关注的人也关注我",标记为互关。

私密关注。关注对方但对方看不到我是粉丝(如微博的"悄悄关注")。

测试维度:

关注与取关。

关注成功后立即生效,关注列表新增一条。

取关后立即从关注列表移除,对方粉丝列表减少。

关注/取关的频率限制(防恶意刷粉)。

并发关注。同时点击关注按钮多次只生效一次(幂等)。

关注上限。普通用户一般 2000 ~ 5000 个关注上限,VIP 用户上限更高。

粉丝列表。

排序。一般按关注时间倒序,也可按互动密切度。

分页加载,万粉丝以上的列表分页效率。

筛选。按特别关注、互关、新粉丝等过滤。

权限。

私密账号。陌生人申请关注需要审批,未审批的不能看到内容。

黑名单。被拉黑后无法关注对方、无法看对方内容、无法私信。

地区限制。某些国家/地区互关受限制。

关注衍生功能。

关注用户的内容自动出现在主页 Feed。

特别关注的人发动态强提醒(推送 + 红点)。

关注互动统计(你和 TA 互相点赞了多少次)。

异常路径。

注销账号。被关注的账号注销后,关注关系如何处理(一般保留以备恢复,但不展示)。

被封禁。封禁用户的关注关系是否生效(一般保留但内容不可见)。

数据迁移。批量导入关注关系(如新用户从旧账号迁移),要测数据一致性。

技术挑战:

百万级粉丝。明星账号粉丝几千万,查询性能要专门优化。

实时性。关注/取关后多久同步到所有依赖方(Feed、推荐、通知)。

大 V 扇出。详见 Q1,大 V 发动态如何扇出几千万粉丝。

关注关系的图谱也用作反作弊(详见 Q17)。异常关注模式(一夜涨百万粉、关注大量僵尸账号)是黑产典型特征。

Q13: 黑名单、屏蔽和免打扰怎么测?

答案:

这三个功能看着小但实际复杂,因为涉及"用户如何屏蔽信息",每个细节都影响用户体验和产品口碑。

黑名单(拉黑)测试:

拉黑后果(一般规则)。

被拉黑用户不能看到我的动态、评论、点赞。

被拉黑用户不能给我发私信、@我、评论我。

被拉黑用户不能关注我;如果已经关注,关系应解除。

被拉黑用户不能搜索到我的账号(部分产品支持)。

我能否看到被拉黑用户的内容(一般保留可见性,由产品策略定)。

互相拉黑。A 拉黑 B、B 也拉黑 A 时双方互不可见。

拉黑解除。能恢复但历史互动不会重新出现。

边界场景。

被拉黑用户的旧评论是否保留(一般保留并显示"已被屏蔽")。

被拉黑用户的旧点赞是否保留。

被拉黑用户在我关注的人的动态下的评论我是否能看到。

群聊中拉黑某人,群消息中此人发言我是否能看到。

屏蔽(不感兴趣 / 不想看到):

屏蔽用户。不想看到这个用户的内容,但不需要彻底断绝(不像拉黑)。屏蔽后此人内容不出现在我的 Feed 和推荐,但搜索、关注关系不受影响。

屏蔽话题。不想看到某个话题,相关内容自动过滤。

屏蔽内容类型。如不想看到广告、政治内容、负面新闻。

屏蔽关键词。包含特定关键词的内容自动隐藏。

屏蔽策略测试:

生效范围。Feed、推荐、搜索、通知、私信,每个场景的屏蔽生效。

生效时间。设置屏蔽后多久能完全生效(一般立即,但底层缓存可能有几秒延迟)。

可撤销。屏蔽后能否随时取消。

举报联动。多人屏蔽某内容时是否自动降权或触发审核。

免打扰测试:

时段免打扰。设置 22:00 ~ 08:00 不接收推送,要测:

跨日时段(22:00 ~ 次日 08:00)的处理。

时区变更后是否按新时区。

紧急通知是否例外(如安全告警)。

分类免打扰。可以单独关闭点赞通知、评论通知、关注通知等,但保留私信。

会话免打扰。某个特定群或某个特定人的私信免打扰。

智能免打扰。如开会时段自动免打扰(接入日历)。

权限和审计:

操作日志。所有拉黑、屏蔽、解除操作都有日志,便于追溯和分析(特别是企业 IM 的合规要求)。

权限。账号被封禁时其设置的拉黑/屏蔽是否仍生效。

测试方法上常用"双账号互测",A 账号操作、B 账号验证效果,覆盖各类生效范围。

Q14: 话题、超话和群组怎么测?

答案:

话题(Topic / Hashtag)、超话(微博特有,话题升级版)、群组都是"内容聚合"机制,把零散的内容按主题组织起来。

话题测试:

话题创建。

用户在内容中加 #话题# 标记,是否自动创建话题。

话题命名规则(不能太长、不能特殊字符、不能重名)。

话题审核(敏感话题自动拒绝创建)。

话题聚合。

带同一话题的内容自动归类到话题页。

聚合时延(新发的话题内容多久能进话题页)。

排序(按时间、按热度、按互动)。

话题搜索。

按话题名搜索,模糊匹配、热门话题优先。

搜索关键词命中话题名时优先展示话题。

话题展示。

话题热度(参与人数、内容数、阅读量)。

话题描述(部分话题有官方介绍)。

话题相关推荐(看完一个话题推相似话题)。

超话测试(微博特有,进阶版话题):

主持人机制。每个超话有主持人和小主持人,权限:管理内容、删帖、置顶、签到管理。

签到。用户每天可签到,签到累积影响超话排名。

等级。基于签到、发帖、互动的等级系统,等级影响权限。

商业化。粉丝团付费加入、专属表情包、超话广告。

群组测试(如 QQ 群、微信群、微博群、超话群):

创建。普通用户能创建多少群、群成员上限。

管理。

群主、管理员、普通成员的权限差异。

加入审批(开放群直接加、私密群需审批)。

踢出、禁言、解散。

群消息。

类似 IM 消息系统(详见 25 章),但需考虑群规模、消息密度。

群公告、群规、群相册等增强功能。

群发现。

按兴趣、地域、好友推荐群。

热门群榜单。

群分类目录。

商业化。

付费群(用户付费加入)。

群打赏、群红包。

合规。

群内容审核(违规内容连坐处罚群主、解散群)。

涉政、涉黄、传销等违法群的识别和封禁。

群主实名(监管要求)。

测试场景:

万人群消息分发(详见 IM 章节,但话题/超话场景可能上百万参与者)。

千万阅读量话题的浏览体验。

热点话题瞬时涌入(明星结婚突然涌入几百万参与)的稳定性。

测试时要把话题/超话/群组当成独立产品维度,建立专门的回归集。


四、内容安全、防作弊与监控(4题)

Q15: 社交内容审核怎么测?

答案:

社交内容审核是国内监管最严的领域之一,每天有海量 UGC 内容(文字、图片、视频、音频)涌入,必须建立分级审核体系。

审核分级:

事前审核。某些类型内容(如视频、直播预告、敏感话题)发布前必须过审才能展示。审核延迟一般几分钟到几小时。

实时审核。多数内容(文字、点赞、评论)实时审核,毫秒级判断是否放行。

事后审核。已经展示的内容定期回查,违规内容下架并处罚。

人工抽审。机审通过的内容按比例(一般 1%~5%)抽样人审,发现机审漏过的违规。

审核内容类型:

文本。涉政、涉黄、违法、广告、辱骂、敏感词。

图片。涉黄、涉政、暴力、Logo(盗用品牌)、二维码(外链广告)、文字内容(图片里的字也要识别)。

视频。逐帧识别,覆盖图像维度 + 音频维度(详见直播章节 27-Q15)。

音频。语音转文字后做文本审核 + 直接的音频特征识别(如喊话声、敏感音乐)。

链接。检查链接指向的网站是否违规(钓鱼、诈骗、违禁品)。

测试维度:

机审准确率。

真阳率(违规被识别)。建立各类违规样本库,每月跑回归看真阳率。

误判率(正常被错判)。建立白样本库(真实合规内容),测误判率,过高会引发投诉。

机审覆盖率。

各类内容(图、文、音、视频、链接)都覆盖。

跨语言(中文 + 英文 + 方言 + 少数民族语言)。

变形识别(敏感词的同音、谐音、繁简、火星文变体,详见 IM 章节 25-Q16)。

人审流程。

人审队列优先级(高粉丝主播、热门内容、突发事件优先)。

人审决策一致性(同一内容多人审核的判断一致性)。

人审 SLA(一般要求 < 30 分钟出结果)。

处罚梯度(详见 27-Q14)。

警告 → 限流 → 封号 → 永久禁言 → 设备封禁。

申诉流程。

误判申诉的提交、审核、反馈流程。

申诉成功后内容恢复、处罚撤销、信用恢复。

监管联动。

违规事件按要求报送公安、网信办。

国家级专项行动(如"清朗行动")的特殊审核加强。

监管巡检的数据导出和留存(最少 6 个月,部分 10 年)。

测试方法:

样本库测试。建立标准的违规/合规样本库,每次审核策略更新后跑回归。

红蓝对抗。专门组织红队尝试规避审核(用变体、谐音、图片掩盖、隐喻),蓝队改进识别规则。

线上巡检。每日扫描审核日志,发现异常告警(如某类违规突然激增、机审误判率上升)。

监管演练。模拟监管突击检查,验证数据可追溯性、响应时效。

内容审核做得好可以避免平台级事故,做得差是平台关停的直接原因。测试同学要把内容审核当作 P0 级保障来做。

Q16: 敏感词识别和变形对抗测试

答案:

敏感词识别是内容审核最基础也最有挑战的部分。看似简单(关键词匹配),实际要面对各种变形规避。

敏感词分类:

涉政。政治人物、政治事件、敏感时段。

涉黄。色情、低俗。

违法。诈骗、毒品、赌博、传销、非法交易。

辱骂。脏话、人身攻击。

广告。微商、外链、违规营销。

特殊行业敏感词。

医疗:处方药、疗效承诺、虚假宣传。

金融:违规理财、非法集资。

教育:虚假学历、应试内容。

变形对抗(黑产规避手段):

同音字。"杜博"代替"赌博","涉黄"代替"涉黄"。

谐音字。"渣男"用拼音 ZN 代替。

繁简变换。"國家"vs"国家"。

特殊符号。"赌·博"中间加点。

火星文。"莻黴"等非常规字符。

英文混拼。"DUbo"。

emoji 代替。用 emoji 拼出违禁词。

图片化。把违禁词写在图片里,文本审核拦不住。

测试维度:

基础词识别。每个敏感词的命中率,标准词全部应被识别。

变形识别能力。

建立"变形规则生成器",自动从标准词生成各种变形。

测试时给系统输入各种变形,看识别率。

上下文识别。

"自杀"在心理咨询群是正常话题,在攻击性发言里是违规。

需要结合上下文语义判断,传统关键词匹配不够,要用 NLP 模型。

误伤率。

测合规内容里包含敏感词的场景(如新闻报道犯罪事件、医学讨论疾病),不应被错杀。

误伤率高是用户投诉的主要来源。

处理策略。

直接屏蔽(消息不发出)。

替换为 *(敏感字打码后发出)。

警告但允许(提醒用户敏感)。

人工审核(高风险词进队列)。

封禁(高频违规直接封号)。

每种策略的触发条件和效果要测试。

词库管理:

敏感词分级。

L0:必拦(涉政高敏感)。

L1:高敏感(涉黄、违法)。

L2:中敏感(辱骂、广告)。

L3:低敏感(轻度敏感词)。

不同级别对应不同处理策略。

词库更新。

热点事件后快速增词(如某新闻人物涉案)。

变更同步到所有审核节点的时效。

词库版本管理和回滚。

灰度发布。新增词先灰度,避免大规模误伤。

测试方法:

样本对抗。维护一份"变形样本库",每次词库更新后跑回归。

红蓝对抗。红队不断发明新变形,蓝队改进识别。

线上巡检。监控敏感词命中率、误判率、新出现的可疑词,及时入库。

模型监控。NLP 模型的精度、召回、F1 指标,发现下降立即重训。

敏感词测试是内容审核的"地板能力",做不好就是基础失守。测试同学要把它当成长期对抗工作,建立持续迭代的机制。

Q17: 防刷、防机器人测试要做哪些?

答案:

社交产品是黑灰产高发战场:刷量、刷粉、刷热搜、刷评论、刷点赞、网络水军、机器人账号。反作弊能力是产品口碑和商业化收入的生命线。

常见作弊手段:

机器刷量。用脚本模拟用户行为,刷粉、刷赞、刷评论、刷阅读、刷热搜。

群控。一台主控机控制几十台手机/模拟器,规模化操作。

改机。用改机软件伪造设备 ID、IMEI、IP、地理位置,让一台设备伪装成 N 台。

养号。注册大量账号后慢慢"养"(少量正常行为),然后批量用于刷量或洗钱。

水军。雇用真人在指定话题下发言、互动,因为是真人行为难以识别。

接码平台。用临时手机号注册账号,避开手机号绑定限制。

防御维度:

设备指纹。

唯一性。同一设备多次启动 ID 一致;多次清缓存、重装 APP 后能否识别同一设备。

抗改。改机软件下能否识别异常。

跨平台一致。iOS / Android 各有自己的指纹技术(iOS 限制较严)。

行为分析。

操作速度。人眼不可能 100ms 内连续点击几次。

时间模式。半夜 3 点高频活跃可疑。

滑动轨迹。机器滑动是直线,人是曲线。

输入规律。机器打字速度恒定,人有快慢变化。

社交图谱。

新账号社交结构。机器账号关注的都是大 V 或互关账号,社交图谱不真实。

异常关注模式。短时间内关注几百人、被关注几千次。

互动模式。互动只在固定时段、固定对象。

账号画像。

注册渠道。同 IP、同设备的批量注册可疑。

养号特征。注册后空白期太长、突然活跃。

行为多样性。只点赞不评论、只发文不互动,模式单一。

测试维度:

识别准确率。

真阳率(机器/黑产被识别)。建立"已知黑样本库",覆盖各种作弊手段。

误伤率(真人被错判)。建立"白样本库"(真实用户行为),过高会引发投诉。

实时性。

识别延迟。理想是请求到达瞬间判断,最多几十毫秒。

风控规则生效。新规则发布后多久全网生效。

风控规则。

规则配置。配置后台的规则增删改查、上下线、灰度。

规则组合。多个规则同时触发的优先级和综合判定。

规则可解释。被识别的用户能看到大致原因(不是黑盒)。

二次验证。

中风险用户触发二次验证:验证码、人脸识别、短信。

每种验证方式的成功率和绕过率。

绕过验证的处罚机制。

申诉流程。

误判用户的申诉路径。

申诉的人工审核效率。

申诉成功后处罚撤销。

线上对抗:

红蓝对抗。每月组织红队尝试新作弊手段,蓝队改进规则,是长期对抗。

线上巡检。

关键指标(新增账号、刷量比例、可疑互动)的实时监控。

异常波动(如某地区新增 100x、某时段刷量比例飙升)告警。

数据可视化。反作弊大盘展示拦截量、识别量、误伤量等关键指标。

效果评估:

NPS(用户体验影响)。误伤太多会伤害真用户。

商业价值(节省的广告费、节省的运营成本)。

监管合规(防止平台被滥用)。

反作弊是社交平台的"军备竞赛",资深测试同学的核心价值是建立"识别 + 评估 + 改进"的对抗闭环。

Q18: 社交产品的核心数据指标和监控大盘怎么测?

答案:

社交产品的运营高度数据驱动,每天看几十个核心指标,数据看板的准确性直接关系到产品决策的正确性。测试同学经常负责保障数据的可信度。

核心数据指标分类:

用户指标。

DAU / MAU。日活、月活,最核心指标。

新增。新注册用户数。

留存。次日留存、7 日留存、30 日留存(用户黏性)。

流失。一段时间内未活跃的用户。

回流。流失后再次活跃的用户。

用户分层(新用户、活跃用户、沉默用户、流失用户)。

内容指标。

UGC 生产量。每天发布的动态、视频、评论数。

内容质量。平均互动率、举报率、违规率。

内容分发。曝光量、点击量、CTR。

爆款率。互动量超过阈值的内容占比。

互动指标。

互动率。点赞率、评论率、转发率、收藏率。

回访率。用户多次回到 APP 的频率。

时长。平均使用时长。

打开次数。平均每日打开 APP 次数。

商业指标。

广告收入。每千次曝光收入(eCPM)、广告收入趋势。

电商 GMV(直播带货、社区电商)。

会员收入。

留存价值(LTV)。

技术指标。

性能。接口 RT、错误率、CPU/内存。

稳定性。崩溃率、ANR 率(Android)、卡死率。

测试维度:

指标计算准确性。

公式正确。每个指标的计算公式(如"互动率 = 互动数 / 曝光数")实现要严格按照定义。

数据源准确。从哪些埋点取数、数据延迟、丢失率。

去重和归因。同一用户多次行为如何聚合、行为归因到内容/广告/事件。

埋点测试。

覆盖度。所有需要的事件都埋点,不漏。

正确性。事件名、参数、时机准确。

时效性。从行为发生到数据可用的延迟。

数据一致性。

跨大盘一致。同一指标在不同看板(产品看板、运营看板、技术看板)数值应一致。

跨工具一致。自家埋点系统 vs 第三方分析工具(GrowingIO、神策)的数据应一致或差异可解释。

历史可重算。任何指标都能基于原始日志重新计算,不能"现在看是这个值,明天就变了"。

异常监测。

阈值告警。指标突破阈值(如 DAU 突然下降 5%)告警。

异常检测。机器学习的异常检测,发现非阈值突破的异常模式(如某地区 DAU 异常下降)。

数据安全。

权限。看板访问权限分级,敏感数据(财务、用户隐私)仅授权人员可见。

脱敏。展示数据时按规则脱敏,不暴露原始 PII。

审计。数据查询和导出的日志,便于追溯。

测试方法:

数据回归。每次新版本发布后重新计算关键历史日的数据,确认未变化。

对账。和第三方数据源(如苹果/Google 后台、广告平台)对账,验证数据准确。

人工抽查。运营同学手工抽样几个用户/内容,对照 APP 实际行为验证数据。

A/B 实验。实验组数据收集的隔离性和准确性(详见 Q7)。

实战中数据指标"看着对实际错"是常见隐患(如埋点漏埋、归因错误、计算公式过时)。测试同学要把数据看板当作"产品"来对待,建立专门的回归用例和定期对账机制。

最近更新: 2026/5/13 10:01
Contributors: raina
Prev
直播与短视频系统测试面试题
Next
外卖与出行系统测试面试题