一个用户制作的内容,页面访问量异常增加到10W;一个新注册的用户,凌晨2点发布。
大家可以猜一猜,这两个用户可能会发布什么样的内容?
以上的这些问题,草料二维码内容安全负责人孙红波工作中常会碰到。
在上周微信团队举办的「见微知著」微信鉴客圈线下沙龙中,孙红波分享了极为干货的内容风控体系搭建的思路和经验,给在场的开发者、运营者们提供了非常有价值的参考,小珊这就跟大家一起回顾一下~
△ 孙红波-开发者分享
△ 课程分享完整视频
常见的内容风控思路和方法论
关于风控思路,孙红波重点分享了两点——找不同和找聚类特征。
找不同。一是找到那些异常行为和异常内容,与正常用户明显的不同的特征;二是根据数据找到异常内容,然后找到他们的共性以及具类型的一个特征。
比如小程序的注册用户基本上都是国内的用户,今天突然多了一大批来自东南亚地区的注册用户,这批用户可能就需要重点关注,并跟进他们后续的行为和发布的内容。找聚类特征。比如通过数据分析发现制作博彩内容的用户80%都来源于东南亚国家地区,那么显示在东南亚地区的注册用户也需要重点关注,他们很有可能会涉及博彩。涉政:涉及特定领导人形象、特定人物形象以及特殊关键人名、特殊历史照片等;
涉黄:大面积裸露的皮肤、生殖器官的外形、生殖器相关文字描述等;黑产:虚拟号段手机号注册、同ip同时间批量注册、多账号发布同类型内容或者同一张图片等。账号特征:手机号、邮箱、注册ip地址、企业、实名信息等;内容特征:关键词、算法(涉黄、暴恐、涉政、广告、ocr等);行为特征:信息发布(发布时间ip频次)、内容传播(访问量)、被举报情况等;聚类特征:关系聚类(ip聚类用的较多)、内容聚类、行为聚类等;其他运营手段标记的用户特征:行业、用户画像、用户等级等;借助第三方能力等。基于以上的特征,单个或者多个集合,同时结合产品业务和用户使用情况,可以大致得到一类特定的用户群体或者内容群体。
大致得到一类特定的用户群体或者内容群体后,就需要建立对应的处置措施。比如,我们在文章开头提到的两个问题。一个用户制作的内容页面访问量异常增加到10W。一般情况下高传播量的内容不加以审核的话,这个内容通常就是一个高危的内容;如果它是一个违规内容,传播量达到很高的一个程度,对平台来说风险极大。所以高传播量的内容,需要建立预警机制,能够对它进行及时处理。
一个新注册的用户,凌晨2点发布,算法判断它可能是色情内容。从数据角度看,半夜发布的内容相对有害性高于白天发布的内容,同时又是一个新注册用户,这些特征的结合,基本可判断为色情内容,作为平台来说,通常采取先审后发的处理措施。
常见的处置措施有:
可以看到,一系列特征工程加上处置措施不断累加,能够让内容风控体系越来越完善。
团队踩过的坑以及给开发者们的建议
- 结合自己业务,接入一套比较合适的内容安全算法工具(如小程序内容安全API);
- 高传播内容/重点模块(如首页,头部帖子等),进行重点关注巡查;
- 针对平台上活跃的黑产用户,设置特定策略进行有效打击;
- 日常观察用户发布内容和用户行为,关注异常行为,评估风险并对高危内容进行处置;
- 如果有能力的话,可以根据业务特点,自建算法和风控数据体系;
- 建立自己的高危内容知识库(如敏感涉政内容知识库);
- 敏感内容资源的服务器资源要恰当处理以及做好防盗链;
- 用户隐私相关问题,用户协议和隐私条款等不要默认勾选。
红波最后给大家总结了自己做风控体系的经验——“在结合业务的基础上坚守底线,涉黄黑产等内容是绝对不能碰的,同时要保持敏感,保持对于平台的异常用户异常行为的敏感观察,最后就是要不断的变化,因为风控系统不是一成不变,会随着用户的活跃度而不断变化。”
以上就是孙红波分享的搭建内容风控体系的思路和经验,从分享中我们不难看出,当用户越来越多的时候,内容安全的审核上就越离不开好的工具支持。
针对小程序各内容场景中可能存在的安全问题,微信团队向开发者提供内容安全接口,协助开发者应对文本、图片、音频内容类型下的敏感内容识别、涉黄内容识别、暴恐内容识别等问题,能够快速响应监管变化,帮助开发者维护小程序运营秩序和安全,保护业务免受违规内容的侵扰。
欢迎开发/运营者小伙伴了解、接入小程序,合规运营,与我们共同建立绿色、健康的微信生态。
更多鉴客圈线下沙龙课程干货内容,请持续关注小珊后续推文~