在当前互联网时代,尤其是移动互联网的迅猛发展,信息如同科幻小说《三体》中的“技能爆破”一般,呈现出“信息爆炸”的态势。据统计,截至2025年,全球每天产生的数据量预计将达到491EB(1 EB=1024 PB=1048576 TB)。在这种背景下,用户获取信息的途径变得更加自动化和丰富化。然而,信息的丰富并不意味着其有效性。在纸媒时代,专业编辑对内容进行筛选、排版后再“分发”给读者。而在互联网产品中,即便内容再丰富,如果用户不感兴趣,那么这些内容也就变得无效。在商业社会中,“效率”始终是一个核心要素。低效意味着可能被淘汰。
为了解决这一问题,淘宝在2013年最早提出了“千人千面”的概念。这一概念依托淘宝网十年积累的庞大数据库,从细分类目中抓取与买家兴趣相匹配的产品,进行优先展示。每个在淘宝上购买或阅读过产品的顾客,都会被平台打上标签,如年龄、地域、客单价、收藏偏好等。在“千人千面”模式下,不同标签的用户所看到的产品自然会有所差异。这种更有效率的 内容分发方式,标志着从粗放式运营向精细化运营的转变。
在“算法驱动”理念的张一鸣的引领下,今日头条、抖音等产品应运而生。作为一名互联网从业者,即便不亲自编写编程算法,但了解相关算法知识、掌握内容分发与推荐机制背后的基本原理,也有助于提升认知水平。
一、算法推荐体系的两个核心
(一)抖音为何让人如此上瘾?
抖音的推荐机制让人难以抗拒。在不同的场景和时间段,用户所接收到的内容略有差别。例如,白天多推送幽默内容,晚上则推送悬疑片段。无论何时打开抖音,用户都能沉浸在内容中,仿佛时间流逝得特别慢。这背后涉及到算法推荐机制和运营策略等因素。
内容的个性化分发可以用一句话概括:让喜欢看妹子的用户,看到含有妹子的内容。然而,在互联网环境中,真正做好这一点的公司寥寥无几。那么,问题究竟难在哪里呢?
(二)给内容打标,没有想的那么简单
给内容打标的过程并不简单。首先,需要明确标签的定义,如“苹果”和“梨”的区别。一篇内容通常包括一级分类、二级分类、三级分类、标签等层次。对于具有普遍认知的分类和标签,定义相对容易。但对于搞笑、美女等标签,则因人而异。因为每个人的笑点和审美观念不同。
这里涉及到两个概念:实体标签和语义标签。
1.实体标签:如广州、上海、马云、淘宝等,具有明确的实体,不同人对此不会有太大歧义。
2.语义标签:如沙雕、美女、奇葩等,没有明确的指定对象,不同人对此有不同的认知。
语义标签的推荐作用是检验一个公司NLP(自然语言处理)技能水平的试金石。不同公司根据业务能力和需求的不同,对标签颗粒度的要求也不同。例如,有的公司将标签拆分到火影忍者,而有的公司则继续拆分到鸣人、佐助、小樱等实体标签。
(三)用户标签:可能是最难搞的部分
1.用户口味就像个难哄的女朋友
与内容标签相比,用户标签的难度更大。因为火影忍者就是火影忍者,一旦打上标签,它就不会变成海贼王。内容标签可以通过人工打标和机器训练的方式进行。但用户的口味却一直在变化。本月喜欢看火影忍者,下个月可能因为朋友或同事的推荐开始看海贼王。如果算法没有及时调整,继续推送火影忍者的相关内容,那么这些内容对用户来说就是无效的,从而影响了内容分发效率。
2.掌握用户的基本信息
在做用户标签之前,需要先掌握与用户相关的信息,如性别、年龄、地址、爱好偏好等。
1)性别:有助于分发性别属性明显的内容,如给男生推送体育,给女生推送美容护肤。
2)年龄:同理,给年轻人推送动漫、游戏等内容,给老年人推送养生、健康信息等。
3)地址:用于推送与区域热点相关的信息,如给上海用户推送上海突发新闻,给北京用户推送限行信息。
以上三者一般可以通过用户自动填写、授权访问位置信息的方式获取,且不会有太大变化。
3.掌握用户爱好偏好
关于用户爱好偏好,则是做用户标签的难点。获取用户爱好偏好的方法,是根据用户消费过的内容匹配相应的标签,一般采用以下几种方法进行定位:
1)过滤噪声:如用户被标题党内容吸引进去,但停留时间过短,则说明用户对该内容所绑定的标签不感兴趣,以此来过滤标题党。
2)热门降权:对一些社会热点、突发新闻(如某明星出轨),尽管短时间内用户阅读了相关信息,但并不能说明该用户必定对“娱乐”内容特别感兴趣,需要对该用户的“娱乐”爱好偏好进行降权处理。
3)时间衰减:如上所述,用户的爱好会产生偏移,因此推送策略需要更倾向于新的用户行为。
4)惩罚展现:如果一篇推荐给用户的文章没有被点击,则该内容的相关特征(如内容分类、标签)权重会被降低。
举一个非常简单的例子:如某新注册用户(女,25岁,上海)在刷抖音时,算法采用A-A、A-B的方法进行测试。首先连续推送两条影视编排内容(A-A),用户都完整观看并点赞、评论等;其次推送影视编排后推送母婴内容(A-B),用户只观看了影视编排内容,却划走了母婴内容。那么说明用户对“影视编排”这一内容的爱好偏好度较高,对“母婴”标签内容爱好偏好较低。
4.不同内容类型的推荐权重
我们知道,对于综合型平台而言,内容类型通常不止一种,如今日头条就包含了长图文、小视频、短视频、问答、微头条等。即使是同一个标签,如“美女”,不同内容类型的推荐权重是否一样?这也是算法推荐机制需要考虑的问题。
二、如何衡量推荐体系的好坏
内容推荐的准确性,一般可以直接从数据上进行分析。如点击率(CTR)、消费时长、点赞、评论、转发数等“可量化目标”。如Y=F(X1,X2,X3),Y代表内容可被加大曝光的权重,X代表点赞、评论等实际参数。评论数的影响权重一般大于点赞权重,不同平台由于产品差异,对参数的权重设置也有所不同。而不同的用户因其账号“置信度”的差异,即便点赞了同一条内容,对该内容的影响权重也有差异,如某知乎大V点赞与普通账号点赞的权重显然是不一样的。
但有时数据也有缺点。如关于低俗、标题党、涉黄内容,如果短时间内吸引了大量用户点击阅读,那么算法能判断其为好内容,并加大推送量吗?答案显然是否定的。因此,一般需要镇压降权的内容主要有以下几种:
1)广告、低质搬运内容镇压;
2)涉黄、低俗恶心内容镇压;
3)标题党、低质账号内容降权等。
根据社会责任感和政策法规等因素,平台需要对该部分内容进行镇压、降权,而对重点时事新闻进行置顶强插。这些都是算法无法独立完成的,需要运营合作进行。许多资讯平台都会有专门的首页运营小组对内容进行人工干预。大多数APP日常通知栏PUSH的内容也是采用算法+人工的方式进行的。
三、总结
回到开头所说:要让喜欢看妹子的用户看到含有妹子的内容。这句话看似简单,但要实现它,需要做到以下几点:
1.内容标签的精确认义、精确打标
由于不同的人对同一个语义标签会有不同的认知,因此需要精确认义和打标。
2.用户标签的精确匹配
清楚用户对哪种“妹子”的爱好偏好度更高:是长发妹子?还是短发妹子?是南方人还是北方人等等,进行更细粒度的拆分。
用户标签是建立在内容标签打足够精确的前提条件之上的,一步错则步步错。如果内容标签无法精确判断,那么根据内容标签建立起来的用户标签也是不可信的。
3.算法训练
要想训练机器可以自动打标,往往一个“标签”就需要训练几个星期的时长。一般采用抓取标题关键词的方法打上内容标签,但有时标题与文章或视频里所有表达的内容其实有很大出入,因此打上的标签很有可能是错误的,需要人工进行复核,判断其准确率。
综上所述,如今算法分发几乎已经成为所有搜索引擎、资讯软件、内容社区、社交软件等产品的标配。算法代表着用系统的办法去描述、处理问题的战略机制。因此,无论你是一名产品经理,还是一名运营人员,了解内容渠道的基本算法原理,无论是关于产品推荐机制的设计,还是对渠道运营战略的构建,都能有所帮助。
本文地址:https://www.2zixun.com/a/763949.html
本网站发布或转载的文章及图片均来自网络,文中表达的观点和判断不代表本网站。