围绕着算法的争议,从未停止过。2024 年,这个争议被推至高潮。
推荐算法,兴起于互联网初期,近几年已发展至应用巅峰,也是早期阿里、字节等互联网公司的重要增长引擎。
简单来说,算法做的是数学题。一位不愿具名的内容平台技术负责人向凤凰网科技表示,“优秀的算法,往往得益于精密且循环往复的调参”。
打开购物平台,你可以从数亿的商品中迅速选出自己想要的那款;打开外卖软件,平台可以精准为你匹配餐品和外卖骑手;打开短视频 App,你可以准确获取感兴趣、有价值的内容,这一切的一切,都与推荐算法密不可分。
与技术从业者的关注点不同,普通人对算法的控诉,多集中于信息茧房、算法没有价值观、大数据杀熟等。
当算法已与普通人的生活息息相关,也产生了一个更为致命的拷问,平台会放纵算法无限向一个方向发展吗?特别是,为了追求商业上的收益,会让算法往失控的方向发展吗?
多位在抖音、小红书等平台有过任职经历的相关从业者认为,算法的“黑盒”在于,多数人所负责的只是“点”,很难有人能纵览全貌,这让处在“点”上的人,觉得算法就像一个黑盒。
前述技术负责人认为,算法和背后的设计者之间一直有一个天平,而算法工程师负责把这个天平调节到最佳的位置。“绝对不可能存在一直往某一个方向倾斜的情况,推荐是一个很复杂的事情,我们要把生态维持好,一定是多样性平衡,而且我们会有非常多的手段去调控算法”。
针对算法的治理行动,这些年也从未停止。而新一轮的算法治理,目标正是进一步实现算法导向正确,算法公平公正,算法公开透明等。
现在,我们有必要打开这个黑盒。
推荐算法虽已不神秘,但各大平台基于自身的资源建立的护城河,仍旧拉开了身位。在我们与各大互联网公司的沟通中,不难发现一个默契的共识,在算法技术的推行以及生态的治理中,最受关注的公司仍旧是抖音。
为此,我们向抖音集团副总裁李亮发出了对话邀约。
据李亮分享,抖音、头条推荐算法的原理和行业相比并无特殊之处,不同的是每个平台为算法定制的目标,即更看重什么。抖音更为看重的指标是用户的长期留存。
其认为,信息茧房一词在推荐算法诞生前就已出现,从商业逻辑上来讲,平台没有动力去制造所谓的“茧房”,也最有动力打破“信息茧房”。
由于算法作为一个“数学天才”,本身无法理解社会学、心理学、传播学等多领域的现象,特别是在评论区,“一些争议话题视频下面经常会有不同的观点,甚至对骂,这些交互数据,包括评论、点赞、点踩、举报等,会给算法一种交互很激烈、很热闹的信号,可能会让视频获得更多流量”。
这自然是一种不健康的发展方向,抖音则会用内容生态和运营的办法,纠偏算法不合理的地方,降低不友善争议流量的比例。
李亮也表明,利用不实信息、极端、对立言论博流量,是抖音持续打击和治理的。他也相信,生态治理最终也将对平台的健康发展有所助益。
以下为凤凰网科技《浪潮》与李亮的对话,在不改变原意的情况下,经编辑发布:
“抖音的算法并不神秘”
《浪潮》:对于科技和互联网行业来说,算法是一项很关键的技术,尤其是推荐算法,你觉得它创造了哪些价值?
李亮:推荐算法是信息过载时代解决信息获取效率的工具,如今已存在于人们衣食住行的方方面面。比如电商平台是商品推荐,外卖平台是商家推荐,OTA 平台是民宿、酒店、机票推荐。
在视频行业,算法把相关内容推荐给可能感兴趣的用户,实现信息找人,信息在这个过程中得到高效率、更精准的分发。当信息连接到感兴趣的人,就会产生更大效益,比如说今年史铁生的《我与地坛》在抖音上翻红,非常多 00 后的网友重读史铁生,也带动这本书的销量增长,而传统书店将畅销书摆放在更显眼的位置,也是一种“推荐算法”。
推荐算法让信息高效分发,给小众内容、普通人更多被看到的机会,促进知识普惠,农技精准传播,宝藏小店被发现,农产品走出大山等等,都是推荐算法给各行各业带来的价值。对用户来说,推荐算法降低信息获取成本,可以减少因浏览大量无效数据而造成的时间、精力浪费,拓展新的兴趣。
《浪潮》:外界总说抖音的算法神秘,实际上是否如此?抖音采用的也是协同过滤这类经典推荐算法吗?还是已经历经了几番迭代,升级的重点是什么?
李亮:推荐系统是非常多算法和策略的集合,协同过滤是其中重要的一种,现在业界主流的推荐系统依然会采用协同过滤的技术思路,但在实现的细节上,例如如何利用协同数据做好向量表征的学习,如何把这种向量表征用在内容推荐上,学界和业界一直在迭代。除了上述技术思路,我们也会应用其他有效的算法,例如过去我们做过对视频内容本身进行理解而进行的推荐,现在学界业界也有很多基于大模型的推荐的尝试。
总体上说,抖音推荐算法的原理和行业相比并无特殊之处,不同的是每个平台为算法定制的目标,即更看重什么。抖音真正的北极星指标是用户的长期留存,所谓北极星指标,就是指引大方向的指标。留存是一种“人数”上的概念,也就是我们希望有更多人使用抖音,更多人认可抖音。长短期不仅仅是时间上的不同,在结果上也会有不一样的导向,比如长期留存会更关注兴趣探索、长期使用,而短期留存会更关注点赞、完播时长等目标。
《浪潮》:普通人对于算法的争议点还在于,目前平台没有主动给大家更多样化的算法制度选择,比如可以选择按时间顺序来排列,抖音是否考虑过更多样化的算法模式,这背后有什么技术难点吗?
李亮:我们所生活的社会处于信息过载状态,任何一个体量还可以的内容平台,每天新增的内容供给远远超过个人所能消费的,按时间顺序排列不现实。目前抖音的算法中有兴趣探索机制,帮助用户探索等多元多样的内容,抖音也提供了关闭个性化推荐算法选项,推荐的内容是非个性化的,是一种平台大部分人喜欢的内容推荐算法,而非个性化喜欢。
“平台最有动力打破信息茧房”
《浪潮》:有人说信息茧房是因为人性本惰,不愿意思考,所以主动接受了算法投喂的信息,这才是思维固化的真相,你怎么看待这个观点?
李亮:“信息茧房”这个词在推荐算法成熟之前就出现了,算法不是“信息茧房”形成的先决因素。
现在普遍对“信息茧房”的担心,其实是所谓的信息偏食,即信息来源单一。事实上,每个渠道分发信息都有局限性,比如公众号关注列表来源于我们自己的喜好,过去门户网站是根据编辑的价值判断,朋友圈的信息则是被我们的好友关系过滤。只看公众号,门户或者朋友圈,都会陷入所谓的“茧房”。但实际上,大部分人都是看朋友圈,也看抖音,也看新闻客户端,信息来源是很综合的。
另外从商业逻辑上来讲,平台没有动力去制造所谓的“茧房”,也最有动力打破“信息茧房”,业界和学界的研究都表明了多元化内容有益于用户的长期留存。
《浪潮》:抖音都做了哪些更具体的事情?
李亮:我们从几方面来做这件事:
1)抖音的内容分发机制并不只是推荐,还包括搜索、社交分享和热点热榜。这些分发机制都是非兴趣推荐的。以热榜为例,会展示当天重要的新闻事件,在话题内容会汇集事件的最新进展,平衡不同的、理性的观点,帮助用户了解事件的全貌;
2)抖音加强了社交推荐的机制,用户可以长按视频,点击“推荐”,这条视频就会被分发给抖音内的好友,并显示是“xxx 推荐”,这种社交推荐是对兴趣推荐的丰富和补充;
3)抖音的算法中有兴趣探索机制,帮助用户探索更多元内容,例如某个用户只表现出对音乐类视频感兴趣,平台会通过算法挖掘和音乐相关的品类,试探性地为用户推荐美术、舞蹈等类型的视频,帮助用户探索其他兴趣点。另外,虽然用户的兴趣点是多元的,但是总是有大兴趣点和小兴趣点,在推荐时我们会给小兴趣点更多的权重,避免总是给用户推荐同一类型的内容。
4)抖音会刻意做多样化推荐,避免越推越密集。比如用户对萌宠感兴趣,简单来说,在不考虑多样性的情况下,这个用户可能会被连续推荐 3 个宠物猫和 2 个其他内容,在考虑多样性情况下,用户只会被推荐一个宠物猫视频,增加内容的多样性。
5)用户可以通过对内容或者账号点击“不感兴趣”,以及在内容管理工具里面设置自己的内容偏好来更好的优化、掌控自己的推荐。
从人性上讲,思考、学习、接受不同观点,本身就是困难的,但用户可以通过与算法的交互,优化算法表现,让算法成为我们工作和生活的帮手,比如对不感兴趣的内容多点“不感兴趣”,有目的的主动搜索,用户搜索的内容对于推荐结果也会有较大影响。
《浪潮》:算法其实很难去理解情绪化的东西,比如很难理解什么是友善,可能会把对立、情绪化的内容当成是一种“友好互动”,进而去进行更多推荐分发,这个情况真实存在?
李亮:一些争议话题视频下面经常会有不同的观点,甚至对骂。如果单纯根据互动数据做推荐会产生这类问题,是不健康的。所以抖音的推荐机制,会把这类问题考虑进去,我们不希望不友善的讨论内容得到更多分发。综合包括评论、点赞、点踩、举报在内的信号,降低不友善争议流量的比例。
《浪潮》:这个纠偏过程具体是怎么操作的?
李亮:纠偏机制分几个层面展开:第一层是对“不友善”言论的进一步刻画,把是否存在攻击对立性表达作为评论审核的一个重要问题项,把对立性言论(严重的例如侮辱谩骂 / 仇恨性言论,中度的例如对立贬损,轻度的例如否定与指责)纳入评论处置范畴。我们有相关数据统计,今年以来,相关的言论在社区获得的曝光量已经下降了 43%。
第二层是对整体对立性评论氛围作为一个治理对象,当评论区整体出现了多方对立情绪,多方观点以不友善的表达方式争执不休时,我们会截停一部分的视频流量。
第三层,在视频层面,对于通过制造对立 / 放大负面情绪等方式博眼球的行为也有明确的管控,在视频流量的上涨过程中,我们会为其设置多轮流量关卡,审核其是否“值得”这么多的流量,可以说,这背后是平台运营为算法导航。
《浪潮》:所以“算法鼓励愤怒”其实是一种不正确的说法?
李亮:这里可能包含了比较复杂的社会学、心理学、传播学问题,比如极化现象、回声室效果,学术界已经有比较多的研究,比如就有研究发现用户在社交媒体上接触到对立观点后,不但没有反思、修正自己的观点,反而让他们变得更加极端、更加愤怒。
从平台视角看,我们希望用户有机会看到多样的视频和评论。但同时,我们会尝试理解视频和评论的“煽动性”,对于不实或引导用户发表极端观点的视频,会限制流量的分发;对于煽动仇恨、对立的评论,也会限制评论的曝光;对于客观理性表达的视频 / 评论,才会得到正常的推荐分发和曝光。
“生态治理长期来看对平台有助益”
《浪潮》:算法虽然是一个极其高明的“数学天才”,但在很多时候,算法都算计不过人心。我们也了解到非常多人会利用算法的这些特点,以致于滋生灰黑产。你之前介绍过很多次某营销号案例,这是目前抖音在算法治理方面遇到的最经典问题之一吗,这个问题是从什么时候开始爆发的?
李亮:是的。算法通常基于设定的规则、数据和模型来运行。它能快速处理海量的数据和复杂的模式识别。然而类似百准数据潘某某的营销号往往会利用一些狡猾的手段来创作内容。比如,营销号可能会使用表面看起来正常,但实际上带有误导性的标题、文案和发布策略,迎合算法对热度、关键词、用户兴趣等因素的偏好,通过制造虚假的热度,如刷赞、刷评论或者是在内容中故意夹杂一些容易引起算法关注但内容不实的信息。这种情况下,算法最初可能会因为这些营销号的行为符合部分规则而给予一定的推荐,从而可能导致误判。
营销号问题在互联网上长期存在。这类账号一方面编造虚假信息,如炮制明星绯闻,致使不实消息泛滥;另一方面过度营销,推送劣质广告,恶意刷量以博眼球。这不仅破坏了用户的优质体验,也侵蚀平台内容生态,搅乱信息传播秩序,让平台健康环境面临挑战。利用不实信息、极端、对立言论博流量,是抖音持续打击和治理的。
《浪潮》:营销号的治理牵扯的问题是什么?
李亮:首先我们明确打击不实信息,严格封禁反复发布不实内容的账号。治理不实言论涉及多方面复杂因素,是一个长期工作,保障各方权益与平台健康发展,也主要涉及一些考量:
其一,证据收集不易。封禁营销号需充分证据证明其不实,遵循确定信息源、核实真实性并留存记录等严格程序,证据不足直接封禁易引发法律纠纷,账号所有者可能以平台违反服务合同、侵犯用户权益、造成经济损失等理由起诉。
其二,我们会根据情节情况分级进行治理。区分炮制谣言和无意识传播,区分信息的危害程度,做出相应的管理。
《浪潮》:但是营销号的不实言论长期困扰着一些企业和个人,我们之前也听到过一些声音,觉得在抖音投诉这些营销号没有专人对接,一般情况下都是走平台化的投诉通道,这是不是因为抖音在相关问题的治理上有一套自己的流程方法?
李亮:关于是否专人对接的问题,我们认为核心还是不实内容能得到有效、及时的处理。
抖音对平台不实信息,首选会做主动的发现和治理。针对不实信息,尤其是社会信息,专业知识等影响较大的内容,会通过站内挖掘,站外监控,风险互通等渠道,主动进行不实信息的线索发现,由专门搭建的相关专业团队进行内容研判,对明确的不实信息录入不实信息库,发起回查和其他处置干预。依托这样的信息库算法能力,目前我们会对站内疑似的高风险不实信息进行召回和人工识别等进一步判断,在明确为不实信息后,会对新增和存量内容都做处置。
同时我们还在积极发现其他虚假不实类内容的特征,比如同质化批量发布“一眼假”的内容,针对这些内容特征构建算法能力,进行风险发现,从而提升对虚假不实类内容的治理能力。
抖音对于不实言论主要采用平台化的投诉处理流程,包括投诉受理、初步核实、深入调查(如有必要)、处理决策与执行、反馈与监督等环节。
抖音平台上有海量内容,通过标准化和规模化处理能力,能够确保大量的投诉得到有序处理,提高处理效率。这种规模化的处理方式也便于平台收集和分析数据。平台可以通过统计不同类型账号不实言论的投诉频率、涉及的行业领域等信息,来更好地了解问题的分布,从而有针对性地优化治理策略。平台化投诉通道避免了人为因素可能带来的不公平。平台化流程是基于预先设定的规则来运行的。这些规则适用于所有的投诉案例,确保了每个投诉都能在相同的规则下得到公正的审核。
同时,对于谣言多发的舆情敏感企业,抖音会重点关注相关涉企不实信息,侵权举报后台如识别到相关举报信息,会转至高优受理队列,相比常规队列能加快 4-6 个小时的处置时间。内部还建立了跨部门沟通机制,减少信息传递的偏差,我们还专门培养了熟悉特定企业谣言的“专家”员工,以便能及时对情况进行研判处置。我们有统计数据,11 月抖音累计受理网络涉企侵权举报 18425 件,处置账号 935 个,有效举报 11300 件,投诉成功率约 61.3%。
《浪潮》:算法治理其实是一个全球难题,有的平台被质疑算法出发点是提升用户的参与度,而根据实验,让参与度提升的最有效办法就是让人愤怒,为了追求使用者的参与者,算法就决定散播一些“骇人听闻”的内容,它本质上是高层的一些决策导致了算法应用的走向,这个情况抖音有没有碰到过?
李亮:上面也提到过,抖音的算法目标是长期收益,所有的优化迭代都围绕着这个目标,看长期效果。抖音更关注“用户长期对平台的认同”。事实上我们发现,用户参与也分很多种类型,比如利用争议诱导情绪而引发的评论并不能带来长期收益,就不会成为抖音关注的目标,比如“骇人听闻”的内容很可能是刻意博流量,是抖音明确要打击治理的,对这类生态问题的打击并不会带来平台长期留存的下降,反而平台是更有收益的。
本文来自微信公众号:凤凰网科技,原标题《独家对话抖音集团李亮:平台没动力制造“茧房”》
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。