从短视频到AIGC,快手字节重开一局 媒体四问韩国“N号房”丑闻:AI深度伪造色情图片视频 为何韩国最泛滥
从短视频到AIGC,快手字节重开一局 媒体四问韩国“N号房”丑闻:AI深度伪造色情图片视频 为何韩国最泛滥,
从短视频到AIGC,快手字节重开一局
作者 |辰纹
来源 |洞见新研社
从短视频到剪辑工具,从电商到外卖,再到如今的AIGC大模型,快手和字节的竞争从来就没有停止过。
通用大模型方面,快手有快意,字节有豆包;AI图片创作快手有可图,字节有星绘;视频生成大模型,快手有可灵,字节用即梦相对,此外在AI音乐、剪辑工具、社交产品、特效制作等多个领域,快手和字节都有相应的AIGC产品形成竞对。
制表:洞见新研社
短视频的主航道上,快手和字节打了个半斤八两,如今转向到AIGC的未来之争,两方的一举一动同样颇具关注。
01 针锋对麦芒
公开资料显示,为了跟上席卷全球的大模型行业潮流,字节跳动去年抽调了内部的高层管理和业务骨干组建了新的AI部门Flow。
前TikTok产品技术负责人朱文佳任Flow的业务负责人、字节跳动产品和战略副总裁朱骏任产品负责人,字节跳动技术副总裁洪定坤担任技术负责人,三方协同合作推进AI进程。
基础大模型方面,字节跳动去年8月上线了首个大语言模型“豆包”及多模态大模型BuboGPT。此外,字节跳动基础模型在语言和图像两种模态上均进行了布局,两个团队均向TikTok技术负责人朱文佳汇报。
AI应用层方面,Flow目前已推出三款AI产品,豆包、扣子和Cici。
其中,豆包为一款类GPT应用,可以完成问答、文本生成、语言翻译等多种任务,还可以根据用户需求和上下文进行自适应问答,提供个性化服务。
扣子是一站式AI Bot开发平台,无论用户是否有编程基础,都可以在扣子平台上快速搭建基于AI模型的各类问答Bot,可完成解决简单的问答,并处理复杂逻辑的对话。
为了加强AI战略,字节的其他部门也没闲着,包括剪映、巨量引擎、抖音主端、抖音电商、飞书等部门,都在加码各自的AI业务,成果陆续落地。
快手同样是在去年年初启动了新AI战略。
2023年Q3财报会议上,快手CEO程一笑介绍,快手的语言大模型-快意130亿和660亿大模型已达到行业内同等规模领先水平,同时也已经开始超千亿规模语言大模型以及多模态大模型的研发。
有媒体报道称,快手AI主要由快手AI技术团队(此前的快手Y-tech部门)负责。
具体的业务布局则是建立了以快意大模型为基础的AI服务平台,面向市场提供AI技术服务,产品服务涵盖计算机视觉、计算机图形学、自然语言处理、音频技术、视频技术、知识图谱、机器学习、AR/VR/MR、多模态等核心技术领域。
今年2月,继ChatGPT之后,OpenAI公布的Sora AI视频生成模型再度引爆全网。
然而从5月份开始,国内达到类Sora级别的AI视频模型技术陆续公布,快手也在6月6日推出AI视频生成模型可灵,并进行邀测,由于可灵的生成效果直逼Sora,引发行业关注。
猎豹移动董事长傅盛在体验过快手可灵后给与了高度评价,“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的”。
02 心智争夺战
无论在AIGC中的投入有多少,产品的宣传有多炫目,其最终的目的还是要让这项产品用起来,特别要让普通人用起来,因而从这一视角来看,大模型竞争的本质,是终端心智的争夺。
在这方面,字节的豆包显示出非常强的竞争力。
根据QuestMobile的统计数据,截至今年3月,豆包月活用户已达到2328.2万,排在豆包身后的文心一言、天工、讯飞星火、Kimi智能助手的月活用户数分别为1466.1万、966.1万、620.4万、589.7万。
而豆包官方数据显示,其移动和桌面双端月活跃用户已经超过 2600 万。同时,这些用户还共同创造了800多万个智能体。
基于豆包大模型,字节跳动还打造了AI应用开发平台“扣子”,互动娱乐应用“猫箱”,AI分身创作应用“星绘”等一系列产品。
在字节跳动内部,抖音、番茄小说、飞书、巨量引擎等50多个业务接入到豆包大模型,用来提升效率和优化产品体验。
由内及外,OPPO小布助手、荣耀MagicBook的YOYO助理、华硕笔记本电脑豆叮AI助手、极氪汽车的座舱大模型等均已接入字节的大模型服务。
可以注意到,从C端的APP用户,到B端的千行百业,豆包不仅使用量大,应用场景也非常丰富。据悉,目前豆包日均处理文本1200亿Tokens,生成 3000 万张图片。
不难看出,字节凭借着原本业务的用户基础,采用了打造平台型产品,围绕平台型产品建立其他关联产品生态的策略,这一幕与字节早期“APP工厂“时代极为相似。
快手的快意大模型具备与豆包相似的能力,只是快意目前更多应用在快手内部,主要为短视频、直播、广告、电商等业务服务。
快手官方公布的数据称,半年来,有近2万商家在快手平台借助大模型能力实现智能化经营,获得不菲回报。相比今年1月,今年6月的AIGC月活跃客户数增长了8倍,月GMV规模提升了64倍,平台AIGC广告收入规模提升了12倍。
快意之外,可灵是快手的另外一个心智争夺杀手锏。
其实不光是傅盛,很多科技博主、AI创作者们对可灵的表现也是大为赞赏。
AI创作者娜娜在体验过可灵后认为,人物一致性是可灵的一大亮点,并且可灵更加擅长真实画风,表现比较好的是美女、动物、吃东西等画面的生成。
与另外两个国外视频生成软件Runway和Luma进行对比,可灵在文生视频之外,比Runway多了一个图生视频的功能,比Luma的生成结果更加稳定。
也正是因为表现出色,引来了众多用户参与到可灵内测的申请之中,根据快手官方公布的数据显示,早在7月份时就已经有超过50万的用户申请可灵的内测资格,视频生成数量达700万。
不难看出,可灵的产品在技术上有突破,快手在视频生成赛道的布局也是极具策略的,用猎豹傅盛的话来说,“可灵的成功,更加证明了,Sora并不是一项技术性突破,而是产品型图片”。
03 决胜点在商业化
大模型的业务布局,快手和字节各有侧重,然而大模型的竞争最终的落脚点还是在商业化上,不光要用户爱用,还要用户愿意花钱来用。
在这方面,快手和字节也呈现出不同的思考方向。
我们先来看字节对豆包的定位,从产品形态来看,豆包是一个综合性的AI智能体平台,这也就意味着字节对豆包有着更大的野心,即不光光是为原有业务赋能,更希望豆包能够成为一个新的营收增长点。
因而在应用设计上,字节着重解决了豆包的“拟人化”“离用户更近”和“个性化”的问题,为了让更多的人体验到豆包,除了基础的免费服务之外,字节还着手大幅降低豆包的收费标准。
根据字节官方公布的数据,豆包主力模型 Pro-32k 版本模型推理输入价格为0.0008元/千Tokens,0.8厘就能处理 1500 多个汉字,比行业同等模型便宜99.3%;128k型号价格为0.005元/千Tokens,比行业价格低95.8%。
豆包的价格之所以定的这么低,字节认为有两点,一是需要做到这么低,另一个是自己能够做到这么低。
前者很好理解,只有足够低的价格,才会降低企业用户的试错成本,增强企业用户的信心,尝试大模型。
后者则是出于对行业趋势和自身能力的一种判断。
零一万物CEO李开复曾表示,大模型推理成本每年降低十倍,这在过去两年已经发生,优化得好更是可以降低二三十倍。
字节则通过模型结构优化、分布式推理、混合调度等举措,极大压低了大模型的推理成本,模型的调用量越大,成本的优化空间也就越大。
价格是豆包的留给行业最醒目的标签,更重要的是,通过一系列操作,字节打了一个样,为行业创作了一个大模型商业运营的范式。
相比之下,快手AIGC业务的商业化进程就要慢一些,如上文所述,快意更多为快手的自身业务赋能,可灵的想象空间虽大,但快手目前对可灵无明确的商业计划,也不对外提供API。
快手视觉生成与互动中心负责人万鹏飞在一次演讲中,谈到可灵的未来时曾提到,“视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊。越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。”
由此可见,不断强化自己的短视频生态,将长板持续做长也未尝不是一个较好的商业化路径,通过内部验证之后的技术产品输出,其能量往往更大。
04 结语
创新工场联合创始人汪华曾做过一个统计,虽然最近大家看到很多产品在大量推广,用户量也在迅速增长,但是把所有应用加在一起,日活也不过就是1000万,中国有12亿网民;而美国3亿人口就有大几千万的日活,相比之下还有很大的差距。
李彦宏也呼吁行业不要卷模型,要去卷应用,没有应用,光有一个基础模型,不管是开源还是闭源都一文不值。
这也是说,虽然AI未来已来,但是大模型的产品化还远远没有到来,用AI赚钱的时代才刚刚开始。
投身于时代潮流之中,快手有机会,字节有机会,你和我也有机会。
媒体四问韩国“N号房”丑闻:AI深度伪造色情图片视频 为何韩国最泛滥
韩国再现“N号房”丑闻,这次的关键词是“深度伪造犯罪”。
所谓“深度伪造犯罪”,即使用人工智能技术生成逼真的虚假内容,该技术的泛滥使得此次韩国女性的受害者数量以及相关色情图片视频的传播力度较之过去更上了一个台阶,受害者不得不在包括中国微博在内的各国社交平台发声,呼吁更多人关注。
深度伪造的技术原理是什么?黑灰产从业者如何从中牟利?为什么韩国最泛滥?应该如何加强监管?
AI深度伪造技术原理是什么?
对抗网络不断重复直到内容足够逼真
网络尖刀安全团队联合创始人蔡勇在接受记者采访时表示,AI深度伪造技术,也称为深度伪像(Deepfake),是一种利用人工智能技术生成逼真的虚假内容,通常是指用于伪造人物的视频、音频、图像等。其主要原理涉及两个关键技术:生成对抗网络(GANs)和深度学习。
“技术实现可以这么理解:首先,我们需要一个生成器和一个判别器。生成器的任务是模仿已有的真实内容,例如人的脸部特征,其通过学习大量的真实样本,比如照片或视频片段来生成看起来非常逼真的虚假内容。而判别器的任务是辨别生成器创建的内容是否真实。通过不断迭代训练,生成器和判别器会不断互相竞争、学习和提高。这种对抗性的过程不断重复,直到生成器生成的内容足够逼真,以至于人类很难分辨它们是虚假的。这就是为什么AI深度伪造技术可以制作出逼真的虚假视频、音频或图像的原因。”蔡勇说。
黑灰产打击专家丁健琮则告诉贝壳财经记者,Deepfake的核心原理是通过一定的图片识别算法将2D照片动态化,或将某张照片中的人脸植入到一段动态视频中。现在声纹伪造也逐步纳入了deepfake的概念。
随着近年来AI大模型技术的逐渐成熟,一些AI生图大模型在追求更多真实度的同时“误打误撞”成为了AI换脸或AI脱衣的帮凶,如此前著名的大模型stable diffusion就被开发出了一键脱衣的功能,并一度泛滥。虽然后来该大模型修改了相关功能,让这种行为有所收敛,但由于技术开源的特性,“潘多拉的盒子”已经打开,或许难以再度关闭。
黑灰产从业者如何牟利?
一个公开可进群组成员达1.5万人通过缴费还可进入更私密群组
贝壳财经记者注意到,同此前的韩国“N号房”事件一样,此次深度伪造图像的传播平台依然是国外社交平台“电报”(Telegram),该平台可以提供端到端加密消息传递,总部位于俄罗斯,因其私密的特性而拥有大量国际用户,但也因此成为了不法行为的温床。
贝壳财经记者调查发现,当前该平台上有不少以AI色情为卖点的群组(类似于群聊天,即韩国新闻中“房”的概念),在公开可进的群组中,一个通过AI技术伪造国内网红色情图片的群组成员人数达到了1.5万人,通过缴费,还可以进入更加私密、尺度更大的群组,黑灰产从业者正是以此牟利。
除了端到端加密技术外,Telegram还赋予了包括“阅后即焚”“超级群组(动辄可达十多万人,相比之下微信群的限制是500)”“群主设置不能复制转发截图”等功能,使得Telegram上的一个个群组成为了封闭式空间。此外,不少交易通过虚拟货币进行,令非法交易得以逃避监管。
今年3月,Telegram的创始人帕维尔·杜罗夫表示,“电报”已拥有9亿用户,且正接近盈利。照此发展速度,其下一步将直接与Facebook等社交媒体竞争。
丁健琮告诉记者,Telegram的创始人本就是绝对自由主义者或者可以称之为无政府主义者,其设计Telegram的原始理念就是无监控和躲避监管,这就导致大量黑灰产和违法信息在其中聚集。
不过,贝壳财经记者注意到,Telegram里也有一些约定俗成的“禁区”,至少在公开可见的大群里,一些群成员会注意包括儿童色情、强迫性行为等在内的内容,曾有群成员抱怨自己发布了上述内容后群组遭到封禁。但基于Telegram平台本身的私密性特点,对于经过筛选、群成员忠诚度更高的各种“房”,仍然存在此类内容的可能性极高。
值得注意的是,8月24日,杜罗夫在法国巴黎近郊的布尔歇机场被捕,虽然后来在司法监控下获得保释,但不得离开法国。法国TF1电视台报道称,帕维尔·杜罗夫可能面临恐怖主义、洗钱和贩毒的指控。巴黎检察官办公室在一份声明中指出,其涉嫌的违法行为包括参与出售儿童性虐待素材、贩毒、欺诈,以及在法律要求时拒绝与调查人员分享信息或文件等。
有评论认为,杜罗夫的被捕有可能导致Telegram今后的内容得到整治。
2020年3月26日,Telegram性剥削共同对策委员会在首尔光化门世宗文化会馆台阶前举行集会,要求从根本上解决Telegram性剥削事件。(图片来源:韩民族日报官方网站)
为什么是韩国?
法律执行力度或许不够 但性别歧视才是根源
实际上,饱受深度伪造困扰的女性并不只在韩国。欧美女演员中,“黑寡妇”斯嘉丽约翰逊、“赫敏”艾玛沃特森,以及小天后泰勒斯威夫特都是第一批遭到AI换脸的受害者,国内明星和网红也有不少受害者。
去年5月,一粉丝数量超过50万的国内网红女博主发文吐槽,“好多人都经历过图片被盗放到外网上,拿去引流‘卖片’,以及把照片和其他色情图片放在一起的低级造谣手段,明眼人一看就知道是假的,我平时不在意这些,只是当私信突然变多发现‘节奏’起来时,才不得不辟谣。”
但是,为什么韩国女性受到深度伪造的伤害比之其他国家更甚?根据8月26日,韩国女性民友会发布的报告,在某一个“电报”群组中,只需上传熟人照片,付费后5秒钟内就能生成裸体合成图,而该群组的参与人数高达22.7万人。
相比其他国家AI伪造的受害者大多是明星网红,韩国更有大量的普通人受害,有韩国女大学生受害者表示,自己有数十张裸体照片在电报群组中传播,脸上写着不堪入目的脏话,甚至还有人通过AI生成了自己的色情语音。
民友会在报告中质问,“(韩国)女性们生活在一个无法有效惩罚或预防针对女性犯罪和暴力的社会中,失去了日常生活的安全感,仿佛生活在一个没有国家的状态中。这样的社会还有存在的必要?”
实际上,对于此类犯罪行为,韩国并非没有相关的法律,“N号房”事件的发生就推动了韩国《Telegram“N号房”事件防治法》的出台,包括《关于性暴力犯罪处罚的特例法修订案》《刑法修正案》《关于限制犯罪收益隐匿的规定及处罚的法律修订案》等内容。
据韩联社29日报道,韩国政府还计划加强对利用“深度伪造”进行性犯罪行为的处罚力度,并推进与通讯软件“电报”的运营公司构建合作热线。韩国执政党国民力量党政策委员会主席金相勋在当天举行的发布会上称,党政在国会开会讨论“深度伪造”性犯罪的预防对策。双方计划推进立法,将散布虚假视频等犯罪行为的最高刑罚从5年提高至7年。
但是,对于韩国女性而言,长久的性别歧视观念或许才是导致此类事件一再发生的“根源”。《朝鲜日报》称,因为“只是觉得有趣”、“只是在开玩笑”、“用熟人的照片P图更真实”等原因,“深度伪造”在韩国10代群体之间像“游戏”一样盲目蔓延。
韩国女性民友会的负责人就呼吁人们进行反思。“韩国女性被品头论足,被看作可以是‘被玩弄的对象’。这种对女性的性物化、蔑视和侮辱已经成为一种娱乐。韩国社会培养出的‘普通男性’的最低标准究竟在哪里?”
如何防范、监管?
加大AI平台使用者审核 打击为黑产提供支持的apk工具
在采访中,不少专家都认为随着AI技术的进步,想要阻止人们使用AI生成伪造视频或图片,并不现实,想要制止此类行为,需要从其他方向“下功夫”。
“近年来Deepfake愈演愈烈、难以监管的原因在于技术扩散。很多类似的黑产技术被不断地工具化甚至SaaS服务化,使用者不需要懂得相关技术,只需要通过某些途径获得包装好的插件或者在网络平台上付费就可以实现内容的输入输出。”丁健琮表示。
“必须明确的是,使用AI工具进行伪造,效率要比传统伪造方式高得多,技术门槛却又低得多。俗话说得好,造谣一张嘴,辟谣跑断腿。当前,通过专业技术手段或专家鉴定可以识别AI深伪视频和图片,但成本也很高,随着技术不断进步,AI生成或合成的视频最终无法被鉴定真伪,是必然的。”奇安信集团行业安全研究中心主任裴智勇告诉贝壳财经记者。
在他看来,虽然想要阻止人们使用AI生成伪造视频或图片不现实,但这并不意味着对伪造视频或图片毫无办法。“国内对于网络色情视频和图片都有非常成熟的治理方法,即便不能用技术鉴别一张图片的真伪,但可以从平台一侧阻止色情内容的传播,定位色情内容的传播源头并实施打击。”
丁健琮则建议,应该从源头管控技术扩散,“正规的AI技术平台对于上传和生成的内容应当有审核,使用者也需要实名注册,国内法已经明确建立了此类规定。正规经营者应当严格落实国家法律法规要求。而对于为黑产提供支持的apk工具或者SaaS网站,要依赖严厉的打击。可以参考国内反诈工作的思路,软硬件生态联合对相关的apk和网站进行封禁。”
裴智勇表示,从未来角度看,应当积极探索和推广照片与视频的防伪技术。例如,通过数字加密技术、数字水印技术等,可以给每一张图片或每一段视频打上一段不可伪造的验证信息,一旦内容被修改,验证信息就会被破坏,从而达到虽然不能鉴伪,但可以“保真”的效果。
“具体来说,比如,使用某品牌、某型号、某序列号的特定手机拍摄照片,照片文件上就会带有一串肉眼看不见、但机器可识别的加密验证码。验证系统一旦识别到这段验证码,就可以确定这张照片一定是用这部手机拍摄的,而使用任何其他设备,都无法生成这段验证码。一旦有人对这张照片进行修改,不论是AI修改,还是人工手动修改,验证系统都能识别出其‘不是原图’。这里所说的方法并非什么新技术,而是成熟密码技术。需要的只是推广和深度普及。”裴智勇说。
“目前,国内外已经有一些专门用于识别deepfake生成结果的技术和专利,国内内容平台可以通过在内容巡检功能中增加对deepfake类内容的识别技术,尽可能切断传播链。”丁健琮告诉贝壳财经记者。
新京报贝壳财经记者 罗亦丹 编辑 陈莉 校对 柳宝庆[db:内容]?