小智萌生出在淘宝上制作AI虚拟人物的念头,是在ChatGPT大火之后。当时各种AI工具喷涌而出,尤其在绘图和语音学习领域,带来了许多新变化。
95后程序员小智,两年前离职后,成为了一名视频up主。但随着内容赛道的日益内卷,他决定换条赛道,尝试用生成式AI视频合成工具,加上声音克隆技术,制作能说话的AI虚拟人物。
这套技术也能让照片里的人动起来,只要提供一张照片,加上照中人的录音样本,通过AI学习,便能让照片中的人开口说出自己想要的内容。“只要录音样本量足够,最后呈现出的效果,音色就是一模一样的。”小智说。
他也注意到,当投资界正在热议和探索AI的商业场景时,淘宝上的店家们早已先行一步,开始利用AI工具赚钱了。从AI自动生成图片素材,到AI头像定制、AI生成职业照、AI换装,再到制作能动能说话的AI虚拟人物,淘宝中小商家们以其独特的商业敏感性,开启了一门门AI生意的初尝试。
探索一门前沿科技,最好的方式就是从初浅的商业化开始,而哪怕是最初浅的商业尝试,在发展出一定规模后,也将进一步推动科技的应用与进步。这条在人类商业史上已经被无数次验证的路径,这一次又从淘宝开始了。
1、让新生儿提前“说话”,送出祝福
依靠自己在计算机和视频方面的基础,小智很快就熟悉了这套技术,并在淘宝上注册了自己的店铺:清驰飞跃小店。
开张一个礼拜后,便陆续有人下单了。最初的买家和小智设想的差不多,他们要的多是祝福内容。比如有人给刚出生的孩子做动态视频,让还不会说话的新生儿,在视频里祝福爷爷奶奶外公外婆身体健康,爸爸努力工作,并为自己许下承诺:“我长大后要多多赚钱,带妈妈环游世界。”
“这体现了妈妈的长期布局,深谋远虑。”小智调侃道。
但做着做着,小智开始接到一些特别的订单。这些买家会给他一张过世亲人的照片,以及生前录音。他们的需求很简单:让自己生命中最重要的人,再次开口对他们说话,哪怕只有一句。
图说:淘宝上的AI虚拟人物商品页
2、越来越多客户想让逝者“说话”
一位丧偶的丈夫发来了妻子的照片和录音,在小智最终交付的成品中,视频里的“妻子”对丈夫说:“好好过,把孩子养大,我们都会死,我只是先走一步。想开一点,我会照顾好自己。加油!”
在同一单里另一份留给孩子的成品中,这位虚拟的“母亲”说:“妈妈以后不在你跟前,你要学会自己有主见,别让我担心。”
一位正在筹备婚礼的男人,发来了(准)岳父的照片和生前录音。那是小智开业之后收到最长的录音,总共有40多分钟,都是从微信语音消息里扒下来的。“语音学习,当然是样本量越大越好,但很多人提供不了那么多逝者的生前录音,就算能提供的,大部分也都是微信语音,音频导出后,会有一些电流杂音。”
不过好在,这段AI生成的视频,新郎正是打算在婚礼上,以微信视频来电的方式播放。而新娘对这一安排并不知晓。
新郎还在文案里特地备注,视频发起者的名字要显示为“爸爸”。
据新郎说,新娘和父亲感情甚笃,但父亲在5年前过世,新郎希望通过这种方式,给新娘留下一场“有父亲出席的婚礼”。
这段虚拟的父亲来电,前半段是对准女婿的告诫之辞:“作为父亲,我本该在她遇到挫折时,烧一桌好菜,等她回来哭一场。但我现在要实现这些有点难度,以后就拜托你了,别让我失望!”
随后画风一转:“我现在要跟我闺女说几句了,你往边上稍稍。”
在视频的后半段,AI“父亲”对女儿说:“爸爸今天没能亲自把你的手放在他的手里,是我的遗憾。”“他”接着鼓励女儿:“学会释怀,不沉溺于无法改变的事,向前看。我会一直为你们祝福的,再见……”
图说:淘宝上的AI虚拟人物商品,收藏数日渐上升。
让小智印象最深的客户,是一位北漂女孩。“她找我做了两份,一份是爸爸,一份是妈妈。内容差不太多,都是叮嘱她‘工作别太累,学会放松,我们在这边也会想你’之类的。”
女孩收货之后,又向小智提出了另一个需求:她想让小智教她这一套AI虚拟技术。“她说她以后想经常和父母亲说说话。”
小智花了好几个小时,远程手把手地教女孩掌握整套制作过程,“后续她自己做的时候,遇到问题就来问我。”
“现在她已经完全会了,经常让‘爸妈’来安慰她。”小智说。
3、中老年客户只想让照片中的孩子“动一动”“眨眨眼”
在淘宝店开张至今的3个月里,小智让100多位逝者和亲人说上了话。“说实话,有的做完我都挺难受的。”他说。
大部分“说话”的逝者都是老人,所说的话,也多是“注意身体,别太累”之类的爸妈式叮嘱。这更像是失去至亲后,活着的人想对自己交待的话。
但也有白发人送黑发人的订单。这些为数不多的中老年客户下单时,往往不要求照片中的年轻人说话,只求他们能动一动,眨眨眼,摇摇头。“可能,他们已经没有什么话想对自己说了。”小智猜。
图说:小智的AI商品下的一条评论
让小智略感遗憾的问题是,目前的AI声音克隆技术,只能实现对音色的模拟,最后输出的结果,也只能做到以普通话为准,对国内的方言基本无法识别。而许多老人,平时说的都是方言,或夹杂着方言和口音的普通话。这就使得AI模拟出的老人语音,与本人的真实说话场景对比,仍存在一定失真。
但AI是一项能通过不断学习,不断进化的科技。只要学习资料源源不断,它的输出结果就会越来越接近真实。
小智说不出这样的未来究竟是好是坏。看着淘宝后台中长长的订单列表,他深感在看似无远弗届的科技发展下,人与人之间的情感连接,仍如沙中的金粒,无论被淘洗多少次,依旧令人惦念不忘。
每一个下单的人,都在等待一次重逢,等待有朝一日,能再次听到那段熟悉的音色。
一个细节或许可以证明这一点:在这些淘宝订单里,客户发来的照片,几乎都是逝者生前的生活照,而不是遗照。