阅读设置(使用快捷键[F11] 享受更好的阅读乐趣)

设置X

第399章 403. 突然火爆的视频翻译

孟繁岐这边正在进行着一系列紧锣密鼓的准备工作,CloseAI将会很快推出GPT4,将诸多功能升级。

其中一个很大的突破,就是能融合图像、语音等其他模态。

这件事情在技术上早已成为可能,不过一直以来,还没有非常出色的产品将它们融合起来。

孟繁岐对此信心满满,觉得GPT4将会是第一个真正整合了多种模态的出色AI产品。

却不曾想,就在这个档口,有一家名不见经传的小公司推出了一款AI产品,成功融合了视频、语言和语音这三个领域。

“老板,你看看这几个视频,跟你之前曾经做过的东西有点像。”互联网时代,很多东西火起来也就是一两天的事情。虽然CloseAI一直关注领域内的动向,但发现这系列视频的时候仍旧感觉有些猝不及防。

孟繁岐接过平板电脑,这几个视频都比较简短,全都是一些比较出名的人物对话、采访又或者是表演节目的片段。

有美国歌手泰勒,知名相声演员郭德纲,还有一些网络热门的视频片段。

它们的一个共同点就是,视频中的人物没有在说自己的母语,而是在说其他国家的语言。

比如,美国歌手泰勒流利地说着中文,介绍着自己最近去了什么地方旅游。

视频中的郭德纲呢,则直接在使用流利的英语在说相声。

至于网络热门的一些搞笑片段,本就是有一定笑点的视频,它的语言内容发生改变之后,更带有一种非常诙谐幽默的味道。

什么【杰哥不要】,【华强买瓜】。

这些差不多十年前的视频被人截出最经典的片段,做出了日语版英语版,别有一番风味。

“其实此前类似的视频也有不少,不过没有做得这么好的。”孟繁岐前世常看鬼畜视频,作为打工人,常用这种观看视频的方式找乐子。

因而对于这个领域比较了解,在这个圈子里,有高技术力的创作者还是蛮少的。

其中有两个很大的问题,就是【口型】还有【音色】。

“每个人的声音都有自己的特色,在以往的类似视频当中,做法往往是【活字印刷】。通过大量的视频素材来存下某一个角色的语言素材,然后剪辑拼接,形成完整的一句话。”

“不过这样做的话,如果素材比较零散,就会导致一句话的语音语调不连贯不统一,因为这些素材原本就来源于不同的语境和上下文。”

活字印刷的方式,经常会导致说话人突然激动、突然大声又或者突然消沉。

在技术力较强的人手中,偶有这种情况发生,无伤大雅,反而可能会显得非常喜感。

但在技术水平不够的人手中,整句话就显得破破烂烂,非常影响听感,让人根本看不下去。

而在这些视频当中,人物的语音效果都是非常连贯的,并且非常显然,视频创作者是不应当有【素材】这种东西的。

因为在孟繁岐的印象当中,美国歌手泰勒显然是不具备正常的中文能力的。

“这些视频是技术发布者制作的,还是普通用户自己制作的?”孟繁岐询问道。

“是用户们自己制作的。”

“那这样的话,应该是没有额外的素材输入的,这种技术单纯就是基于用户上传的视频来做的。”

孟繁岐沉吟了一下:“因为是翻译而不是原创内容,所以人物的语气内容不需要有很大的变化,这么做倒也行得通。”

“这个跟你两年前制作的,那个男人宣布参选的视频是不是特别像?”CloseAI的员工们看到这个新产品,第一反应就是孟繁岐两年前的经典之作。

那个作品不仅震惊了世界,还最后成为了现实。

“很接近吧,我当时所做的是一个特化的例子,现在他们将这个功能做成了流水线的产品。”孟繁岐点点头,他倒没有觉得对方是【抄袭】自己当初的做法。

因为他在当时制作视频的时候,请了专门的模特,对了口型,然后整个进行了换脸。

声音也是专门采集的大量那个男人的音频资料,直接创造了一个语音AI模型。

每一个环节都是非常专业的操作,工作量也不小,门槛很高,普通的用户是绝不可能做到的。

而现在,heygen这个新的AI产品,则是做到了【端到端】。

也就是说,一个视频进去,一个视频出来。用户所需要做的,单纯就只是将自己想要编辑的视频文件直接上传,其余的东西一律不需考虑。

“想要做到这个水平,文本的提取和翻译、语音特征的复制和生成、以及视频中口型的替换都必须结合的炉火纯青才行。虽然单独看最终的效果没有我当时制作那个男人的宣言经验,但大量工程定制化和流水产品是不可同日而语的。”

孟繁岐两年前就做过类似的事情,当然很清楚这里面工作量的庞大。

他并不是没有考虑过将当初那个神奇的流程做成一个产品,毕竟自从那个男人登顶之后,这项技术的热度就一直居高不下。

孟繁岐之所以没做,一方面是因为工程量太大,另一方面是因为他所图甚大。

孟繁岐希望成就的是一款【生成式的多模态】而不是heygen这款【编辑式的多模态】。

现在,结合ChatGPT和DALLE,已经可以做到凭空生成特定的图像。

譬如,孟繁岐就可以做到直接凭空生成美国歌手泰勒正在进行访谈的图像和文本,而不需要任何素材。

根据泰勒的语音素材,孟繁岐也可以直接获取一个泰勒AI语音模型,来朗读生成的文本。

也就是说,一旦解决了视频中图像不稳定不连贯的问题,孟繁岐就能够以【凭空生成】的形式,做出【XX在说XX内容】的结果。

这无疑是更加高级,更加恐怖的。

而在这个技术难题尚未得到解决的现在,heygen取了个巧,绕过了【生成】这个概念。

而是改为了【翻译】和【编辑】。

heygen几乎不修改视频内容,只根据文本调整人物的口型,这样就极大规避了图像生成难度大,生成视频不稳定的问题。

heygen也不额外创作文本内容,不去生成文本,而是转而将视频人物的语音内容识别,然后翻译成其他国家的语言。

heygen甚至连人物的语音模型也不建立,而是直接克隆模仿原本的语气语调。

可以说,在图像、文本和语音三个领域,它都通过一种非常巧妙的方式,规避了难度非常大的地方,绕开难题,出色地达成了目的。

“这东西确实有创意,我怎么就没想到。”孟繁岐有些懊恼,他的视野太过局限于前世的成功应用,对于自己没有印象的一些技术路线关注不够。

按理来说,做完当年那个视频之后,自己就应当有这个意识的。

毕竟,这种对视频的转译几乎可以称得上是同声传译了。

若该技术发展完善,以后领导人们还带啥翻译?

上一章目录+书架下一章