歌手会被AI取代吗,究竟是怎么一回事?_新闻资讯_生活常识

正文摘要:

近日，小编我刷视频的时候刷到了一个孙燕姿翻唱其他音乐的视频，声音的相似程度让我震惊，以为就是孙燕姿在唱歌，可是当我看了评论才发现是AI在唱歌！以后歌手能被AI代替吗？所以其实AI代替歌手难度和投入跟人相比有点大。总的来说，AI代替歌手有点难，但是随着未来科技发展也不一定，你觉得AI能代替歌手吗？
歌手会被AI取代吗究竟是怎么一回事，跟随小编一起看看吧。

近日，小编我刷视频的时候刷到了一个孙燕姿翻唱其他音乐的视频，声音的相似程度让我震惊，以为就是孙燕姿在唱歌，可是当我看了评论才发现是AI在唱歌！

当我听完我去刷了其他明星的AI翻唱发现相似度还是蛮高的，这不禁让我想到个问题？以后歌手能被AI代替吗？

首先这个问题我个人认为要这样看！

第一、AI说白了就是用机器代替人，那么机器也是人给它输入的指令和数据，其实虚拟歌手这个早就有概念，比如“初音未来”这种但是它们主打的是二次元，唱歌只是次要的。再说AI唱歌没有外貌，是个虚拟的，线上听还行，如果说开演唱会这些那怎么办，跑去现场就听歌？所以其实AI代替歌手难度和投入跟人相比有点大。

第二、AI唱歌是模仿一个歌手唱歌，简单来说就是根据一个歌手的声音模仿出音色，所以如果AI代替了歌手，没有创作性，就是没有特点，以及有些人能飙高音，有些人的音色又是低层的，AI虽然能模仿，但是没有新意。

总的来说，AI代替歌手有点难，但是随着未来科技发展也不一定，你觉得AI能代替歌手吗？

歌手会被AI取代吗相关阅读：

硬核声乐——AI周杰伦、AI孙燕姿的唱功如何？答：无限音域的Bug

近日，华语音乐圈迎来了一次重大翻唱变革，冷门歌手【AI周杰伦】、【AI孙燕姿】开始了对全网范围的所有歌曲翻唱热潮，其中“AI孙燕姿”更是Sha疯了，以屠榜的形式成为了旧歌新唱怀念旧日巅峰华语乐坛的媒介。很多朋友担忧：AI是否会取代职业歌手？AI是否在声乐上可以超越真人？

后文结论前瞻：AI歌手未来会冲击中下层歌手生存空间，但在声乐上无法取代巅峰歌手。只要AI模型学习次数足够，样本足够，AI歌手可以轻松实现无限音域，非常恐怖。但在音色、腔体、语感、咬字、技巧、层次性、音乐性、律动感、创造性上，AI的本质是模拟和效仿，无法完成声乐的突破和超出模拟对象歌手唱功的能力表达。所以，AI的上限会局限于真人歌手的声乐水准，不会对声乐艺术造成底层冲击。

但存在一定小概率可能，若有人完成整个华语乐坛的全部歌手、全部歌曲的大数据流宏观长周期学习推导，AI可自主二次创造顶级声乐虚拟歌手，概率很能力都很高：音域水准基于C3-C6三八度的无限延伸；音色技巧可编辑化，99%真人化；腔体无气口约束，完美气息支撑，都将快速实现。甚至会有公司完成资本推动，上市牟利。那样虚拟歌手将冲击巅峰真人歌手，虚拟音乐市场将起飞。

同时AI歌手模型在新型电信诈骗上风险巨大，在这里小辫子提醒大家：一切涉及转账的电话、语音，一定要用视频确认是本人后再进行转账。不要相信电话语音那头你我家人的言语音色，也不要在网络上传过多自身的语言信息媒介。超过数条，犯罪分子即刻用AI学习你我的音色，对家人、朋友完成电信诈骗，防患于未然。

以下从声乐上，具体分析AI周杰伦，AI孙燕姿的唱功能力，以及是否具有颠覆现实可能性的探讨；

1：音色；

AI的音色审美标准，不同于我们正常的流行声乐辨识度要求。主要是集中于：音色像不像真人，音色像不像被学习的歌手。而这种“像不像”在声乐维度上，是指四部分：声带底色、技巧修饰、中文语感、咬字习惯。多了语感和咬字的硬性真人对比标准。

在声带底色和技巧修饰上，AI周杰伦和AI孙燕姿表达了AI的局限性——无法区分声带底色和技巧修饰的音色差异化，而是数据整合的形式。我们去听AI周杰伦和AI孙燕姿时，会发现，在低音区、中音区AI周杰伦和AI孙燕姿的堪称入木三分，歌手亲自演唱。

但是随着音区升高，音色开始变得极为不稳定，整体的音色开始割裂，朝着原唱的音色倾斜。相同一句的不同段落层次音色没有差异化。这种现象表达了两个问题：AI的歌手，数据的学习次数没有达到具有一个基本声带底色的参数可调整规模。说人话就是：AI歌手暂时无法快速对音色展开全音域的底层铺盖，对于不同歌曲的模拟会因为原曲的歌手演唱影响。

这里就是体现人声的优势，因为我们的声带是天生的，我们对于声带的运用，是非常容易理解音色技巧修饰的概念。但是AI很难理解声带底色和技巧修饰的差异化。因为AI学习的模型，如果将音色细分为各种人声真实性参数，学习的成本会指数级增大。

这也就造成了，在音色维度的基本盘，声带底色和音色修饰上，AI很难短时间完成现象级一键生成模拟的可能，和真人的相似度在80%左右，很难快速迭代到99%。但是这种隔阂可以人为加速，有资本实现的可能。

在中文语感上，AI则是更加的不适应，AI更习惯于英文的语感学习逻辑。因为AI周杰伦和AI孙燕姿的演唱语感归韵问题非常严重。英文语感是串联的线性连奏没有音高波动，而中文是字正方圆的断奏，语感自带音高起伏。

我们华语孩子学习唱歌，第一步就是要提出顽疾——唱歌无音调化的思维。就是不允许在歌曲时第三声归韵，比如：汉字第三声的“海”，在尾音时，被新手演唱常常唱出三个音高，7转6转高音1，但是在简谱上，只允许一个音，这就是中文汉语拼音导致的语感转音问题。

AI在学习中文的时候，常常归韵的尾音是最不像的点，会在模拟歌手和原唱歌手之间切换。这种现象会被短时间攻克，因为这本质是没有人去做中文语感的优化，我们听到的只是英文逻辑的中文学习运用。

在咬字习惯上，AI的表现就全面崩盘，底层逻辑很简单粗暴，就是把原唱的咬字一点不变，音色置换为上述声带底色、技巧、语感的综合音色，就完了。完全没有一点点的加工，甚至于说在咬字习惯上，AI没有进化出一点点的还原能力。

综合而言，在音色上，AI的核心是声带底色和音色修饰的集中化，而不是专业多维度参数化，又有中文语感的适配度难度，再加上咬字习惯的逻辑缺失。整体音色处于一个以音准匹配的唯一性参数，什么音准用什么音色的简单初级逻辑，并没有进化到音色可编辑，音色千万种的程度。未来的路，AI还需要走很远。

当下的AI音色，在合唱之中的表现远远比独唱要好，但专业程度还远远不够，达不到声乐的基本标准。难以干扰专业领域，但已经可以在业余翻唱市场乱杀。未来来了。

2：音域；超越人类的音域数据化学习能力；

在音域上，AI表现最恐怖的地方：远远超出于人类的学习能力，三分钟吊打声乐科班生三年努力。AI周杰伦和AI孙燕姿表达最核心的AI优势，就是音域。正常男生要想拥有C3-F4的演唱能力，起码三年业余起步，但是对于AI而言，三秒钟即可。

周杰伦C3-F4的歌曲样本最多。

孙燕姿G3-C5的歌曲样本最多。

音域的样本数量，直接决定了AI歌手的音域质量，而我们看到了市面上好听的AI周杰伦和AI孙燕姿，大部分惊艳音区都在集中于上述亲民音区。当AI周杰伦的音域越过了F4和孙燕姿音域越过了C5后，AI就出现了大量的音色割裂和咬字虚化。

这里就要说一点，我们声乐演唱时，音高和咬字是有先后顺序的。一般而言我们是音高用哼鸣为核心，咬字是在音高表达之后完成的附带产品，顺序是：音高优先，咬字其次。那这个顺序逻辑对于AI而言，在样本不够的情况就很难处理了。他只能优先保证音准音高是对的，但是咬字的信息、音色的信息不够，就只能做虚化处理。

而音高对于AI而言，完全没有任何发音难点，因为是纯数据流，而没有人声声带机能的生理性局限，AI可以自由编辑任何音高，不像我们人声没有个十年八年的努力，很难跨越第二换声区。

所以在音域上，AI表达了非常恐怖的学习能力：只要样本足够，AI的音域就是无限的，没有上限。于文文这个F4的女歌手，AI于文文也可以唱C6的《魔笛》，维塔斯这个哨子音，也可以唱《只要平凡》的E2低音。只要样本信息足够。

这会导致一个隐患，未来的职业歌手可能会主动使用AI帮助自己发布唱片，尤其是偶像歌手的音域能力不足，将有可能被AI弥补，导致声乐水准的下降。科技不一定是艺术的进步，但一定是某方面的偷懒作为源动力。

3：腔体；无解的完美CD；

在腔体部分，AI的能力更强了。因为AI的学习全部都是都是一CD作为基本样本，而任意一张CD都是百万调音师的辛苦心血，调音的结果直接集成了腔体的能力，即使腔体有问题，也会被混音、调音修饰至消失。

所有的样本都是CD，必然让AI的腔体能力，就是以基本的CD品质来输出的。所以，不管是哪个AI歌手，他们在腔体气息支撑、共鸣、声线清晰度上都没有短板。只能说，强大。

总体，AI孙燕姿、AI周杰伦已经很强大了，在非专业声乐领域的下沉市场，已经可以实现打压部分业余翻唱人员，而摩尔定律似乎对于AI歌手才刚刚奏响。未来已经来临。