现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIO ...

文章推薦指數: 80 %
投票人數:10人

现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIO AI」. 音乐舞蹈2022-01-15 19:28--阅读 · --喜欢 · --评论. 术力口bot. 粉丝:7926文章:33. 现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIOAI」术力口bot 关注专栏/兴趣/音乐舞蹈/现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIOAI」现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIOAI」 音乐舞蹈 2022-01-1611:28--阅读· --喜欢· --评论 术力口bot粉丝:7929文章:33 关注※2022/2/24追记:由于CeVIOPro的α版本被公开了,所以追记了其大概情况。

※2022/3/19追记:进行了关于「Bangdream!」和CeVIOAI的联动的追记。

这是2021CCC圣诞日历活动第二十天的文章。

 我是KALTE。

是一名作曲家。

虽然这么说有点突然,我还挺喜欢UTAU来着。

在之前也有稍微写过关于UTAU的文章。

我所推荐的UTAU音源6选https://note.com/kalte/n/nb5a8fb3b0f2a虽然最近不怎么能看到了,大概5年前左右出现过大量的以使用重音teto和暗音renri等等为首的UTAU的良曲,我觉得当时被这种近似人类一样的歌唱方法所震撼到的听众也不少。

ポリスピカデリー(PolicePiccadilly)的「ナーヴ・インパルス」之类的,这种曲子达到过能让没有听过暗音renri唱歌的人没有办法判断和人声区别的程度…… 在此处,不知道可不可以讲一点当UTAU听众的话经常会有的感受。

虽说这是在niconico上经常会出现的弹幕……「调教好厉害!!真的是vocaloid吗!?」就是这条。

 尽管从听众这边出发看UTAU的认知度较低也是没有办法,但是VOCALOID和UTAU是不同独立的声音合成技术,VOCALOID≠UTAU这一点从UTAU发行以来经过了13年的今天也没有传播渗透开来确实让人很着急。

 从作曲者角度出发,有着VOCALOID虽然是付费的但是从一般人看来音源(初音未来、镜音铃之类的这些声音的种类)的认知度较高,然后UTAU虽然是免费的但是音源的认知度和质量与VOCALOID相比逊色这些明确的区别(虽然如果是优秀的UTAU音源通过调声可以获得凌驾于VOCALOID之上的性能)。

因为没有创作过曲子的人不了解这些也是正常的,但如果搞错了的人可以借此机会记一下哦。

 嘛暂且搁置一下这个话题,今年(2021年)1月新的声音合成软件「CeVIOAI」被公开了。

 实际上从2021年一开始「结月缘丽」还有「IA-ARIAONTHEPLANETES-」这样使用了CeVIOAI的音源就早已公开,但是让CeVIOAI名声大噪的大概是,以KAMITSUBAKISTUDIO所属的花谱为原型于2021年7月7日登场的「可不」吧。

 https://kaf-u.kamitsubaki.jp/ 之前平时就有在听花谱的曲子,所以在正式发售之前我就在想「KAMITSUBAKISTUDIO,你做的好啊……」,一直有在听她的demo曲。

 但是,在音源正式发售之后不久,在某位的推广广告中看到了有着这样标题的视频。

 「○○○(曲名)/△△△(作曲者名)feat.可不【vocaloid原创曲】」 喂!!!!!!! 听众就算了,使用者在这种地方犯错可不行吧!!!!!!! 嘛,就因此变成这么٩(๑`^´๑)۶生气了。

我还想是不是因为想要让播放量增加才故意写成这样的呢…… 上面说了这么多开场白有点长了,而我想让请大家重新认知一下「CeVIOAI」是什么,因此写下了这篇文章。

我会仔细说明,哪怕之前相关知识为零也能明白,可以的话请读到最后吧。

 目录1. 所谓TTS2. 所谓CeVIO3. 所谓CeVIOAI4. 结尾 所谓TTS 在讲到CeVIO的话题之前,不知道大家对TTS这一词了解吗。

 TTS是TexttoSpeech的略称,用日语说来就是「音声合成」(中文的话是【语音合成】)。

之前说到的VOCALOID,UTAU,CeVIOAI都是TTS的一种。

顺带一提,VOICEROID(结月缘、绁星灯之类的)这样的语音特化的音源也被称作是TTS。

 接下来将会把TTS的例子按照初版发行的顺序先依次列举如下。

 VOCALOID(2004年/歌唱特化) SofTalk(2006年/语音特化) UTAU(2008年/歌唱特化)※非生物音源除外 VOICEROID(2009年/语音特化) SynthesizerV(2018年/歌唱特化) CeVIOAI(2021年/歌唱·语音特化) 其他的话还有NEUTRINO(2020年)或者CoeFont(2021年)之类的音源,列举下去就没完没了了。

不知道「ゆっくりボイス」正式名称的人应该也有很多吧。

(答:SofTalk,详见ニコニコ百科)  虽然偶尔也会有人认为UTAU或是CeVIOAI是与VOCALOID相同的,或者是属于被VOCALOID所概括的软件群体,但正如最开始所说,这三款软件是独立的声音合成技术,因此这种看法完全是错误的。

 VOCALOID是由雅马哈这样的「企业」,CeVIOAI是由CeVIOProject这样的「企业团体」,UTAU是由叫做飴屋P的「个人」所研发出的。

如果想要将这三款软件组合在一起谈及的话,不应该是使用VOCALOID而是应该使用歌声合成软件这样的词才是正确的。

(CeVIOAI也存在着语音使用的音源因此这也称呼也有点微妙) 「初音未来」「镜音铃」这样的角色名称,严格来讲,与其说是在TTS下属的分类,不如说是在「VOCALOID」这一声音合成软件内部分类下的音源,也就是音源的种类。

 对于音源,如果和研发软件的各家企业(比如说对于VOCALOID就是雅马哈)签订了许可合同之后独自开发和销售也是可以的。

比如说发售在稲葉曇的「ラグドレイン」中有名的歌爱雪这一音源的,就不是有雅马哈而是叫做AHS的企业。

 VOCALOID4歌爱yuki|产品信息|AHS(AH-Software)https://www.ah-soft.com/vocaloid/yuki/ 虽然从了解的人看来可能很理所当然的,实际上初音未来或是镜音铃这些代表性的VOCALOID的开发公司也不是雅马哈而是叫做Crypton·Future·Media这样的公司。

雅马哈,意外地在音源方面并没有研发出那么多东西,有名的也许就是buzzG的「Fairytale,」的翻唱中的VY1V4这种程度…… 各软件的音源的例子我也暂且先写出来(除了SofTalk)。

 VOCALOID:初音未来,镜音铃,镜音连,巡音luka等等 UTAU:重音teto,暗音renri,雪歌yufu,波音律等等 VOICEROID:结月缘,绁星灯,琴叶茜,琴叶葵等等 SynthesizerV:小春六花,弦卷maki,Saki等等(译注:详见官网,其中也有赤羽艾可这样的中文音源https://dreamtonics.com/synthesizerv/) CeVIOAI:可不,佐藤莎莎拉,小春六花,星界,#KZN等等(译注:详见萌娘百科https://zh.moegirl.org.cn/CeVIO) 「小春六花为什么同时存在于CeVIOAI和SynthesizerV两边呢?」虽然容易产生这样的疑问,但是这并不是笔误,而是因为同时存在「CeVIOAI的小春六花」和「SynthesizerV的小春六花」。

在这种情况下,CeVIOAI是语音特化,SynthesizerV是歌唱特化的小春六花。

说话的小春六花是以下视频这种感觉。

 和Kanaria的SynthesizerV小春六花的表情差太多了有点搞笑哈。

 我觉得看了刚刚GYARI的视频的人就能了解,也存在着结月缘、绁星灯这样横跨多个软件的音源。

东北kiritan(切蒲英)在其中是数一数二地复杂,能够使用的软件如UTAU,VOICEROID,CeVIOAI,NEUTRINO等多得要死(因此对于音源就不得不获取·购买各种各样的软件)。

还要开始考虑到版本的区别的话就更没完没了了。

 顺带一提SofTalk有点特别,「博丽灵梦」「雾雨魔理沙」这样的名字实际上在软件内并没有写着,比如说选择灵梦的话就要按照「声质=女性1,音程=100,速度=100」这样的设定。

东方Project的角色名称完全是之后标上去的。

标准来自于这个网站。

 Nicotalk&角色素材分发处http://www.nicotalk.com/charasozai_kt.html 把到此为止的东西总结一下,老实说尽管对于听众的话对于音源种类记不太得也没什么问题,但是可能会产生在文章开头所说过的那样的词语的误用,事先了解一下也没什么坏处。

对于制作实况视频和音轨的各位,希望你们一定能了解这些所说的软件和音源的区别。

 所谓CeVIO 那么,尽管差不多想开始说说CeVIOAI了,但是对在其前面的「CeVIO」还得说明一下。

CeVIOAI是如上述的TTS的一种,而CeVIO这个词有着一下两种含义。

 1. 由视频·音乐创作者团体和持有声音合成·歌声合成技术的技术人员团体实行的项目2. 作为上述项目的一部分被发行的TTS,也就是「CeVIOCreativeStudio」和「CeVIOAI」这些。

 CeVIOCreativeStudio简单地说,就是CeVIOAI的前身,发行于2013年。

我使用CeVIO这个词的时候,为了与CeVIOAI区分更多的是使用了上述1的含义。

或者是就以「CeVIOProject」这样称呼。

 虽然写着「创作者团体」「技术人员团体」,但是基本上这些都是企业。

大概地说,创作这一方面主要是V-Sync和FrontierWorks这两家公司,技术方面主要是Techno-speech来担任。

Techno-speech,是进行着最前端的TTS研究的名古屋工业大学内的创业公司。

 将要说明的主要包含类似于以下这些的项目。

CeVIOAI当然也包含在这之中,但是将会在第3章说明。

 CeVIOVision(2013) 这个项目主要是在数字展板上进行双方向的会话。

下面视频中是秋叶原的Animate店中叫做「佐藤莎莎拉」的角色在说话的样子。

就像是聊天机器人一样的东西。

  CeVIOCreativeStudio(2013) 作为TTS的一种,既能够唱歌也能说话。

技术上使用了HMM(隐藏马尔科夫模型,译者注:一种可以分析时序信息的统计和机器学习中常见模型)的方法。

也经常被略称为「CeVIOCS」。

 CeVIOPro(研发中) 虽然现有的CeVIOCreativeStudio和CeVIOAI是独立运作的软件,但是Techno-speech好像正在进行着,可以将CeVIO的功能如同VOCALOID一样在DAW(译者注:数字音乐工作站,一般也称宿主软件,大多数的音源、合成器都需要插入宿主软件中才能工作)中以VSTi插件(虚拟乐器技术插件)形式使用的开发工作(下面的视频中就是在Cubase这款宿主软件中的效果。

别的也有在Reaper这款宿主软件中使用的视频被公开过)。

对于不作曲的人来说没有特别的好处,但是对于音轨制作者来说是否能在DAW内直接操作vocal音源决定了工作效率,是非常重要的因素。

 推文引用:前些日子去了Techno-speech的研究所游玩。

现在好像「CeVIOPro(暂行版)」正在进行着开发。

因为拍了各种各样的视频所以之后还会再公开更多的内容!#CeVIO-Techno-speech※2022/2/24追记:CeVIOPro的α版本被公开了。

在官方网站上注册就可以无偿使用。

看起来只能使用叫做「知声(Chis-A)」的全新音源,而ねじ式p桑和ちいたな桑为知声写的demo曲目也被公开了。

 Windows自不必说Mac上也能使用,作为DAW上的VSTi也可以运行的CeVIOPro(暂定)的α版本开始免费分发所谓CeVIOAI CeVIOAI是上述的项目中登场的一种TTS。

其中有只能用于唱歌的音源,也有只能用于语音的音源,还有两边都能使用的音源。

这一点和CeVIOCreativeStudio是一样的。

 作为差别的地方,刚刚写到CeVIOCreativeStudio使用了HMM,这边CeVIOAI则是使用了DNN(deepneutralnetwork,深层神经网络)或者CNN(convolutionneutralnetwork,卷积神经网络)的方法。

一言以蔽之,也就是「深度学习」这一技术。

虽然HMM也是深度学习。

 所说的DNN或是CNN方法本身虽然之前就有,但是在CeVIOCreativeStudio发行2年之后的2015年左右急速发展,开始在不仅限于TTS而是广阔的领域中都有所应用。

 比如说被评价为比Google翻译性能更好的翻译服务「DeepL」,就是使用了CNN的技术。

DNN或是CNN是用于再现「真人的感觉」最适合的方法,我最近看到了能阐释这件事的推文因此转载在这里。

 推文引用:将Google老师翻译成英语的东西再交给DeepL老师翻译,因为DeepL太能够翻译出语气和气氛了因此汇报给大家看。

到底是怎么才能明白的呢……-あらら🌿(モルモット)PP(图中文段翻译:在日语中,「領収書」和「receipt」是不一样的概念,正如「battery」和「电池」是不一样的概念。

尽管这样很麻烦想要废除这种东西,但是在这种情况下「性别」和「gender」也好像很快作为不同的概念被确立下来了。

)(译者注:日语中,基于英语的receipt一般更多指小票和收据而基于汉字的領収書虽然也指收据,但是偏向于发票;基于外来语的battery指可充放电电池而基于汉字的电池指一次性电池;而近年来性别一般指生理性别而gender指心理主观性别;此处deepl可以对Google翻译中已经翻译成英语后完全相同的两个词再重新翻译成日语的时候再次从相同的英语词汇中解读出不同的日语词汇对应很厉害) CeVIOAI也是一样,比如说是可不,被认为是构建了从花谱的歌唱数据中学到的「花谱的感觉」的神经网络。

网络学习训练需要大量的音乐数据和高性能的CPU,这种事只能由企业或者大学才能做到。

例如同样是使用了神经网络的声音合成技术·NEUTRINO的叫做「No.7」的音源,就是由担任声优的小岩井小鸟创作了50首左右的曲子得到的。

 文章引用:小岩井小鸟作词·作曲·歌唱的数据库公开,向着AI歌声合成的民主化飞速发展。

聚焦NEUTRINO的新角色「No.7」的发行https://www.dtmstation.com/archives/34636.html 通过这些技术,就能创作出超越CeVIOCreativeStudio性能的TTS,这也即是CeVIOAI的构造。

  作为我所属的社团的工作,我创作了在叫做「M→Fes2021」的活动上使用的OP曲,而在创作期间我第一次尝试使用了可不就稍微写一写使用的感受吧(顺带宣传一下)。

 虽然我没有CeVIOCreativeStudio不能够详细地直接比较,但是作为CeVIOAI歌曲的优点来说就是在还没有调教的时候声音就已经达到了很好的质量了。

尽管偶尔会产生音高输出的错误或者是音量的平衡不稳定的问题,出现的频率只需要大概两个小时左右的程度就能够完成修正工作了所以没有那么让人在意。

 但正如刚才所说,CeVIOAI是模仿「真人的感觉」的TTS,无法演唱cosMo暴走P的「初音未来的消失」或者是avtechno的「Boku-Boku.β」这样的乐曲。

反过来VOCALOID并没有使用DNN或是CNN这样的统计模型,只是采用了将各处的发音对应的波形连接的「波形连接型声音合成」,这方面性能更好(没有特别注意到发音和发音的连接这一缺点反而成为了长处的感觉)。

 对我个人而言我认为这所有的TTS,各有长处,各自有特点这一点很有魅力,我觉得不能说一概而论地说哪边的技术更加先进。

正如金子美玲也说过「我们不一样,我们都好」。

 然后尽管主要是歌唱音源收到很多的关注,但是语音音源也不能轻视。

CeVIOAI语音音源中存在着感情的参数,能够自如地表现出声音中的情感。

嘛,虽然VOICEROID里也有这个功能就是啦。

 2021年12月的现在,已经发行的或是预定发行的音源包括歌唱型,语音型和两边兼可的类型合起来一共大概15类。

接下来,我会列举几个我个人比较喜欢的。

 「星界」是以和花谱一样隶属于KAMITSUBAKISTUDIO的异世界情绪T的声音作为模型制成的CeVIOAI歌唱音源,似乎是定于2022年春季发行。

我当时觉得可不登场的时候为了神椿市的世界观的方便起见使用了「音乐的同位体」这样的词语,没想到居然会成为一个系列。

不知道会不会将理芽或者别的歌手也音源化呢。

 推文引用:【CeVIO NEWS】速报-CeVIONews【非官方】 由阳炎系列而出名的1stPLACE所推出的「IA-ARIAONTHEPLANETES-」虽然歌唱和语音两方面都可以使用,但是歌唱方面只有英语版。

是目前歌唱方面唯一的英语声源。

发售于2021年10月目前歌曲数量都很少,如果能有更多英语的歌曲的话就好了。

  语音音源中唯一的英语声源在2021年12月这一时期只有「弦卷maki(マキ)」。

在提到歌爱雪的部分就已经说了这个企业的名字,而弦巻マキ也是由这个叫做AHS的企业发行的音源(对于制作voiceroid实况视频的人而言确实是很受其照顾的公司)。

弦卷maki英语的声音在下面视频的后半段可以听到。

 ※2022年3月19日追记:次世代少女乐队企划「BanGDream!」内的角色「戸山香澄」、「湊友希那」将在2022年内CeVIOAI音源化被宣布了。

她们各自是企划内的乐队「Poppin’Party」「Roselia」的vocal。

尽管我过去一直想着将已经存在的游戏或者动画的角色就那样TTS化的时代在这一段时间内是不是就要到来了,但我没想到自己在玩的东西居然会一马当先被TTS化,因此我反而还有些畏缩了…… 推文引用:【速报】BanGDream!企划和「CeVIOAI」的新企划启动预定开发Poppin’Party的吉他手和主唱戸山香澄,和Roselia的主唱凑友希那的CeVIOAI歌唱音源!结尾 大家觉得如何呢。

按照这样的感觉,以上是TTS和CeVIOAI的介绍。

 我边写边想到,有相当程度多的人就算认知到了CeVIO和VOCALOID是不一样的,也总会想要将CeVIO以「ボカロ」来称呼。

我也会觉得心里有着正确的认知的同时,在称呼方面不要太那么严谨不也挺好。

特别是对于圈子的情况不是很详细了解的人来说,「ボカロ」这一记号也确实很方便。

 嘛实际上,朋友在听了可不的曲子后说着「这首是术力口P主的曲子真不错啊~!」的时候,「不对,因为KAMITSUBAKISTUDIO发行的「可不」是CeVIOProject发行的叫做CeVIOAI的TTS的音源的一种,所以不应该称呼为「术力口P主」而是「CeVIOAIP」的称呼才是正确的表现??」这样指出的话,真的会损失一位朋友的请不要那么做(原文链接:https://note.com/kalte/n/ne2b0cf96d1bf文章已获得作者KALTE的授权。

已在原文中置顶了本中文翻译。

其他平台的转载请标注作者及翻译人员。

翻译:nagi校对:青葉   本文为我原创 VOCALOID UTAU YAMAHA 虚拟歌姬 虚拟歌手 CeVIO CeVIOAI 分享到: 投诉或建议 推荐文章 更多精彩内容【中文音译】尹产贺-24시간(24Hours)橦四连冠粗卡!!据金明俊回来还有528天正规三最后一首也音完啦!!!欢迎肉哈姐妹使用!下一波是迷你八哦合理太当闹也哥慕斯b加固桑miang黑几miang内嘎熬到开个得了r一级r嘎扫来嫩的谈呢给们诸葛m奥赛卡改挤满闹爱改朱哥m西大嘎嘎内怒奶闹路嘎的掐温通的剋r嘎吧主席m死老我闹也大的谈吗r图那r不妙武当夜奔蜜素加固和礼记麻油闹爱改噶嫩给r内感依稀撒喜感哈鲁满nun嘎玛桌内吗m给m出r苏奥b扫内嘎奥林妈买度大戏怕不桥老m个Wenq_L 音乐舞蹈 2 3 0 年轻人还需要摇滚乐吗点击进入查看全文>巳存右 音乐舞蹈 3 1 0 追求卓越·浇铸野心(IannDior·《higher》歌词翻译及评)他被称为industryplant(工业化产物),在旋律说唱同质化的今天,他的音乐风格“小迪奥风”,让听众认为“一听是他的味儿。

”大致听完他2022年《OTBT》的全部歌曲,这位散发着活力野性的少年擅长用流行曲风和爱情话题打开市场,不过更重要的是,他的《higher》隐约向他的听众透露了他的野心。

Undermyskinundermyskin在我肌肤之下野性无处藏匿GotmestrugglingwhereIendandwherebegin从这时我知道那些日子已结束,这时Heaven_Lily 音乐舞蹈 4 1 0 评论------52



請為這篇文章評分?