关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者3286人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

人类史上最贵打工合同,马斯克万亿薪酬方案获批!

汽车公社 浏览 3995

苹果新品上线

都市快报橙柿互动 浏览 2689

官方:利雅得新月签下佛罗伦萨后卫巴勃罗-马里

懂球帝 浏览 3407

王楚钦:大家都清楚现在的局面,但谁又能说能稳吃我们呢

懂球帝 浏览 1278

马筱梅吐槽老公,称嫁到大陆鲜花都是粉丝送的,汪小菲只送过一次

扒虾侃娱 浏览 4827

中国长安汽车发布“1445”全球战略 阿维塔深蓝将战略整合

网易汽车 浏览 1478

史上最大IPO前夕,Space X的财务数据部分流出,利润率相当高

华尔街见闻官方 浏览 1443

100小时极寒挑战,董明珠图啥?

中国新闻周刊 浏览 3541

李雪健黄景瑜主演《斗贼》积压5年终于下证

娱乐圈笔娱君 浏览 2672

OpenAI营收增长放缓,美股AI股集体跳水

第一财经资讯 浏览 1182

特朗普暗示谈判如有进展 或改变打击伊朗决定

上观新闻 浏览 1678

“大战”危险升级,能否阻止就看特朗普了

浏览 27806

配华为舱内激光视觉技术 华境S明年上半年上市

网易汽车 浏览 3255

15.69 万元起!全新深蓝 S07 上市交付

汽车商评 浏览 5085

卖房炒股后,韩国股市快翻倍了

大猫财经Pro 浏览 3239

法兰克福3-4柏林联合,伯克戴帽,伯卡特点射,瓦希送助攻

懂球帝 浏览 5038

“批评是工作的一部分”:前里尔球员卡巴耶谈其在巴黎圣日耳曼的处境

绿茵情报局 浏览 1711

记者:弗里克听说自己的明夏离队传闻后说“又是胡说八道”

懂球帝 浏览 4056

杭师大受助名单照搬网络人名 大额项目明细表被删除

中国新闻周刊 浏览 32539

好久没对一双鞋这么心动了!

黎贝卡的异想世界 浏览 4605

江淮受累于大众安徽亏损,受惠于尊界S800热销

道哥说车 浏览 3242
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1