在NeurIPS大会上发布的两个数据集可助编目数十种语言
在近日举行的NeurIPS大会上,发布了两册英特尔提供支持的关于口语数据集的白皮书,其中,《人的语言》主要涉及到“自动语音识别”任务,另一册——《多语种口语语料库》则涵盖“关键词识别”。这两个项目的数据集都贡献了大量丰富的音频数据,且每个数据集在同类中都拥有最大的可用体量。
《多语种口语语料库》由英特尔软件与先进技术事业部(SATG)的机器学习工程师Keith Achorn参与撰写。Keith在英特尔社区网站的博客中讲述了自己参与该项目的经历。
在ML Commons 的支持下,“人的语言”和“多语种口语语料库”于2018年开始启动,该项目旨在识别世界上最常用的 50 种语言并统一到单一的数据集中,从而使这些数据得到有效利用。该项目小组成员来自英特尔、哈佛大学、阿里巴巴、甲骨文、Landing AI、密歇根大学、谷歌、百度等。
在当今多元化、国际化、多语言的工作环境中,准确转录和翻译的能力愈发重要。通过使用以上数据集,计算机可以“听到”口语单词,并自动生成文本或译文。
这两个项目都运用了“多样化语音”,这意味着它们可以更好地展现自然环境音,如背景噪音、非正式语言模式、录音设备混音以及其他声学环境等。这与诸如有声读物之类的高度受控的内容不同,后者产生的声音更加“纯净”。然而,在实际应用中,多样化语音训练有助于提高识别的准确性。
“人的语言”项目内含数万小时的对话音频。如今,它是世界上最大的、可免费下载的、用于学术和商用的英语语音识别数据集之一。
“多语种口语语料库”是一个音频语音数据集,不仅拥有超过30万个关键字的数十种语言,能够通过智能设备访问,还涵盖了50多亿用户的日常对话,有助于推动全球范围内受众语音应用的研发。
这两个数据集都将提供给广泛的用户进行应用,它们包括商用在内的授权许可条款都相对较为宽松。
好文章,需要你的鼓励
大多数用户只使用计算机预装的操作系统直到报废,很少尝试更换系统。即使使用较老版本的Windows或macOS,用户仍可通过开源软件获益。本文建议通过重新安装系统来提升性能,Mac用户可从苹果官方下载各版本系统安装包,PC用户则建议使用纯净版Windows 10 LTSC以获得更长支持周期。文章强调备份数据的重要性,并推荐升级内存和固态硬盘。对于老旧系统,应替换需要联网的内置应用以降低安全风险,定期进行系统维护清理。
新加坡南洋理工大学研究团队提出"棱镜假设",认为图像可像光谱一样分解为不同频率成分,低频承载语义信息,高频包含视觉细节。基于此开发的统一自编码系统UAE,通过频率域分解成功统一了图像理解和生成能力,在多项基准测试中超越现有方法,为构建真正统一的视觉AI系统提供了新思路,有望推动计算机视觉技术向更智能统一的方向发展。
微软杰出工程师Galen Hunt在LinkedIn上宣布,目标是到2030年消除微软所有C和C++代码。公司正结合AI和算法重写最大的代码库,目标是"1名工程师、1个月、100万行代码"。微软已构建强大的代码处理基础设施,利用AI代理和算法指导进行大规模代码修改。该项目旨在将微软最大的C和C++系统翻译为内存安全的Rust语言,以提高软件安全性并消除技术债务。
芝加哥伊利诺伊大学团队提出QuCo-RAG技术,通过检查AI训练数据统计信息而非内部信号来检测AI回答可靠性。该方法采用两阶段验证:预检查问题实体频率,运行时验证事实关联。实验显示准确率提升5-14个百分点,在多个模型上表现稳定,为AI可靠性检测提供了客观可验证的新方案。