在NeurIPS大会上发布的两个数据集可助编目数十种语言
在近日举行的NeurIPS大会上,发布了两册英特尔提供支持的关于口语数据集的白皮书,其中,《人的语言》主要涉及到“自动语音识别”任务,另一册——《多语种口语语料库》则涵盖“关键词识别”。这两个项目的数据集都贡献了大量丰富的音频数据,且每个数据集在同类中都拥有最大的可用体量。
《多语种口语语料库》由英特尔软件与先进技术事业部(SATG)的机器学习工程师Keith Achorn参与撰写。Keith在英特尔社区网站的博客中讲述了自己参与该项目的经历。
在ML Commons 的支持下,“人的语言”和“多语种口语语料库”于2018年开始启动,该项目旨在识别世界上最常用的 50 种语言并统一到单一的数据集中,从而使这些数据得到有效利用。该项目小组成员来自英特尔、哈佛大学、阿里巴巴、甲骨文、Landing AI、密歇根大学、谷歌、百度等。
在当今多元化、国际化、多语言的工作环境中,准确转录和翻译的能力愈发重要。通过使用以上数据集,计算机可以“听到”口语单词,并自动生成文本或译文。
这两个项目都运用了“多样化语音”,这意味着它们可以更好地展现自然环境音,如背景噪音、非正式语言模式、录音设备混音以及其他声学环境等。这与诸如有声读物之类的高度受控的内容不同,后者产生的声音更加“纯净”。然而,在实际应用中,多样化语音训练有助于提高识别的准确性。
“人的语言”项目内含数万小时的对话音频。如今,它是世界上最大的、可免费下载的、用于学术和商用的英语语音识别数据集之一。
“多语种口语语料库”是一个音频语音数据集,不仅拥有超过30万个关键字的数十种语言,能够通过智能设备访问,还涵盖了50多亿用户的日常对话,有助于推动全球范围内受众语音应用的研发。
这两个数据集都将提供给广泛的用户进行应用,它们包括商用在内的授权许可条款都相对较为宽松。
好文章,需要你的鼓励
OpenAI宣布获得400亿美元融资,估值飙升至3000亿美元,成为史上最大私募投资。这笔资金将用于AI研究、基础设施和产品开发,显示了AI在企业技术领域的重要性日益提升。OpenAI用户数量激增,每小时新增100万,反映出其在激烈竞争中的强劲增长。此轮融资强化了OpenAI在企业AI解决方案市场的地位,企业决策者需密切关注AI技术的快速发展。
OpenAI 宣布计划发布自 2019 年以来首个"开放权重"语言模型,这标志着该公司战略的重大转变。这一决定源于开源 AI 的经济压力,反映了基础模型商品化的趋势。此举可能重塑企业 AI 实施策略,尤其是在受监管行业中。OpenAI 面临在开放性和责任之间取得平衡的挑战,同时也凸显了 AI 行业竞争格局的根本变化。
Microsoft 正在对 Windows 系统崩溃时显示的蓝屏 (BSOD) 进行重新设计。新设计简化了界面,保留了技术信息,旨在提高用户生产力恢复速度。新版 BSOD 移除了表情符号和二维码,但保留了错误代码和失败进程信息。这一变更反映了 Microsoft 对提升用户体验的持续关注。
CarMax 作为美国最大的二手车零售商,年收入超过 265 亿美元。在 Shamim Mohammad 的领导下,公司成功实现了数字化转型,成为汽车行业的领先者。通过建立强大的技术基础、优化数据策略、应用人工智能技术,以及采用产品运营模式,CarMax 正在重塑汽车零售的未来。Mohammad 的前瞻性领导力和对创新的不懈追求,使 CarMax 在数字化时代保持竞争优势。