2016年底,锤子科技CEO罗永浩的手机发布会意外捧红了科大讯飞的语音输入法,发布会上,老罗用很快的语速随口说了一段内容,屏幕几乎同步“打”出文字,一字不差。尽管会场环境嘈杂,讯飞输入法仍然能准备无误地识别,不得不让人惊叹。科大讯飞的语音输入法也一夜蹿红,百度搜索指数显示,近期关键词“讯飞输入法”的搜索量大增,7天搜索指数环比增长139%。近日科大讯飞宣布,讯飞输入法的用户数已突破4亿,活跃用户达1.1亿,居世界中文输入法第二位。
讯飞输入法是科大讯飞在2010年推出的一款输入软件,集语音、手写、拼音等多种输入方式于一体,从首个版本发布开始,语音输入就是其最大亮点,准确率高达97%,可支持粤语、四川话、东北话、上海话等近20种方言语音输入。这一切都源于深度学习的理念,即通过模拟人脑进行分析学习,使机器从大量历史数据中学习规律,从而对新的样本做智能识别,以达到具有人类一样的思考能力。
精准识别 让机器更懂你
为了提升智能语音的识别率,科大讯飞很早就提出了“讯飞超脑计划”,计划将模拟人脑神经元的1/10,以期其智能语音设备拥有初步的人类思考能力。通过长期的语音数据积累,目前讯飞输入法已获得了海量的语音数据,而想要实现更精准的语音说识别,就必须以更大规模、更多存储的超算集群和更优的深度学习并行化及集群调度算法,应对数千倍训练数据和数千倍模型参数的挑战。
此外,讯飞输入法还针对重度语音用户提出了个性化方案,随着用户使用时间的积累,对用户习惯的学习和个人语音词库的积累,能否让语音输入法的识别效果更佳准确。同时,讯飞输入法为了满足语音输入中对语种翻译的需求,还将增加“随声译”功能,不仅有中英文互译,还将升级加入中韩和中日的语音翻译,为此,科大讯飞决定新上一批服务器来支撑偏向VIP用户的个性化识别应用以及新增的随声翻译功能。
科大讯飞相关负责人谈到:“语音输入时,在极短的时间内,输入法的语音识别系统经历了一个极为复杂的分析过程,很多环节容易导致语音识别出现问题。比如对发音人‘口音差异’的适配,需要海量数据进行适应训练,使语音识别系统习惯不同人的发音;另外还有环境噪声干扰,在语音输入过程中,机器很难分辨出人声和环境噪声,容易把所有的声音都进行识别;再者是网络因素,在线语音识别需要通过网络在服务端与客户端传输数据,网络质量差或传输不稳定易导致语音识别慢、效果差,这些都成为了阻碍语音识别普及的因素。因此,在采购硬件设备时,我们更加关注服务器的计算速度、存储能力、扩展性等问题,从硬件上就开始避免上述问题。”
浪潮双路 离人工智能更近一步
科大讯飞经过多方考察和综合衡量后,最终选择了浪潮双路旗舰服务器NF5280M4构建高性能计算集群。科大讯飞相关负责人介绍到:“我们一个团队目前所用的GPU大概就有400多块,但是现在的神经网络链接数只是10的8次方,跟真正的人脑差了近6个数量级,显然这400块是远远满足不了实际需求的,我们需要计算速度更快、而且带宽更大的服务器,浪潮的NF5280M4能够更好地满足我们的要求。”
浪潮NF5280M4
浪潮NF5280M4采用全新智能计算加速技术,可根据应用需求智能调节,作为集群节点为平台提供强劲的计算能力;支持浪潮F-LOM技术,实现极速网络I/O,可根据应用的网络带宽需求,进行自由扩展,实现网络性能飞跃;最大可搭载29块硬盘,超大存储容量满足海量数据存储需求,帮组系统进行模拟训练,提升识别精确度,提高识别速度。此外,NF5280M4具有业界最顶级的扩展能力,可支持8个PCI-e插槽,最大可支持3个GPU卡作为协处理器,为科大讯飞的人工智能语音识别所需要的庞大运算量提供坚实的硬件保障。
未来已来 万物互联改变生活
浪潮很早之前就与科大讯飞在深度学习领域展开了合作,浪潮服务器更是获得了科大讯飞的认可,尤其是依托浪潮双路服务器NF5280M4,讯飞输入法的实时中文语音转写获得了用户的广泛好评,以59%的语音用户渗透率,处于中国语音输入法领先地位;而科大讯飞在2016年度发布会上展示的全新多语种翻译技术,实时将中文演讲翻译成英语、日语、韩语、维吾尔语并同步展示在大屏幕上,更是引发强烈关注。
科大讯飞董事长刘庆峰在年度发布会上谈到,随着万物互联时代到来,以语音为主、键盘触摸为辅的人机交互正逐渐成为刚需,人工智能产业迎来第三次发展浪潮。未来5到10年,人工智能会像水和电一样成为我们生活的必需品,深刻改变我们的世界。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。