2016年底,锤子科技CEO罗永浩的手机发布会意外捧红了科大讯飞的语音输入法,发布会上,老罗用很快的语速随口说了一段内容,屏幕几乎同步“打”出文字,一字不差。尽管会场环境嘈杂,讯飞输入法仍然能准备无误地识别,不得不让人惊叹。科大讯飞的语音输入法也一夜蹿红,百度搜索指数显示,近期关键词“讯飞输入法”的搜索量大增,7天搜索指数环比增长139%。近日科大讯飞宣布,讯飞输入法的用户数已突破4亿,活跃用户达1.1亿,居世界中文输入法第二位。
讯飞输入法是科大讯飞在2010年推出的一款输入软件,集语音、手写、拼音等多种输入方式于一体,从首个版本发布开始,语音输入就是其最大亮点,准确率高达97%,可支持粤语、四川话、东北话、上海话等近20种方言语音输入。这一切都源于深度学习的理念,即通过模拟人脑进行分析学习,使机器从大量历史数据中学习规律,从而对新的样本做智能识别,以达到具有人类一样的思考能力。
精准识别 让机器更懂你
为了提升智能语音的识别率,科大讯飞很早就提出了“讯飞超脑计划”,计划将模拟人脑神经元的1/10,以期其智能语音设备拥有初步的人类思考能力。通过长期的语音数据积累,目前讯飞输入法已获得了海量的语音数据,而想要实现更精准的语音说识别,就必须以更大规模、更多存储的超算集群和更优的深度学习并行化及集群调度算法,应对数千倍训练数据和数千倍模型参数的挑战。
此外,讯飞输入法还针对重度语音用户提出了个性化方案,随着用户使用时间的积累,对用户习惯的学习和个人语音词库的积累,能否让语音输入法的识别效果更佳准确。同时,讯飞输入法为了满足语音输入中对语种翻译的需求,还将增加“随声译”功能,不仅有中英文互译,还将升级加入中韩和中日的语音翻译,为此,科大讯飞决定新上一批服务器来支撑偏向VIP用户的个性化识别应用以及新增的随声翻译功能。
科大讯飞相关负责人谈到:“语音输入时,在极短的时间内,输入法的语音识别系统经历了一个极为复杂的分析过程,很多环节容易导致语音识别出现问题。比如对发音人‘口音差异’的适配,需要海量数据进行适应训练,使语音识别系统习惯不同人的发音;另外还有环境噪声干扰,在语音输入过程中,机器很难分辨出人声和环境噪声,容易把所有的声音都进行识别;再者是网络因素,在线语音识别需要通过网络在服务端与客户端传输数据,网络质量差或传输不稳定易导致语音识别慢、效果差,这些都成为了阻碍语音识别普及的因素。因此,在采购硬件设备时,我们更加关注服务器的计算速度、存储能力、扩展性等问题,从硬件上就开始避免上述问题。”
浪潮双路 离人工智能更近一步
科大讯飞经过多方考察和综合衡量后,最终选择了浪潮双路旗舰服务器NF5280M4构建高性能计算集群。科大讯飞相关负责人介绍到:“我们一个团队目前所用的GPU大概就有400多块,但是现在的神经网络链接数只是10的8次方,跟真正的人脑差了近6个数量级,显然这400块是远远满足不了实际需求的,我们需要计算速度更快、而且带宽更大的服务器,浪潮的NF5280M4能够更好地满足我们的要求。”
浪潮NF5280M4
浪潮NF5280M4采用全新智能计算加速技术,可根据应用需求智能调节,作为集群节点为平台提供强劲的计算能力;支持浪潮F-LOM技术,实现极速网络I/O,可根据应用的网络带宽需求,进行自由扩展,实现网络性能飞跃;最大可搭载29块硬盘,超大存储容量满足海量数据存储需求,帮组系统进行模拟训练,提升识别精确度,提高识别速度。此外,NF5280M4具有业界最顶级的扩展能力,可支持8个PCI-e插槽,最大可支持3个GPU卡作为协处理器,为科大讯飞的人工智能语音识别所需要的庞大运算量提供坚实的硬件保障。
未来已来 万物互联改变生活
浪潮很早之前就与科大讯飞在深度学习领域展开了合作,浪潮服务器更是获得了科大讯飞的认可,尤其是依托浪潮双路服务器NF5280M4,讯飞输入法的实时中文语音转写获得了用户的广泛好评,以59%的语音用户渗透率,处于中国语音输入法领先地位;而科大讯飞在2016年度发布会上展示的全新多语种翻译技术,实时将中文演讲翻译成英语、日语、韩语、维吾尔语并同步展示在大屏幕上,更是引发强烈关注。
科大讯飞董事长刘庆峰在年度发布会上谈到,随着万物互联时代到来,以语音为主、键盘触摸为辅的人机交互正逐渐成为刚需,人工智能产业迎来第三次发展浪潮。未来5到10年,人工智能会像水和电一样成为我们生活的必需品,深刻改变我们的世界。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。