
传感器无处不在——例如,当道路空无一人时关闭高速公路灯时可监测桥梁的健康状况,监测电信网络和电网的复杂信号。这些传感器的每一次闪烁都是一个字节的数据,经过精心记录和存储。随着过去十年数据存储成本的暴跌,我们谈论的是数字仓库中雪崩般的数据。
这些数据中的大部分都在黑暗中,没有经过分析,也看不见。这就是专家们所说的暗数据。现在,随着人工智能进入基础设施领域,这些休眠的数据即将成为人们关注的焦点。
IEEE终身高级会员Raul Colcher表示:“事实上,似乎有大量关于基础设施运营的数据可以更好地用于提高其有效性。”
人工智能因数据而蓬勃发展——数据越多越好。当涉及到训练复杂的人工智能模型时,这些多年来从无数传感器和系统中收集的暗数据可能非常有价值。
那么,揭露这些暗数据有什么大不了的?首先,它改变了基础设施运营的游戏规则。随着人工智能的介入将暗数据带入聚光灯下,我们可以期待效率的飞跃,以及设计和使用我们的基础设施的新方法,以实现数据比人更频繁移动的未来。
字节构建得更好
很多时候,暗数据没有被使用,因为它没有被正确标记,因此很难分析。一些研究表明(https://ieeexplore.ieee.org/document/9740126),使用暗数据可以大大改进在手机网络中分配资源的机器学习算法。在另一个案例中,一家石油和天然气工厂的数据科学家能够使用暗数据在不干扰运营的情况下改进工厂的数字模型。
哪里的影响最大?
分析和建模这些数据的好处是巨大而多样的。从规划到运营、维护等,基础设施的各个方面都可能发生转变。描绘更准确的模型、更好的自动化,以及对我们的系统如何真正工作的更深入理解。
挑战
然而,利用暗数据也面临着一些挑战,暗数据虽然丰富,但并不总是干净或无错误的。数据质量、偏见、数据来源和安全性等问题迫在眉睫。解决这些挑战对于充分发挥人工智能在基础设施领域的潜力至关重要。
正如IEEE会员汪齐齐所言:“数据量的激增并不保证更好的结果。过滤掉干扰或质量低劣的数据提出了重大挑战。” 中国正积极探索利用人工智能技术处理庞大的基础设施数据,以促进其城市建设和发展。
了解更多:2023年是人工智能具有里程碑意义的一年,由于生成人工智能工具的力量,广大公众对人工智能的认识越来越高。IEEE Spectrum深入报道了发展情况。由此可以查看2023年最热门人工智能故事的总结:https://spectrum.ieee.org/ai-news-2023。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。