
传感器无处不在——例如,当道路空无一人时关闭高速公路灯时可监测桥梁的健康状况,监测电信网络和电网的复杂信号。这些传感器的每一次闪烁都是一个字节的数据,经过精心记录和存储。随着过去十年数据存储成本的暴跌,我们谈论的是数字仓库中雪崩般的数据。
这些数据中的大部分都在黑暗中,没有经过分析,也看不见。这就是专家们所说的暗数据。现在,随着人工智能进入基础设施领域,这些休眠的数据即将成为人们关注的焦点。
IEEE终身高级会员Raul Colcher表示:“事实上,似乎有大量关于基础设施运营的数据可以更好地用于提高其有效性。”
人工智能因数据而蓬勃发展——数据越多越好。当涉及到训练复杂的人工智能模型时,这些多年来从无数传感器和系统中收集的暗数据可能非常有价值。
那么,揭露这些暗数据有什么大不了的?首先,它改变了基础设施运营的游戏规则。随着人工智能的介入将暗数据带入聚光灯下,我们可以期待效率的飞跃,以及设计和使用我们的基础设施的新方法,以实现数据比人更频繁移动的未来。
字节构建得更好
很多时候,暗数据没有被使用,因为它没有被正确标记,因此很难分析。一些研究表明(https://ieeexplore.ieee.org/document/9740126),使用暗数据可以大大改进在手机网络中分配资源的机器学习算法。在另一个案例中,一家石油和天然气工厂的数据科学家能够使用暗数据在不干扰运营的情况下改进工厂的数字模型。
哪里的影响最大?
分析和建模这些数据的好处是巨大而多样的。从规划到运营、维护等,基础设施的各个方面都可能发生转变。描绘更准确的模型、更好的自动化,以及对我们的系统如何真正工作的更深入理解。
挑战
然而,利用暗数据也面临着一些挑战,暗数据虽然丰富,但并不总是干净或无错误的。数据质量、偏见、数据来源和安全性等问题迫在眉睫。解决这些挑战对于充分发挥人工智能在基础设施领域的潜力至关重要。
正如IEEE会员汪齐齐所言:“数据量的激增并不保证更好的结果。过滤掉干扰或质量低劣的数据提出了重大挑战。” 中国正积极探索利用人工智能技术处理庞大的基础设施数据,以促进其城市建设和发展。
了解更多:2023年是人工智能具有里程碑意义的一年,由于生成人工智能工具的力量,广大公众对人工智能的认识越来越高。IEEE Spectrum深入报道了发展情况。由此可以查看2023年最热门人工智能故事的总结:https://spectrum.ieee.org/ai-news-2023。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。