传感器无处不在——例如,当道路空无一人时关闭高速公路灯时可监测桥梁的健康状况,监测电信网络和电网的复杂信号。这些传感器的每一次闪烁都是一个字节的数据,经过精心记录和存储。随着过去十年数据存储成本的暴跌,我们谈论的是数字仓库中雪崩般的数据。
这些数据中的大部分都在黑暗中,没有经过分析,也看不见。这就是专家们所说的暗数据。现在,随着人工智能进入基础设施领域,这些休眠的数据即将成为人们关注的焦点。
IEEE终身高级会员Raul Colcher表示:“事实上,似乎有大量关于基础设施运营的数据可以更好地用于提高其有效性。”
人工智能因数据而蓬勃发展——数据越多越好。当涉及到训练复杂的人工智能模型时,这些多年来从无数传感器和系统中收集的暗数据可能非常有价值。
那么,揭露这些暗数据有什么大不了的?首先,它改变了基础设施运营的游戏规则。随着人工智能的介入将暗数据带入聚光灯下,我们可以期待效率的飞跃,以及设计和使用我们的基础设施的新方法,以实现数据比人更频繁移动的未来。
字节构建得更好
很多时候,暗数据没有被使用,因为它没有被正确标记,因此很难分析。一些研究表明(https://ieeexplore.ieee.org/document/9740126),使用暗数据可以大大改进在手机网络中分配资源的机器学习算法。在另一个案例中,一家石油和天然气工厂的数据科学家能够使用暗数据在不干扰运营的情况下改进工厂的数字模型。
哪里的影响最大?
分析和建模这些数据的好处是巨大而多样的。从规划到运营、维护等,基础设施的各个方面都可能发生转变。描绘更准确的模型、更好的自动化,以及对我们的系统如何真正工作的更深入理解。
挑战
然而,利用暗数据也面临着一些挑战,暗数据虽然丰富,但并不总是干净或无错误的。数据质量、偏见、数据来源和安全性等问题迫在眉睫。解决这些挑战对于充分发挥人工智能在基础设施领域的潜力至关重要。
正如IEEE会员汪齐齐所言:“数据量的激增并不保证更好的结果。过滤掉干扰或质量低劣的数据提出了重大挑战。” 中国正积极探索利用人工智能技术处理庞大的基础设施数据,以促进其城市建设和发展。
了解更多:2023年是人工智能具有里程碑意义的一年,由于生成人工智能工具的力量,广大公众对人工智能的认识越来越高。IEEE Spectrum深入报道了发展情况。由此可以查看2023年最热门人工智能故事的总结:https://spectrum.ieee.org/ai-news-2023。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。