在明略科技集团首席技术官郝杰看来,目前我们已经从AI 1.0步入到了AI 2.0时代。AI 1.0的末期可以追溯到2017年Transformer模型的发明,并进一步升级到了BERT、GPT等模型。“我个人将这个阶段称为模型预训练时代。从去年11月底ChatGPT问世以来,我们正式步入了AI 2.0时代,也就是大模型时代。”
郝杰表示,自从GPT问世以来,它对各行各业都产生了影响,但他个人认为营销行业是最受影响的。例如,在美国,已经有自动生成营销文章的工具如Jasper、Copy.ai,甚至以前专注于消费者市场的产品,如Notion,现在也投入到了面向企业的营销文章生成领域,与更多竞品竞争。
在营销领域,每个人对于营销都有不同的理解,营销是一个非常广泛的领域,不仅包括市场营销,还包括销售、售前售后服务、客户成功以及客服、用户增长的CDP和DMP等等,体系非常多面且复杂,且直接面对消费者。
无论是AI 1.0还是AI 2.0时代,数据毫无疑问一直都是非常重要的生产要素。尤其是在大模型时代,数据质量直接影响模型效果。对于入局大模型赛道的企业玩家来说,手握优质数据意味着绝对性优势。而明略,则将赛道锚定在了营销领域。
在营销领域,明略毫无疑问是“头号玩家”。2006年,明略科技旗下子品牌秒针系统成立,为广告主提供准确的互联网用户行为数据,发展至今,秒针所监测的范围几乎深度覆盖市面上所有主流媒体和广告形式,成为国内第一家申请MRC认证并唯一通过移动应用内曝光监测审计的第三方监测机构。2019年,明略科技成为国家“营销智能”领域新一代人工智能开放创新平台。
明略科技通过分析知识图谱和社交媒体上的舆情,发现牛油果酸奶是一个有潜力成为爆品的新产品品类,建议某乳品行业的龙头企业推出相关产品,并通过其营销大模型进行创新产品的研发和上市准备,例如设计杯子包装、准备了关于牛油果酸奶口味、成分、功效等方面的信息,让大模型生成更多关于牛油果酸奶的文章,以及与其他饮品的比较和用户在舆论中的反应趋势的归因分析,最终实现该创新产品的落地上市。
这个案例充分展示了明略科技通过大模型生成解决方案的能力,从分析洞察到内容生成到投放监测,贯穿营销全链路。
本篇文章将跟随郝杰的讲述,跨越AI 1.0至2.0,回顾十几年来技术变革历程,探寻营销未来发展的创新突破点。
从AI 1.0到2.0的跨越
在AI 1.0阶段,明略科技其实进行了很多探索,比如会话智能业务线的底层技术就是NLP技术,它是一款业务增长引擎,以SaaS交付方式帮助企业营销、销售部门实现销售过程数字化和销售业绩归因分析。
在AI 1.0时代的末期,明略科技的AI模型已经达到亿级别参数规模。“我们使用的模型更多是基于BERT的路线,包括BERT和一些变种,如Albert等模型。我们曾经使用Albert模型赢得了一些重要比赛的冠军,这意味着在这个不太大的非生成式大模型上,我们有过成功的经验。但成功之下也有教训,就是人力投入的比例很高,因为非生成式的AI需要人工标注来做监督训练。”郝杰说。
AI 1.0和2.0的一个重大区别就是以GPT为代表的生成式AI不再需要如此多的有监督人工标注。从人力标注的角度来看,成本大大降低了。但这些成本转移到算力和无监督学习所需的海量语料上,可能会增加更多的成本。
目前明略科技正在进行大模型的开发,并且已经转向使用生成式大模型,采用了GPT模型。郝杰表示,“我们从零开始进行了明略科技营销行业的大模型预训练,这一点非常重要。从0开始意味着我们不是在微调已有模型,尽管我们有能力进行微调和对齐。我们已经找到了一条自己预训练的道路。”
在第一阶段的预训练过程中,明略科技没有直接使用第三方开源大模型已经训练好的模型,而是精心准备了第一个token。经过几个月的调整,一个具有70亿参数的明略营销行业大模型问世了,它具备思维链COT能力,能够按照要求分步达成任务。相比没有思维链的情况下,它所给出的答案质量更高,覆盖美妆、汽车、3C、大健康和食品饮料行业这五大重点行业,具备进行文本生成、文本扩写和问答等能力。
现在明略科技正在进行二次预训练的工作,利用成熟的开源模型作为二次预训练的参数初始化。在郝杰看来,模型并不是越大越好,中小企业会受困于模型训练所消耗的财力和人力,选择7B这样的主流尺寸对于企业本身来说是合适的。如果技术能力过关,百亿参数已经足够展现出中小企业在垂直行业中的优势,可以构建起竞争壁垒。
明略科技混合通用语料和营销相关的数据,让模型看到一些它之前没有机会看到的文章、书籍,以及明略科技在社交媒体平台上爬取、筛选、清洗的高质量帖子,还有交付给客户的优质报告、PPT等文档,以及营销领域的大师级著作。
训练数据的质量也将会直接影响到大模型的效果,大模型的知识吸收程度或知识表达方式是由初级到高级,由具象到抽象的一个过程。明略科技在模型训练的过程中,也是由浅入深地给提供语料,因为模型的学习实际上是一个经验学科。明略科技对于数据有严格的质量把控。
“我们会让大模型逐步学习,然后注入一些专业知识,这样的学习过程是循序渐进的。专业知识来源于明略科技的秒针行业知识库和知识图谱,这是我们十七年来在各行各业积累的领域知识。知识图谱比知识库更高级,具有可读性强的特点。而知识库则更朴素一些,但两者差别不大,都包含大量实体、关系和属性。”郝杰解释说。
目前,明略科技在完成大模型的调教和训练后,将其应用于重点行业,使得模型在回答问题、生成文章、推理等方面应该比外部的开源和闭源模型效果更显著。尤其是在与明略科技的Agent集成、与各种大小模型、API、数据库和知识库打通之后,模型效果更加显著超过外部的通用模型,展示明略科技在AI 2.0时代的实力。
从AI Agent到insight agent、knowledge agent
AI Agent在营销领域有很多实际应用。例如,我们可以使用AI Agent进行内容生成和诊断,帮助市场部门撰写营销短文、制定营销策略等。大型客户通常每天都在各个社交媒体平台上投放营销内容。在过去,他们可能依赖代理公司或广告公司来制作这些内容,但在大模型时代,他们开始将预算用于大模型AI的探索性应用。
明略科技成功为一些重点行业的客户提供了AI Agent的服务,例如,我们批量为客户生成了大量短文内容,客户可以从中挑选,并直接发布到社交平台上面。
郝杰介绍说,明略科技将客户的需求转化为精心设计的prompt,通过prompt engineering的过程逐步提高生成文章的质量。通过与大模型进行对话,询问不同的问题,可以将一个简单的问题转化为一篇内容丰富的文章。
在生成文章之后,明略科技使用质量评估模型来评估生成的文章,并根据评估结果进行调整。这种评估过程不仅依赖于人工的判断,还使用了AI1.0时代积累下来的质量评估模型和方法论。
明略科技的秒针营销科学院通过研究大量客户案例,包括美妆、食品饮料、头部快消等等,总结出优质内容具备的“四有三友好”原则:在创作侧,好内容需要具备和用户“有关系”、对用户“有好处”、让用户觉得“有意思”,对内容“有期待”的“四有”原则;在传播侧,则需要满足和平台的“算法友好”“圈层习惯友好”“平台语境友好”三大原则。具体创作时,要综合考虑用户和产品本身的圈层、场景、痛点、卖点,基于这些原则大规模生产内容,更为高效。
明略科技将“四有三友好”的理论引入到大模型的算法中,通过对帖子进行评级,进行基于人类反馈的强化学习,使大模型输出结果能够符合人类的期望。
除了内容生成,明略AI agent还专注于分析洞察,即insight agent。比如针对广告监测业务,客户的广告预算、曝光有、点击、转化率等;声量起伏趋势、竞品横向对比等,这都需要分析洞察,从而为客户下一步投放做指导。
“明略科技通过与头部客户和标杆客户进行POC(Proof of Concept)的打磨,打造出效果可接受、能被更广泛订阅的标准化产品。我们从图片生成开始,然后扩展到营销文章,内容生成已经成为活跃的领域,洞察则是帮助实现内容下游价值的一部分。有了内容生成与洞察,我们的其他业务将与之相结合,形成一个更有利的闭环。”郝杰说。
除了内容,洞察,明略的AI agent还具备知识管理功能。各行各业的企业都有管理内部知识的需求。在AI 1.0的时代,这一类产品被称为企业知识,像金融行业有专门的供应商提供企业知识管理的产品。在进入2.0时代,我们需要使用大模型重新构建企业知识库,明略科技将其称为knowledge agent。
“我们的目标是让大模型能够访问各行业的数据和API,以提供更全面的服务。大模型只是具备类似爱因斯坦大脑或百科全书的能力,但还需要与各行各业的数据库和API对接,以获取更多信息。”郝杰总结说。
技术创新展现强大实力
明略科技在大模型、AI agent等方面的探索充分表现了其技术创新实力。
大模型其实是由若干个transformer block构成,底层的block负责学习初级知识,如语法、词汇量、常识等,中间层的block则学习专门性的知识,如数理化、编程等,最高层的block则学习抽象的概念。
“在过去的几年中,我一直在思考如何改进大模型。去年七月份我们提出了自己的模型,叫做blockformer,它把几十个transformer blocks连接成了一个更大的block,具有更高的推理精度。得益于此,我们在中文语音识别的排行榜上取得了第一名。”郝杰说。
大模型离不开坚实的基础设施,明略科技构建了公有云、私有云混合的底座,确保成本可控和满足扩展性需求。在工程和算法上,明略科技优化开源的并行训练与推理架构,完成一次和二次预训练,并通过并行计算解决显存不足的情况。
对于大模型来说,数据安全非常重要。明略科技始终遵循合法合规的原则,以数据安全和隐私保护为最高纲领,百分之百尊重客户和用户的隐私安全。
“为了确保安全,我们采取了一系列技术手段,如脱敏、过滤和加密。在AI 2.0时代,大模型也会遵循相同的原则。我们不会涉及不应该触碰的内容,只会处理合法合理能接触的内容。处理过程中会进行加密和权限管理,以保证数据的安全。另外,针对营销行业,如果客户需要将内容投放到市场上,我们会从公开渠道获取信息。这些加密和过滤措施不会对模型训练和最终输出结果产生影响。”郝杰说。
自2017年起,明略科技陆续通过了信息安全管理体系认证(ISO 27001)、质量管理体系认证(ISO 9001)、IT服务管理体系认证(ISO 20000)、隐私信息管理体系认证(ISO27701),旗下核心产品营销智能平台通过等级保护三级认证。今年3月,明略科技成为首批入选“卓信大数据计划”成员单位,进一步从数据安全合规指导、数据安全管理能力建设、数据安全技术等方面持续提升能力,为客户提供全方位的安全合规服务支撑和保障。
明略科技深耕人工智能领域17年,帮助2000+企业在数字化转型中挖掘数据价值及商业价值,积累了大量的营销侧数据和知识图谱丰富经验,沉淀了大量的营销专业数据,将沉淀的垂直行业数据、行业经验,注入到明略科技为客户定制的大模型中,将打造出内容更加聚焦、更适合营销场景的营销领域AI智能体,满足客户多样化的任务和场景需求。
“展望未来,市场是多维度的竞争。技术也从来不会是护城河,因为技术总是在不断的变化和进步中。技术的发展就像海浪一样,一浪接着一浪,每一浪你都必须跟上,否则就会被抛在后面。”郝杰最后说。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。