第一次召开的OpenAI Devday在今天凌晨2 点登场,OpenAI CEO Sam Altman宣布新一代大模型GPT-4 Turbo的预览版本,除了更新的数据库、更长的上下文之外,对开发者来说,价格更是便宜了3倍!
GPT-4 Turbo预览版
虽然说是GPT-4 Turbo的预览版,数据库已经从原本的2021年9月更新为到今年4月为止的数据。除此之外,在功能体验、价格等方面也有所升级:
上下文从GPT-4的8K与32K版本升级到128K,相当于300多页文字;
价格更低,每1000个token输入成本0.01美元、输出成本0.03 美元,分别比GPT-4便宜3倍、2倍;
支持DALL-E 3,可以处理画面提示;
文字转语音提供6种人声供选择;
新版开源语音识别模型Whisper V3;
支持新的JSON模式,确保模型以JSON进行回应;
重现输出(reproducible outputs),可通过种子参数(seed parameter)使模型传回一致的输出,以控制模型的行为;
Copyright Shield,帮助ChatGPT Enterprise和API的用户避免版权纠纷,由OpenAI承担法律责任;
除此之外,GPT-3.5 Turbo价格也有所降低,整体上,GPT-3.5 Turbo 16K版现在比GPT-3.5 Turbo 4K更便宜。
对于消费者而言,ChatGPT也加入GPT-4 Turbo支持,这也意味着ChatGPT的知识库更新到了今年4月。用户还可以通过DALL-E提供图片生成、浏览、数据分析、文件上传和PDF搜索等功能,由于PDF搜索的加入,ChatGPT也稍微缩小了与Claude在使用体验上的差距。
GPTs和GPT Store
在DevDay上,OpenAI还宣布了ChatGPT的定制功能——GPTs,可以让所有用户定制专属于自己聊天机器人!
GPTs可以通过自然语言理解用户的需求,打造专属于用户自己的GPT。OpenAI也特别强调这项功能无需用户掌握编程技巧,就像对话一样容易。用户只要向它输入这个GPT的主要目的、任务,GPT Builder就能自己建议名称、生成图像。
具体使用有多容易呢?Sam Altman也进行了简单的演示,他只需要说:“我想帮创业者思考他们的点子、给他们建议”,GPT Builder就马上建议他取名为“Startup Mentor”,并生成了头像,之后再上传一个关于创业的专业知识文件,Startup Mentor 这个GPT就能用了。
通过这项功能,用户可以创建一个可以帮助自己了解各种功能的聊天机器人,例如棋牌技巧,或是企业内部知识库,甚至还能帮忙设计表情包。
不仅如此,用户还可以把自己设计的聊天机器人发布到新推出的GPT Store当中,就像App Store和Google Play Store一样,用户可以为自己的聊天机器人设定价格并上架。
就像使用应用程序一样,OpenAI强调,用户使用GPT Store下载的机器人,对话内容不会被这些机器人的创造者看到。如果它们使用第三方API,用户也可以选择是否可以将数据传送到这API 中。当创造者本人使用自己定制的 GPT 时,也可以选择是否能够把聊天过程用来改进模型。
对于可能出现的滥用问题,OpenAI表示已经加强验证机制,防止有害内容的出现。目前范例已经开放给ChatGPT Plus和企业用户体验,OpenAI也并预告将很快向其他用户开放GPTs。
除了GPTs外,OpenAI还公布了Assistants API,可以让开发者轻松在自己的app中建立AI虚拟助理,目前支持代码解释器、搜索和函数调用等三种工具。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。