10个年头前——2007年1月,乔布斯在Macworld大会上公开了第一代iPhone,时至今日这台电子设备在全球各地已经售卖出超过12亿台。随处可用的WiFi、3G、4G网络,让iPhone成为连接世界的有效工具。你也许没有听说过WebRTC、HEVC、HLS,但你肯定知道FaceTime、YouTube、微信,这些流行的应用离不开许多多媒体技术的支撑。我们的世界已经被网络、移动设备和各种多媒体应用连接着。
2017年10月,由LiveVideoStack社区主办的LiveVideoStackCon 2017音视频技术大会,将回顾过去10年多媒体领域的技术实践,以及新技术对行业应用带来的种种机遇。
得益于优质的观看体验,YouTube成为最受欢迎的视频分享平台,每天观看次数达到数十亿。Google在2010年发起了WebM项目,旨在开发开源高效的编码器。其中,VP9已经服务于YouTube。未来Google将与AOM联盟一起推进下一代编码器——AV1。LiveVideoStackCon 2017上,来自Google WebM项目的视频工程师Zoe Liu将分享AV1编码器的开发演进。
来自MulticoreWare高级软件工程师陈敏,将会与大家交流关于编码器开发与优化的经验。陈敏是x265编码器的创建者。主要从事视频和图像算法的优化和实现,经历过MPEG2、H.263、MPEG4、H.264、H.265/HEVC等标准的实现。
此外,来自Akamai多媒体研发组的首席架构师Will Law也将在此次大会上分享DASH与HTTP及移动设备传输优化。Akamai是全球最成功的的CDN服务商,在解决大规模视频并发方面有着多年的经验。
华为多媒体实验室首席科学家、实验室副主任王田会分享沉浸式媒体标准化。尤其在VR/AR领域,如何给用户最好的体验的同时,提升编码效率,降低带宽是关键的技术难点。
另外,国内众多多媒体技术领域的一线工程师,也将受邀分享最新技术实践:
最后,网心科技首席架构师李浩与云帆加速联合创始人&CTO扶凯都会介绍P2P与CDN结合的最新实践。
除了在互联网行业广泛应用以外,新兴的多媒体技术也在各个行业中得到了广泛应用,包括教育、安防、无人汽车等等:
在聆听课程之余,你还可以在『讲师问诊』环节与专家深入交流,提问。
在10月20日晚,将举行VIP社交晚宴,购买VIP票的参会者将可以和出品人、讲师深度互动,在聆听了一天的课程后,享受美食带来的放松与惬意。
更多关于LiveVideoStackCon 2017的信息,请访问大会官网 http://beijing2017.livevideostack.com/。
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。