音视频技术开发周刊 78期 | 小王来教你

音视频技术开发周刊 78期

2019年1月12日 0 条评论 13 次阅读 0 人点赞

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/85086059

640?wx_fmt=jpeg

音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第78期内容,祝您阅读愉快。

架构


HDR视频生态系统纵览

Flatpanels作者Yoeri Geutskens对HDR视频生态系统进行了调查并以图表的形式展示。HDR视频图表根据公司业务类型进行分类并通过所使用HDR的格式进行了更详细的划分。LiveVideoStack对描述文章进行了翻译。


跨国实时网络调度系统设计

跨国应用场景下网络的复杂性、不稳定和高丢包率对网络的实时性和流畅性提出了更高的挑战。本文是即构科技技术副总裁冼牛在LiveVideoStackCon 2018大会上的分享,深入探讨了实时网络调度系统的部署、架构设计、挑战和应对策略。由LiveVdeoStack整理而成。


Netflix数据库架构变革:缩放时间序列的数据存储

Netflix分析了其数据集的访问模式,对查看数据存储架构进行了重新设计,并采用群集分片的数据分类方式,实时和压缩数据并行的读取模式。以寻求满足更多的独特需求与成本,效率的改进。本文来自Netflix技术博客,LiveVideoStack对文章进行了翻译。


WebSocket 和 DWR 做 Web 端即时通信

WebSocket是HTML5出的东西(协议),也就是说HTTP协议没有变化,或者说没关系,但HTTP是不支持持久连接的(长连接,循环连接的不算)。


GPU和FPGA优缺点的对比

从峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的GPU峰值性能可达10TFlops以上。

音频/视频技术


短视频秒播优化实践(一)

在短视频的体验中,起播速度无疑是最影响体验的指标之一,因为短视频很短,十几秒到几分钟不等,如果一个十几秒的视频,加载时间都要3秒,肯定是一个很坏的体验;所以在产品定义之初,起播速度就设定了控制在1秒左右,大部分在1秒内,也就是业内说的“秒播”,这需要对播放流程进行优化。


短视频秒播优化实践(二)

之前我们介绍了在线短视频秒播优化的方方面面,从服务器,cdn部署接入,数据连接/获取,客户端缓存,出帧策略,到视频文件I帧位置等。本文从视频文件格式的另外一个角度介绍,MP4文件的box排列顺序是如何影响,在线短视频的播放以及秒播优化的。


播放器技术分享(3):音画同步

第一期文章要推出的内容主要涉及到播放器比较核心的几个技术点,本篇是系列文章的第三篇,主要聊一聊播放器的音画同步。


pydub库---语音增强

最近使用Python调用百度的REST API实现语音识别,但是百度要求音频文件的压缩方式只能是pcm(不压缩)、wav、opus、speex、amr,这里面也就wav还常见一点,但是一般设备录音得到的文件都是mp3,这就要把mp3转换为wav。


基于Web Audio API实现音频可视化效果

网页音频接口最有趣的特性之一它就是可以获取频率、波形和其它来自声源的数据,这些数据可以被用作音频可视化。这篇文章将解释如何做到可视化,并提供了一些基础使用案例。


远场语音技术简介

远场语音是一种人与机器间的交互方式,相对与近场语音来说,区别是它的作用距离通常会在1米到10米之间,主要的技术难点在于对于多径反射、混响效应及背景噪音干扰的处理。

编解码


基于QoE的实时视频编码优化:低功耗,低延时,高质量

在实时通信领域,只有当Codec的优化适应了当前的网络状况,设备平台及应用场景,用户才能得到最佳的体验。在LiveVideoStackCon2018大会中声网Agora视频工程师吴晓然详细介绍了如何设计与实现基于QoE的实时视频编码优化。本文由LiveVideoStack整理而成。


HEVC CABAC解码

解码slice segment data过程中,每碰到1个syntax element需要解析时,需参考Table 9-48等表格组合解析,整理整个流程解码如下。


Android MediaCodec图片合成视频

利用MediaCodec可以录制视频,可是可以将图片合成视频吗?之前使用FFmpeg来实现。但是,FFmpeg却是c++写的,而且非常占用内存,虽然它是非常棒的音视频处理库,但是杀鸡焉用牛刀,所以今天就讲一下:如何利用Android API中的MediaCodec来实现图片合成视频。


FAAD解码AAC音频

在使用FAAD解码前我们首先导入faad库,相关库及源码可从https://www.audiocoding.com/faad2.html下载。使用FAAD解码AAC数据为PCM时,主要分为4个步骤:1、创建解码器;2、配置解码器;3、解码AAC数据为PCM数据;4、解码完毕,关闭解码器

AI智能


快慢结合效果好:FAIR何恺明等人提出视频识别SlowFast网络

在本文中,FAIR与何恺明等人介绍了用于视频识别的 SlowFast 网络,提出要分开处理空间结构和时间事件。该模型在视频动作分类及检测方面性能强大:在没有使用任何预训练的情况下,在 Kinetics 数据集上实现了当前最佳水平;在 AVA 动作检测数据集上也实现了 28.3 mAP 的当前最佳水准。


对象检测(object detection)算法图解

本文简要介绍图像检测中常用的深度学习方法——RCNN家族系列算法,以图像讲解形式,便于理解。


视频语义分割介绍

随着深度学习的发展,图像语义分割任务取得了很大的突破,然而视频语义分割仍然是一个十分具有挑战性的任务,本文将会介绍视频语义分割最近几年顶会上的一些工作。


语音合成的速度如何提升400%?或许你可以了解下深度前馈序列记忆网络(附带英文论文)

循环神经网络虽然具有很强的建模能力,但是其训练通常采用 BPTT 算法,存在训练速度缓慢和梯度消失问题。我们之前的工作,提出了一种新颖的非递归的网络结构,称之为前馈序列记忆神经网络(feedforward sequential memory networks, FSMN),可以有效的对信号中的长时相关性进行建模。相比于循环神经网络,FSMN 训练更加高效,而且可以获得更好的性能。 

图像


K-Means聚类进行图像处理实战

在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。


图像灰度拉伸

图像灰度拉伸是改变图像对比度的一种方法,通过灰度映射,将原图中某一区段中的灰度值映射到另一灰度值,从而拉伸或压缩整个图像的灰度分布范围。

rmrhsch

rmrhsch

这个人太懒什么东西都没留下

文章评论(0)