-->
保存您的免费座位流媒体连接今年八月. 现在注册!

在线视频紧跟大数据潮流

文章特色图片

这种“超级巨头”之间的交叉连接,而不是跨传统的一级互连,本身就是一个大数据问题. 每个cdn和排名前10的网站都使用自己的数据库结构, 包括基于sql的关系数据库和基于nosql的文档或图形数据库, 所有的系统都不会互相交流. 虽然已经采取了一些措施来整合网站之间的一些数据共享, 它主要局限于单点登录选项, 例如, Facebook或雅虎! 邮件帐户可用于登录较小的网站.

其中一个有希望的领域是联邦CDN模型, 哪些处理跨不同网络的数据共享和内容交付. 这些问题已经详细讨论过了, and there are a number of trials underway; you can read more about the 内容交付峰会讨论.

索引和元数据

而存储和传送点播视频文件的问题是相当简单的, 元数据的问题变得更加复杂.

考虑, 例如, 清单文件的问题, 特别是HLS的M3U8版本, 这需要从服务器检索到的每一组动态片段的清单请求.

“使用HLS,你必须以与请求分段相同的频率请求舱单,威尔·劳说。, 律政司司长 MPEG-DASH行业论坛 (DASH-IF),指的是HLS清单文件(也称为M3U8). “这种频繁请求M3U8的要求可能会在我们迁移到1时导致百家乐软件问题大规模的基于http的直播.” 

此外,还有一个更大的大数据问题,即内容提取. 如果我们把元数据看作大数据, 很容易看出,在帧精确的基础上对视频进行索引可能会产生相当数量的小数据资产,这些资产需要进一步索引以生成map-reduce查询结果.

有效地利用元数据来磨练关键的视频资产代表了流媒体最大的大数据挑战. 然而, 如果这能被克服, 整个视频的这些目标部分比整个视频更有价值.

这种格式塔式的方法也许可以用新闻广播中的声音片段来最好地解释. 当一个记者和摄影师采访一个夜间新闻故事的主题, 最后的新闻广播通常只有非常小的采访片段, 穿插着评论. 从NBC晚间新闻到《百家乐软件》和其他喜剧节目, 这段话是用来推动围绕面试的特定故事的讲述.

有时,报道的对象反对新闻播音员讲述他或她的故事. 如果是这样的话, 经典的公关举措是发布未经编辑的采访内容, 作为企业和政治人物的支持者,包括伊朗总统艾哈迈迪内贾德和美国总统奥巴马.S. 副总统候选人萨拉·佩林在过去几年里所做的事情.

这种消防水带方法的问题是, 虽然, 是因为它与公共关系(PR)的强项——编造故事——背道而驰. 我们这些从事过危机管理公关的人都知道,我们的责任在于既要公布真相,又要让公众更容易找到信息. 依靠半关心的观众费力地看完一个小时的原始采访,找到实际采访与新闻广播中20秒的声音片段之间的脱节点,这是不行的.

将元数据应用于问题, 虽然, 是否允许企业不仅分享新闻节目是如何拼凑起来的故事——通过删除或重新排列关键短语——而且还生成一个增强的反故事,显示特定新闻播音员如何在特定行业或垂直市场的许多类似采访中使用类似的策略.

换句话说, 大数据元数据的机会不仅仅是一个特定的视频流,而是对数千个视频流中数百小时内容的分析.

大数据的应用

有一家公司正在解决这个索引问题 声波铸造. 该公司以其MediaSite产品的富媒体记录器系列而闻名, 但在这一切背后隐藏着一个大数据的故事.

在2013年InfoComm展会上,索尼克铸造厂副总裁肖恩·布朗说道, 很明显,该公司正在考虑超越流媒体和内容管理方面的问题, 专注于从原本可能停滞不前的资产中为客户获取附加值.

关键在于, 据布朗说, 将教育和企业内容的临界质量与索引的力量相结合. “就在几年前, 我们在企业内部没有足够的内容来保证深度索引,布朗说。. “去年, 我们悄悄地添加了一项功能,提高了结果的准确性和深度:光学字符识别.”

关于将光学字符识别(OCR)添加到Mediasite系列富媒体记录器和内容服务器中,有两点很有趣. 首先,这是对Mediasite产品线的回归. 早在声波铸造收购Mediasite之前, 当声波铸造专注于音频和视频制作工具时, Mediasite团队在各种内容索引方面发挥了神奇的作用. 我记得1999年被一位小组成员——Mediasite的创始人之一——的演示迷住了,他从每个视频帧中提取了大量的信息.

这并不令人意外, 因为Mediasite是卡内基梅隆大学的副产品,拥有世界一流的孵化器和技术转移设施, 但有趣的是,这些索引工具真正开始增加价值的时候,要花多长时间才能达到一个临界数量的内容.

向Mediasite添加OCR的第二个有趣之处在于它对处理能力需求的影响. AVC / H.从通用处理器(GPP)到图形处理器(GPU),使用大部分GPP或GPU的处理周期进行编码的需求正在减弱. 额外的处理能力, 然而, 可以用来解决大数据问题吗, 比如从基于视频的资产中提取元数据.

布朗说:“我们认为短期内需要四种类型的服务器. 一个用于编码, 一个用于索引, 一个用于对遗留内容进行转码, 还有一个用于内容管理数据库.”

“这些不需要都是物理上独立的服务器,”他补充说,“这取决于用例. 但我们认为这四个功能对于视频内容的关键任务使用至关重要.”

大数据的未来

本文中提到的三个领域——内容管理, 交付, 以及为元数据提取建立索引——这只是流媒体世界面临的几个关键大数据挑战. 但如果不解决这些问题, 当谈到流媒体时,大数据可能更多的是炒作而不是实质.

在流媒体世界中,我们还没有出现NoSQL或基于文档的数据库的趋势, 虽然我们也有“脏数据”的机会. 最大的机会领域, 当涉及到在框架精确级别上存在的索引的所有功能时, 自动标记视频片段的概念是否可以使用图形数据库来查找内容类型之间的相关性.

这其中的另一个挑战是在粒度级别检索内容的能力. 布朗暗示了这一点, 但是,提取如此多信息的能力需要一种互补的方式来交付所需的部分内容. 随着动态分割技术的进步, 在内容检索的大数据路径上,下一个合乎逻辑的步骤将是自动分割内容,不是用2秒的比特,而是用长视频中相关内容的小块大小的区域.

大数据图 通过在上面.

本文发表于2013年8月/ 9月号 流媒体杂志 作为“大数据潮流”."

流媒体覆盖
免费的
合资格订户
现在就订阅 最新一期 过去的问题
相关文章

流媒体东15:大数据困扰许多视频提供商

一些最大的视频出版商坐拥数年的观众数据,他们现在才开始筛选.

Rovi首次推出娱乐分析,多屏幕大数据

在收购IntegralReach之后,Rovi推出了一款针对目标受众的大数据分析解决方案.

MediaCom:大数据是联网电视成功的关键

流媒体视频正在通过各种连接设备进入家庭. 广告商也在跟进,依靠大数据来触及正确的目标.