深度学习助力数据压缩,一文读懂相关理论
2023-05-02 来源:飞速影视
机器之心原创
作者:仵冀颖
编辑:Hao Wang
在网络带宽有限的年代,数据压缩显得尤为可贵。还记得美剧硅谷第一季里面大杀四方的数据压缩算法让 pied piper 公司炙手可热。高效的数据压缩使得大型网络应用能够在移动端成为可能,其前景非常诱人。大数据时代的来临,数据的体量和数据的增长速度都达到了一个前所未有的高度。随着 5G 技术的快速发展,边缘计算、物联网、联邦学习等应用需求及应用场景越来越多。在传输网络和存储能力有限的情况下,数据压缩技术发挥了越来越重要的作用。在传统数据压缩算法不断发展的同时,近年来深度学习网络也应用于数据压缩中获得了很好的效果。
本文对数据压缩的「前世今生」进行简要的回顾,重点分析基于深度学习的有损压缩、无损压缩方法,对基于深度学习的数据压缩进行了探讨和展望。
1、数据压缩背景知识
众所周知,信息理论和机器学习之间具有很强的关联性,人们经常把它们称为「同一枚硬币的两面」。二者一个特别重要的联系体现在数据概率模型和数据压缩方法之间的本质等价性。香农的信源编码定理(Shannon-Fano Coding)可以看作是描述这一思想的基本定理,而哈夫曼编码(Huffman Coding)、算术编码(Arithmetic Coding)和最近发展起来的非对称数字系统(Asymmetric Numeral Systems,ANS)等都是经典的基于统计模型实现数据压缩的算法,即基于对信息中单个字符出现频率的统计而设计的。除去以统计概率为基础的方法外,经典的数据压缩方法还包括基于字典模型的压缩技术,例如 LZ77、LZ78、LZW 等,以及熵编码 (Entropy Encoding),游程编码 (Run-Length Encoding) 等。
我们在日常中经常用到的数据压缩的工具基本都是上述几种经典方法的变种、组合或优化,很少有单独使用某一种技术。例如,gzip 的压缩原理是:先使用 LZ77 算法的一个变种进行压缩,对得到的结果再使用静态或动态哈夫曼编码的方法进行压缩;bzip2 的压缩原理为:使用了一个游程编码器进行编码,接下来块排序压缩和 Move-to-Front(MTF ) 变换进一步产生大量相同符号,进一步使用另一个游程编码器进行编码。最后结果用 Huffman 编码,将一个消息头与其打包;LZMA 是 Deflate 和 LZ77 算法改良和优化后的压缩算法,而 Deflate 则是同时使用了 LZ77 算法与哈夫曼编码的一个无损数据压缩算法。但是,面对大数据时代的数据处理,传统的数据压缩方法显得越来越力不从心,无法满足大体量、快速增长和结构复杂等特征的数据压缩,尤其是实时数据压缩的处理要求。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号