声音档案里面是什么?

更新时间:2018-12-02 09:30:00    阅读:146

2014 年的现在,人们最常使用的保存声音的方式,就是「声音档案」(Audio File)了,您在网络上听到的所有声音,包含 MUZIK ONLINE 上的每一首音乐,YouTube 上影片的声音部分,都是使用某种声音文件格式来储存的。所以,声音档案里面到底装的是什么东西?为什么它可以储存声音?


微信图片_20181130101557.jpg

今天的故事要从最后一个流程「保存声音」说起。2014 年的现在,人们最常使用的保存声音的方式,就是「声音档案」(Audio File)了,您在网络上听到的所有声音,包含 MUZIK ONLINE 上的每一首音乐,YouTube 上影片的声音部分,都是使用某种声音文件格式来储存的。所以,声音档案里面到底装的是什么东西?为什么它可以储存声音?


什么是「数字」?



首先我要来厘清一下名词。这系列文章的标题其实是三个字组成的:「数字」、「音乐」和「科技」,我想大家比较会有疑虑的是「数位」这个字,「数字」到底是什么意思?


「数位」这个字的简单的定义是:「用数字,来描述、处理、保存事情」。也就是说,这一系列的文章也会跟数字和数学很有关联喔!


画素




为了让您更能想象声音档案的运作方式,我想先介绍一下图片档案。


现在网络上最流行的图片文件格式叫做 JPEG,您在 Facebook 上看到的每一张照片,都是使用这个方式储存的。JPEG 档案(以及其他大部份的图片档案)里面装的是什么呢?它里面有很多「画素」(pixel)。


您在计算机或手机屏幕上,看到的所有东西,都是由一个一个细小的小方格组成的,因为这些小方格太小了,平常您不会注意到它们的存在,所以我要把它们放大给您看清楚。

微信图片_20181130101708.gif

首先,您可能会发现一个有趣的事情:在屏幕上你看起来像是全黑的文字,其实它的边缘不是真正全黑的。


在这里您看到的每一个小方格,就是一个「画素」。现代计算机储存一张黑白图片档案的方式,就是测量每一个画素的亮度,然后给它一个范围是 0 到 255 的数字,0 表示最暗(也就是纯黑),255 表示最亮(纯白),中间的数值代表各种不同深浅的灰色。

微信图片_20181130101728.gif

所以,在黑白图片档案中,每一个画素,就是一个范围是 0 到 255 的数字(注 1),集合够多的画素,您就得到了一张图片。


声音档案的「画素」




在声音档案中,与「画素」相对应的东西叫做「取样」(sample)。您可以想样,一个「取样」就是一小小小小小段声音,跟「画素」一样,也是用一个数字来代表。不过您可能会想,我们要怎么用数字来形容声音呢?就像在图片档案里,我们用一个数字来描述一小块图片的「亮度」;在声音档案里,我们用一个数字来描述一小段时间内的「空气密度」。


声音档案的运作方式其实超乎想象地简单:您可能还记得在高中物理课的时候学到的,声音是一种「疏密波」,也就是说您大脑觉得的「声音」,其实只是您的耳朵侦测到周遭空气分子的密度变化,传送讯号给大脑后产生的幻觉而已。

微信图片_20181130101749.jpg

如上图,当左方的喇叭在震动的时候,会造成周围的空气分子在某些地方的密度比较高、有些地方比较低。然后您只要拿一个「空气分子密度侦测器」(俗称「麦克风」),去测量当下的空气密度,当空气密度高的时候,给它一个大数字,而密度低的时候,给它一个小数字就可以了。

微信图片_20181130101854.gif

然后当您不断地、一直一直重复测量空气密度之后,您就会得到⋯⋯一大堆数字。没错,您每天听到的网络上的声音、下载的每一首 MP3 音乐档案,就只是一大堆叙述空气密度的数字而已,计算机可以读取这些数字,然后再透过您的音响重现记录好的空气密度变化。


声音档案的分辨率



声音档案的质量基本上由两个因素决定:第一是我们用多大的数字范围来叙述一个当下的空气密度,第二是我们每一秒钟叙述空气密度几次。我们刚开始说了,一般的黑白图片档案,是用 0 到 255 的数字来表达一个画素的亮度,也就是说,从全黑到全白,图片档案可以记录 256 种不同深浅的灰色。

微信图片_20181130101914.jpg

一般声音档案的分辨率比这高得多,从空气最稀疏到最密集,我们是用范围 0 到 65,535 的数字来表示,而在专业用途的声音文件,数字的范围更大(注 2)。


我们把每一秒钟,声音档案记录空气密度的次数,称为「取样频率」(sample rate)。现在最常被使用的取样频率是 44,100 Hz,也就是每秒钟记录空气密度 44,100 次。

微信图片_20181130101927.jpg

换句话说,在一般您每天使用的声音档案,每一秒钟的声音,就是 44,100 个、范围是 0 到 65,535 的数字。那是非常非常多的数字耶,这也就是我们为什么叫它「数字」音乐的原因了。


还有更多所以您现在知道了,您每天听的声音档案,里面装的只是一大堆、叙述空气密度的数字而已。那么,在人类发明计算机来储存一大堆数字之前,我们又是怎么储存声音的呢?


注 1:在彩色图片中,每一个画素则是用「三个」范围是 0 到 255 的数字表示,分别代表红色、绿色、蓝色的亮度。

注 2:在专业录音设备使用的档案,叙述空气密度的数字范围通常是 0 到 16,777,215。



“闪电配音”是内容与媒体首选的配音服务商,平台可实现7*24小时在线、最快15分钟实现千字配音且达到FM音质标准的实际要求,每百字仅需2-10元,通过产品驱动满足了对时效性要求高的自媒体等行业,实现了配音行业生产方式的变革。现阶段,平台已签约主播1万多名,平均每天有2千~3千笔订单,已服务累计服务客户超过3000家。行业覆盖新闻媒体、自媒体、知识付费、短视频、出版社有声书业务等;包括故宫、知识分子、见字如面、吴晓波频道、极客公园;磨铁、邮电出版社、喜马拉雅等。

该内容为非商业目的的转载分享,不代表本站观点,本文版权属其著作权人所有。若侵犯了您的正当权益,请立即联系我们删除。