Transactions of the Korean Society for Noise and Vibration Engineering
[ Article ]
Transactions of the Korean Society for Noise and Vibration Engineering - Vol. 35, No. 3, pp.347-354
ISSN: 1598-2785 (Print) 2287-5476 (Online)
Print publication date 20 Jun 2025
Received 09 May 2025 Revised 11 Jun 2025 Accepted 12 Jun 2025
DOI: https://doi.org/10.5050/KSNVE.2025.35.3.347

감마톤 특징에 기반한 복합소음 속 항공기소음 분류 및 SNR 분석

김지민* ; 장서일
Gammatone Feature-based Classification and Signal-to-Noise Ratio Estimation of Aircraft Noise in Combined Noise
Ji-Min Kim* ; Seo Il Chang
*Member, Dept. of Environmental Engineering, University of Seoul, Student

Correspondence to: Member, Dept. of Environmental Engineering, University of Seoul, Professor E-mail : schang@uos.ac.kr ‡ Recommended by Editor Yunsang Kwak


Ⓒ The Korean Society for Noise and Vibration Engineering

Abstract

The applicability of Gammatone Frequency Cepstral Coefficients (GFCCs) was studied by comparing its performance with Mel Frequency Cepstral Coefficients (MFCCs) in their combined noise environments. A multi-output artificial neural network model was developed to classify aircraft, road traffic, and combined noise, and to estimate the signal-to-noise (SNR) ratio when combined noise is detected. GFCC features were extracted using 64 Gammatone filters and 13 cepstral coefficients. Trained on 10 076 samples, the model achieved a classification accuracy of 99.94 % and an SNR estimation mean absolute error of 0.5432, outperforming MFCC-based models. These results demonstrate the effectiveness of GFCC in analyzing low-frequency dominant aircraft noise under combined noise conditions.

Keywords:

GFCC, Combined Noise, Aircraft Noise, Signal-to-noise Ratio

키워드:

감마톤 주파수 켑스트럼 계수, 복합소음, 항공기소음, 신호 대 잡음비

1. 서 론

일반적인 환경에서 소음은 다수의 발생원이 복합적으로 발생하는 특성이 있어, 주요 발생원의 기여도를 구분하기 어려운 한계가 있다. 이러한 복합소음 환경에서는 소음 관리의 효율성이 저하되며, 원인자 책임 원칙을 적용하기 어려워 소음 규제 및 행정적 조치가 제한된다(1). 현행 소음 규제는 개별 소음원을 독립적으로 평가하는 방식으로 이루어져 있으며, 소음 데이터 측정 후 수작업을 통해 분석하는 방식을 사용하고 있다. 이는 실시간으로 변화하는 소음을 효과적으로 분석하는 데 한계가 있다.

최근 신경망 기반의 소음 분석 기술이 발전하면서 복합소음 환경에서 개별 소음원의 기여도를 평가하는 다양한 소음원 분석 방법이 제안되고 있다(2). 대표적인 특징 추출 기법으로는 멜 필터 뱅크 기반의 mel spectrogram과 MFCC(mel frequency cepstral coefficients)가 사용되고 있다(3,4). 그러나 이러한 기법은 인간의 청각 특성을 반영하는 데 한계가 있으며, 특히 저주파 성분이 중요한 항공기소음과 같은 신호에서는 분석 성능이 저하될 가능성이 있다(4~6).

이에 이 연구에서는 기존의 멜 필터 뱅크 대신, 인간 청각계의 비선형 주파수 감각을 더욱 정밀하게 모방하는 gammatone 필터 뱅크 기반의 GFCC(gammatone frequency cepstral coefficients)를 활용하여 복합소음 환경에서 개별 소음원의 기여도를 분석하고자 한다(7). 특히 항공기소음과 도로교통소음이 혼재된 복합소음 환경에서 신경망 모델을 이용하여 신호 대 잡음비(signal-to-noise ratio, SNR)를 추정함으로써 기존 방법의 한계를 보완하고자 한다. 또한 GFCC 특징이 항공기소음 분석에서 MFCC 대비 어떤 성능 차이를 보이는지 실험적으로 검증한다.


2. GFCC 기반 소음 특징 추출

2.1 GFCC 개요

기존 연구에서 GFCC는 주로 음성 및 특정 신호 분석에 활용되었으나(8), 이 연구에서는 환경 소음 분석에 적용하여 효과를 검증하였다. GFCC는 감마톤 필터뱅크(gammatone filterbank)를 통해 얻은 시간-주파수 에너지 분포인 코클레오그램(cochleogram)을 기반으로, 로그 압축과 이산 코사인 변환(discrete cosine transform, DCT)을 거쳐 도출되는 특징 벡터이다(9).

2.2 인간 청각 메커니즘 기반 특징 추출 기법 비교

인간의 귀는 해부학적으로 외이, 중이, 내이로 구분되며, 내이의 중심 구조인 달팽이관(cochlea)은 주파수에 따라 소리를 분리하는 역할을 한다. 특히 달팽이관 내부에 있는 기저막이 위치별로 서로 다른 주파수에 민감하게 반응하며, 고주파는 난원창 근처에서, 저주파는 와우공(helicotrema) 부근에서 주로 감지된다. 이와 같은 특성은 인간이 다양한 주파수 대역의 소리를 효율적으로 구분할 수 있도록 한다.

이러한 청각 메커니즘을 수학적으로 모방한 특징 추출 기법으로 MFCC와 GFCC가 널리 사용된다. MFCC는 멜(mel) 스케일을 기반으로 삼각형 형태의 필터 뱅크를 사용하여 인간의 비선형 주파수 인지 특성을 반영하는 반면, GFCC는 기저막의 주파수 민감도와 ERB(equivalent rectangular bandwidth) 스케일을 기반으로 설계된 감마톤 필터를 사용하여 정밀하게 청각을 모사한다. 이 구조는 저주파 대역에서 상대적으로 좁은 대역폭의 필터를 적용함으로써 멜 필터 뱅크보다 더 높은 주파수 분해능을 제공한다.

이러한 구조적 차이는 특징 추출 데이터의 형태뿐만 아니라, 모델의 입력 특성과 성능에도 실질적인 영향을 미칠 수 있다.

2.3 GFCC 특징 추출 과정

이 연구에서는 Slaney가 제안한 청각 모델과(7), Dan Ellis의(10) 코클레오그램 계산 방식에 기반하여 Python 환경에서 구현된 ‘gtgram’ 함수를 활용하였다(11,12). 이 방식은 시간 도메인에서 구현된 감마톤 필터의 임펄스 응답(impulse response)을 입력 신호에 합성곱(convolution) 방식으로 적용하여 각 채널별 에너지를 계산한다. 이후, 생성된 코클레오그램에 로그 압축 및 DCT를 통해 GFCC 계수를 산출한다. GFCC 계수는 하나의 벡터로 구성되며, 이들은 시간 순서대로 연결되어 전체 오디오에 대한 시계열 특징 행렬을 구성한다.

원시 오디오 신호 x(t)는 감마톤 필터 뱅크를 통과하여 청각적 채널별 반응으로 분해된다. 각 필터는 식 (1)과 같은 시간 영역 임펄스 응답으로 정의된다.

gt=AtN-1exp-2πBtcos2πfct+ϕt0,N1(1) 

여기서 A는 최대 진폭 전달을 정규화하는 데 사용되는 상수이고, N은 필터의 차수, fc는 중심주파수, ϕ는 위상, B는 필터의 대역폭이자 감쇠 계수를 나타낸다. B는 Slaney의 구현 방식에 따라 ERB 기반 보정 계수를 포함하여 식 (2), 식 (3)과 같이 정의된다.

B=1.019×ERBfc(2) 
ERBfc=24.7×1+4.37×10-3×fc(3) 

이 수식은 1990년 Glasberg와 Moore가 제안한 ERB 정의를 기반으로 하며, 시간 영역 감마톤 필터 구현 시의 안정성과 감쇠 특성을 반영하기 위해 Slaney가 제안한 보정 계수 1.019를 포함한다. 이는 인간의 내이에 위치한 기저막이 주파수에 따라 다르게 반응하는 비선형 특성을 수학적으로 모델링한 것이다. 특히 저주파 영역에서 높은 주파수 해상도를 제공하고 청각 구조를 정밀하게 모사한다.

‘gtgram’ 함수는 이러한 감마톤 필터 gk(τ)를 시간 프레임 단위로 윈도잉된 입력 신호 xt(τ)와 합성곱 방식으로 적용하여, 시간-주파수 에너지 행렬인 코클레오그램을 생성한다. 식 (4)에서 에너지값 C(k,t)는 k번째 주파수 채널에서 시간 프레임 t에 해당하는 필터 출력의 제곱 합으로 정의된다.

Ck,t=τ=0L-1xt*gkτ2(4) 

여기서 xt(τ)는 프레임 인덱스 t에 해당하는 윈도잉된 입력 신호이며, τ는 프레임 내 시간 인덱스를 의미한다.

코클레오그램의 각 에너지 값은 식 (5)와 같은 로그 압축을 통해 비선형적으로 조정된다.

C'k,t=logCk,t+ϵ(5) 

여기서 ϵ은 로그 계산 시 0 입력으로 인한 수치 오류를 방지하기 위한 작은 상수로써, 일반적으로 10-10이 사용된다.

식 (6)의 압축된 코클레오그램 C'(k,t)는 주파수 상관성을 제거하고 저차원 특징으로 요약하기 위해 이산 코사인 변환(DCT)을 적용한다.

GFCCnt=k=1KC'k,tcosπn2k-12K(6) 

여기서 K는 필터 채널 수이고, n은 GFCC 계수의 인덱스, GFCCn(t)는 시간 프레임 t에서의 n-번째 GFCC 계수이다. DCT는 입력 분산을 저차원 영역에 집중시켜, 차원 축소, 잡음 제거, 계산 효율성 향상 등의 장점을 제공한다.

각 시간 프레임 t에 대해 계산된 GFCC 계수 (GFCC1(t), ⋯, GFCC13(t))는 하나의 열벡터로 구성되며, 이들은 시간 순서대로 연결되어 전체 오디오에 대한 시계열 특징 행렬을 구성한다. 최종적으로 이 특징 행렬은 딥러닝 기반의 분류 및 회귀 모델의 입력으로 사용된다.

이 연구에서는 GFCC 특징 추출을 위해 64개의 감마톤 필터를 사용하여 코클레오그램을 생성하고, 이후 DCT를 통해 13개의 GFCC 계수를 추출하였다. 비교를 위한 MFCC 특징은 128개의 멜 필터를 적용하여 추출한 멜 스펙트로그램으로부터 동일하게 13개의 계수를 산출하였다. 이와 같이 최종 계수의 개수를 일치시켜 모델의 입력 차원을 통일함으로써, 특징 추출 기법에 따른 성능 차이를 공정하게 비교할 수 있도록 설정하였다.


3. 인공신경망 기반 복합소음 분석 모델

3.1 데이터셋 구축 및 전처리

이 연구에서는 항공기소음과 도로교통소음을 각각 독립적으로 수집한 후, 다양한 SNR 조건에서 혼합하여 복합소음 데이터셋을 구성하였다. 항공기소음은 단일 민항기 운항 시 발생하는 소음을 대상으로 하였으며, 도로교통소음은 차종 구분 없이 다차로 도로에서 수집된 전반적인 차량 통행 소음을 포함한다. 소음 데이터 전처리는 Rion AS-70과 ArtemiS Suite 소프트웨어를 활용하였다. 이때 wav 파일의 분할 길이는 측정 당시 평균 항공기소음 지속 길이에 해당하는 30초로 통일하였다.

(1) 개별 소음 데이터 수집 및 분석

항공기소음은 인천국제공항 활주로 인근의 건물 옥상에서 수집되었다. 항공기소음은 일반적으로 기체 소음과 엔진 소음 두 가지 주요 소음원으로 나뉜다. 해당 지점은 착륙 활주로 인근에 위치하여, 착륙 시 발생하는 기체 소음이 주요 지배 요인으로 작용하는 환경적 특성을 가진다. 착륙 과정에서는 속도 감소와 함께 엔진 출력이 제한되며, 랜딩기어와 플랩 등의 돌출 구조물 전개로 인해 공기역학적 저항이 증가하여 기체 소음의 비중이 상대적으로 높아진다(13). 이러한 특성은 시간-주파수 영역에서의 에너지 분포 및 특징 벡터 구성에 영향을 미치는 핵심 요소로 작용한다. 항공기 통과 주기는 평균 2분~3분에 1회 수준으로 나타났으며, 이에 따라 연속적인 배경소음 측정이 불가능하였다. 배경소음 수준 평가를 위해 계산된 L90 및 L95는 각각 52.1dB(A), 51.0dB(A)로 확인되었다.

도로교통소음은 도심에 있는 약 200m 5차선 직선 도로에서 수집되었으며, 차량 통과 속도는 30km/h~55km/h 범위로 확인되었다.

두 소음원의 음향 데이터 수집에 공통으로 사용된 장비는 정밀 소음계 Rion NL-62이다. 소음계 기반의 모든 측정 데이터는 1000Hz에서 94dB 음압 기준으로 교정한 후 수집하였으며, 동시 녹음 기능을 통해 48kHz 샘플링 레이트의 wav 파일을 확보하였다.

분류 학습 시 데이터의 다양성과 범용성을 확보하기 위해, 항공기소음 데이터는 Head Acoustics사의 SQuadriga Ⅱ를 함께 사용하여 동일한 형식의 음향 데이터를 수집하였으며, 도로교통소음은 AI-Hub 플랫폼에서 제공하는 도로교통소음 데이터셋의 일부를 활용하였다. 사용된 데이터는 ‘도시소리 데이터(585)’ 및 ‘생활환경소음 AI 학습용 데이터(71296)’이다(14,15). 이때 AI-hub에서 수집한 데이터 형식은 소음계 기반 측정 데이터 형식과 일치하였으나, 측정 장비 및 환경 정보는 제공되지 않아 형식 외의 조건 일치 여부는 판단할 수 없었다.

항공기소음과 도로교통소음의 주파수 대역별 에너지 분포를 비교하기 위해 1/3 옥타브 밴드 분석을 수행한 결과, Fig. 1과 같이 항공기소음의 주요 에너지 대역은 50Hz~250Hz 사이의 주파수 대역에 집중되어 있으며, 특히 100Hz~250Hz 사이에서 가장 높은 음압레벨을 보였다. 이는 주요 주파수 대역이 800Hz~1000Hz인 도로교통소음과 명확히 구분된다. 또한, 항공기소음의 대표적인 스펙트로그램을 나타낸 Fig. 2에서도, 전체 구간에서 약 100Hz 전후의 저주파 대역이 주요 에너지 분포를 가지고 있음을 확인하였다. 이는 복합소음 속 항공기소음의 SNR을 분석하기 위해서는 항공기소음의 주요 주파수 대역인 저주파 대역의 특성을 반영하는 특징 추출 기법이 필요함을 의미한다.

Fig. 1

1/3-octave band analysis of aircraft and road-traffic noise

Fig. 2

Spectrogram of aircraft noise (≤ 3 kHz)

(2) 복합소음 데이터 구축

복합소음 데이터셋은 Rion NL-62 소음계 기반의 측정 데이터만을 사용하여 항공기소음과 도로교통소음을 서로 다른 비율로 혼합하여 생성하였다. 이 연구에서는 복합소음 내 항공기소음의 기여도를 정량화하기 위해 신호 대 잡음비를 기반으로 데이터를 구성하였다. SNR은 식 (7)과 같이 정의된다.

SNRdB=10log10PsignalPnoise(7) 

여기서 Psignal은 항공기소음의 평균 제곱 압력, Pnoise는 도로교통소음의 평균 제곱 압력을 의미한다. 평균 제곱 압력이란 소음 데이터의 전체 구간에 걸친 평균 에너지이다.

학습에 사용된 SNR 조건은 -10dB부터 +10dB까지 1dB 간격으로 설정하였으며, 여기에 극단적인 환경을 고려한 -20dB, -15dB, 15dB 조건을 추가하여 총 24개의 SNR 비율로 구성하였다. 각 SNR 조건에 따라 RMS(root mean square) 방식을 이용해 각 신호의 에너지를 정량적으로 측정하고, 두 소음을 에너지 비율에 맞게 조정한 후 Python 기반 코드로 합성하였다. 생성된 복합소음 데이터는 에너지 조정 과정에서 양자화의 한계로 인한 클리핑 발생 여부를 확인하기 위해 시각적 파형 확인 및 청취를 통해 품질을 검증한 후 저장하였다.

(3) 데이터셋 구성 및 분할

이 연구에서는 항공기소음, 도로교통소음, 복합소음을 포함한 총 세 가지 유형의 소음 데이터셋을 구성하였다. 모든 데이터는 30초 단위로 구성되었으며, GFCC 및 MFCC 특징 추출을 통해 신경망 모델 학습에 활용하였다.

데이터셋은 다중 출력 신경망 모델에 입력되어 두 가지 주요 작업을 수행한다. 첫 번째는 항공기소음, 도로교통소음, 복합소음을 분류하는 3-클래스 분류이고, 두 번째는 복합소음으로 분류된 경우에 한해 수행되는 항공기소음의 SNR 추정이다.

항공기소음은 총 2089개, 도로교통소음은 AI-Hub 플랫폼에서 수집한 2147개로 구성되며, 이들은 소음원 분류 학습에 사용되었다. 복합소음 데이터는 직접 수집한 소음계 기반의 도로교통소음 데이터 222개와 항공기소음 데이터 일부를 무작위 추출하여 -20dB부터 +15dB까지 총 24개의 SNR 조건에 따라 생성되었다. 따라서 복합소음 데이터는 총 5840개의 데이터를 포함하며, 분류 학습과 복합소음으로 분류된 경우에만 SNR을 예측하는 회귀 학습에 모두 사용되었다.

총 10076개의 데이터는 훈련(train), 검증(validation), 테스트(test) 용도로 70:15:15의 비율로 무작위 분할되었으며, 데이터셋 간 클래스 비율과 SNR 조건이 균형 있게 유지되도록 구성하였다. 데이터셋의 세부 구성은 Table 1에 나타내었다.

Composition and division of the total noise dataset

3.2 신경망 모델 설계

이 연구에서는 복합소음 환경에서 항공기소음의 기여도를 분석하기 위해, 소음원의 분류와 SNR 예측을 동시에 수행하는 다중 출력 인공신경망 모델을 설계하였다. 모델은 항공기소음, 도로교통소음, 복합소음을 구분하는 3-클래스 분류를 수행하고, 복합소음으로 분류된 경우에만 회귀 기반으로 SNR을 예측한다.

입력 데이터는 30초 길이의 소음 신호로부터 추출한 MFCC 및 GFCC 특징이며, (13, T) 형태의 시계열 특징 행렬로 구성된다. ANN 입력을 위해 각 특징 행렬은 전체 프레임 수 T에 대한 1차원 벡터 형태로 평탄화(flatten) 과정을 거쳐 사용된다. 예를 들어, 13개의 계수와 2401개의 프레임으로 구성된 GFCC 입력은 총 31213개 값의 1차원 벡터로 변환되어 모델에 입력된다. 모델은 2개의 은닉층(hidden layer)으로 구성된 ANN 구조이며, 각 은닉층에는 128개와 64개의 노드를 가지며 ReLU 활성화 함수를 사용한다.

출력층은 두 가지로 나눠진다. 먼저 첫 번째 출력은 Softmax 활성화 함수를 갖는 3개의 노드를 통해 항공기소음, 도로교통소음, 복합소음을 분류한다. 두 번째 출력은 선형 활성화 함수를 갖는 단일 노드로 항공기소음의 SNR 값을 회귀 방식으로 예측한다.

회귀 손실은 사용자 정의 층인 조건부 회귀층(conditional regression layer)을 통해 구현된다. 이 층에서는 분류 결과가 복합소음인 경우에만 회귀 예측값을 계산하여 손실함수에 반영된다. 이러한 조건부 손실 반영 구조는 다중 출력 모델의 효율성을 높이고, 불필요한 회귀 오류 학습을 방지하는 데 기여한다. 모델 학습에는 Adam optimizer를 사용하였다. 배치 크기는 32, 최대 에포크 수는 50으로 설정하였으나, 과적합을 방지하기 위해 검증 손실값의 개선이 일정 기준 이하일 경우 학습을 중단하는 조기 중단(early stopping) 기법을 적용하였다. 모델 구성의 개요는 Table 2에 요약되어 있으며, 전체 구조는 Fig. 3에 나타내었다.

Hyper-parameter configuration of the proposed multi-output ANN model

Fig. 3

Architecture of the proposed multi-output ANN


4. 특징 추출 기법별 성능 비교

이 연구의 주된 목적은 GFCC 기반 ANN 모델의 복합소음 분석 성능을 검증하는 데 있다. 이를 위해 기존 연구에서 주로 사용되는 MFCC 특징 추출 데이터로 학습한 모델과의 비교 실험을 수행하였다. 이를 통해 GFCC 특징 기반 모델의 상대적인 성능 우수성을 실험적으로 분석하였다.

모델의 성능 비교는 동일한 ANN 모델을 기반으로, GFCC와 MFCC 각각의 특징 추출 기법에 따라 학습한 데이터셋을 이용하여 수행하였다. 비교 항목은 소음 분류 정확도와 복합소음에 대한 SNR 회귀 예측 성능이다. 분류 정확도와 SNR 회귀 성능은 테스트 데이터셋을 기준으로 평가되었으며, 실험 결과를 도식화한 그래프는 Fig. 4와 같고 구체적인 수치를 Table 3에 나타내었다.

Fig. 4

Graphical representation of performance comparison of MFCC and GFCC models

Performance comparison of MFCC and GFCC

회귀 성능 분석 결과 두 가지 특징 모두 평균절대오차(MAE) 수치 차이가 1dB 이내로 나타났으나, GFCC 기반 모델의 MAE는 0.5432로 MFCC 모델의 0.8424 대비 약 35% 낮은 값을 보였다. 평균제곱오차(MSE)는 MFCC 2.6306에서 GFCC 1.0433으로, 전체 손실(overall loss)은 MFCC 2.6914에서 GFCC 1.0506으로 약 60% 감소했다. 이는 GFCC 기반 모델이 항공기소음의 SNR을 예측하는 데 있어 전반적으로 더 정밀한 성능을 제공함을 나타낸다. 특히 MSE는 큰 오차에 민감하게 반응하는 지표이므로, GFCC 기반 모델이 큰 예측 오차를 억제하는 것을 확인하였다.

Table 4에 제시된 혼동 행렬 분석 결과에서도 GFCC 기반 모델의 분류 정밀도가 MFCC 모델 대비 높은 것을 알 수 있다. 특히 복합소음을 항공기소음으로 오분류한 사례가 MFCC 5건, GFCC 1건이며, 항공기소음을 복합소음으로 오분류한 사례가 MFCC 6건, GFCC 0건으로 GFCC 모델이 현저히 낮은 오분류율을 기록했다. 이는 GFCC가 복합소음 환경에서 항공기소음의 존재 여부를 판별하는 데 있어 단순 분류 정확도 수치 이상의 높은 신뢰성을 제공한다.

Confusion matrix of multi-output ANN models


5. 결 론

이 연구에서는 항공기소음과 도로교통소음이 혼재된 복합소음 환경에서 항공기소음의 존재 여부를 분류하고, 기여도를 정량화하기 위한 다중 출력 인공신경망 모델을 제안하고 성능을 검증하였다. 기존 널리 사용되던 MFCC 대신, 인간 청각 메커니즘을 더욱 정밀하게 모사하고 저주파 대역에서 높은 분해능을 제공하는 GFCC를 활용하여 복합소음 내 항공기소음의 특징을 효과적으로 포착하고자 하였다.

제안된 모델은 소음 유형 분류와 조건부 회귀를 동시에 수행하는 구조로, 복합소음으로 분류된 경우에만 항공기소음의 SNR을 예측하도록 설계되었다. 실험 결과, 두 모델 모두 소음 유형 분류 정확도는 높았으나, 혼동 행렬 분석에서 GFCC 모델은 MFCC 모델에 비해 복합소음과 항공기소음의 오분류 사례가 현저히 적어 분류 정밀도가 더 높음을 확인하였다. 회귀 성능 분석에서는 GFCC 모델의 MAE가 MFCC 모델보다 낮았으며, 특히 MSE와 전체 손실 지표에서 유의미하게 낮은 값을 기록하여 SNR 예측에 있어 더 안정적이고 정밀한 성능을 제공함을 시사하였다.

이러한 결과는 인간 청각 특성을 보다 정밀하게 모사하는 GFCC의 주파수 분석 능력이 복합소음 환경에서 항공기소음의 분류 정밀도를 향상시키고, SNR 예측의 정확도를 개선하는 데 기여함을 보여준다. 비록 일부 정량적 지표에서 수치적 차이가 크지 않았으나, 혼동 행렬 분석을 통한 오분류율 감소와 MSE 감소는 GFCC 기반 모델이 복합소음 내 특정 음원 분석 및 정량화라는 연구의 핵심 목표 달성에 기여함을 입증한다. 따라서 GFCC 모델은 소음 유형을 분류하고 복합소음 환경에서 항공기소음의 기여도를 정량화할 수 있는 기반 기술로서의 가능성을 보여주며, 이는 소음원 구분이 불분명한 실제 환경에서 자동화된 소음 분석 및 규제 기준 설정을 위한 기초자료로서 GFCC의 실효성과 적용 가능성을 뒷받침한다.

다만, 이 연구는 항공기 1기의 착륙 소음과 도심 5차선 도로의 차량 통행 소음을 합성한 비교적 제한된 조건의 복합소음을 기반으로 수행되었기에, 향후 다양한 환경 변수와 복합 조건을 반영한 추가 연구를 통해 모델의 범용성과 실효성을 확보할 필요가 있다.

Acknowledgments

이 연구는 정서 교란 소음의 성가심 영향분석 연구 사업의 지원을 받아 수행되었습니다(No. 202505142001).

References

  • Ministry of Environment and Korea Environment Institute, 2020, The Fourth Comprehensive Plan for Noise and Vibration Management(2021-2025), Ministry of Environment, Sejong-si, Korea.
  • Andringa, T. C., Van Hengel, P. W. J., Muchall, R. and Nillesen, M. M., 2004, Aircraft Sound Level Measurements in Residential Areas using Sound Source Separation, Proceedings of the 33rd International Congres and Exposition on Noise Control Engineering, Prague, Czech Republic.
  • Chu, S., Narayanan, S. and Kuo, C.-C. J., 2009, Environmental Sound Recognition with Time-frequency Audio Features, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 17, No. 6, pp. 1142~1158. [https://doi.org/10.1109/TASL.2009.2017438]
  • Sharan, R. V., Xiong, H. and Berkovsky, S., 2021, Benchmarking Audio Signal Representation Techniques for Classification with Convolutional Neural Networks, Sensors, Vol. 21, No. 10, 3434. [https://doi.org/10.3390/s21103434]
  • Parinam, V. N., Vootkuri, C. and Zahorian, S. A., 2013, Comparison of Spectral Analysis Methods for Automatic Speech Recognition, Proceedings of Interspeech, Lyon, France, pp. 3356~3360. [https://doi.org/10.21437/Interspeech.2013-742]
  • Tjandra, A., Sakti, S., Neubig, G., Toda, T., Adriani, M. and Nakamura, S., 2015, Combination of Two-dimensional Cochleogram and Spectrogram Features for Deep Learning-based ASR, Proceedings of IEEE 40th International Conference on Acoustics, Speech, and Signal Processing, South Brisbane, Australia, pp. 4525~4529. [https://doi.org/10.1109/ICASSP.2015.7178827]
  • Slaney, M., 1993, An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank, Apple, Apple Computer Technical Report, CA, United States, No. 35.
  • Shin, T. J., Lee, S. M. and Lee, S. K., 2013, Sound Metric Design for Quantification of Door Closing Sound Utilizing Physiological Acoustics, Transactions of the Korean Society for Noise and Vibration Engineering, Vol. 23, No. 1, pp. 73~83. [https://doi.org/10.5050/KSNVE.2013.23.1.073]
  • Shao, Y., Srinivasan, S., Jin, Z. and Wang, D. L., 2010, A Computational Auditory Scene Analysis System for Speech Segregation and Robust Speech Recognition, Computer Speech & Language, Vol. 24, No. 1, pp. 77~93. [https://doi.org/10.1016/j.csl.2008.03.004]
  • Ellis, D. P. W., 2009, Gammatone-like Spectrograms, Web Resource, Matlab, Retrieved from http://www.ee.columbia.edu/~dpwe/resources/matlab/gammatonegram/, .
  • Heeris, J., 2013, Gammatone Filterbank Toolkit (Python implementation), Open Sources in Public Archive, Github. Retrieved from https://github.com/detly/gammatone, .
  • Slaney, M., 1998, Auditory Toolbox: A Matlab Toolbox for Auditory Modeling, Interval Research Corporation, Technical Report, CA, United States, No. 1998-010, Retrieved from https://engineering.purdue.edu/~malcolm/interval/1998-010/, .
  • Molin, N., 2019, Airframe Noise Modeling and Prediction, CEAS Aeronautical Journal, Vol. 10, No. 4, pp. 1057~1072. [https://doi.org/10.1007/s13272-019-00375-4]
  • AI-hub, 2021, Urban Sound Data, Ministry of Science and ICT, Sejong-si, Korea, Retrieved from https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=585/.
  • AI-hub, 2022, Environmental Noise Data for AI Learning, Ministry of Science and ICT, Sejong-si, Korea, Retrieved from https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71296/.

Fig. 1

Fig. 1
1/3-octave band analysis of aircraft and road-traffic noise

Fig. 2

Fig. 2
Spectrogram of aircraft noise (≤ 3 kHz)

Fig. 3

Fig. 3
Architecture of the proposed multi-output ANN

Fig. 4

Fig. 4
Graphical representation of performance comparison of MFCC and GFCC models

Table 1

Composition and division of the total noise dataset

Noise type Total samples Train set
(70%)
Validation set
(15%)
Test set
(15%)
Aircraft 2089 1462 313 314
Road-traffic 2147 1502 322 323
Combined 5840 4088 876 876
Total 10076 7052 1511 1513

Table 2

Hyper-parameter configuration of the proposed multi-output ANN model

Hyper-parameter Configuration
Activation function Dense layer 1 ReLU
Dense layer 2 ReLU
Classification output Softmax
Regression output Linear
Optimizer Adam
Batch size 32
Loss function Classification Sparse categorical cross-entropy
Regression Mean squared error
Evaluation metrics Classification Confusion matrix
Regression Mean absolute error

Table 3

Performance comparison of MFCC and GFCC

Feature extraction MFCC GFCC
Classification Accuracy 0.9929 0.9994
Macro-avg
(F1-score)
0.9922 0.9993
Loss 0.0304 0.0016
Regression MAE 0.8424 0.5432
MSE 2.6306 1.0443
Overall loss 2.6914 1.0506

Table 4

Confusion matrix of multi-output ANN models

Classification performance Predicted label
MFCC Aircraft Road-traffic Combined
Actual
label
Aircraft 308 0 6
Road-traffic 0 323 0
Combined 5 0 904
GFCC Aircraft Road-traffic Combined
Actual
label
Aircraft 314 0 0
Road-traffic 0 323 0
Combined 1 0 908