Transactions of the Korean Society for Noise and Vibration Engineering
[ Article ]
Transactions of the Korean Society for Noise and Vibration Engineering - Vol. 30, No. 2, pp.136-142
ISSN: 1598-2785 (Print) 2287-5476 (Online)
Print publication date 20 Apr 2020
Received 31 Jan 2020 Revised 19 Feb 2020 Accepted 19 Mar 2020
DOI: https://doi.org/10.5050/KSNVE.2020.30.2.136

정비 자료 디지털 변환을 위한 영상 인식 알고리듬 : CNN and FCN

이강산* ; 나주원* ; 손종덕** ; 손석만** ; 이승철
Image Recognition Algorithm for Maintenance Data Digitization : CNN and FCN
Kangsan Lee* ; Juwon Na* ; Jongduk Sohn** ; Sukman Sohn** ; Seungchul Lee
*POSTECH, Student
**KEPRI, Researcher

Correspondence to: member, POSTECH E-mail : seunglee@postech.ac.kr # A part of this paper was presented at the KSNVE 2019 Annual Autumn Conference

‡ Recommended by Editor Jae Young Kang




© The Korean Society for Noise and Vibration Engineering

Abstract

Tabulated data has been widely used to facilitate systematic and intuitive management. In particular, tabular images that contain a few simple symbols are useful for maintaining mechanical systems. Several companies have accumulated tabular images as their property. Although these images are valuable as they can be used to solve difficult problems using data-based methods, such as deep learning, they still remain unavailable because it is expensive to digitize them. For these reasons, we propose a model comprised of a convolutional neural network (CNN) and fully convolutional network (FCN) to digitize tabular images. We used some ResNet components as they are well-suited to the characteristics of tabular image data. A training set for each model was constructed by writing symbols in blank tables and then augmenting them. As a result, the trained CNN and FCN models exhibited 99.2 % and 97.7 % accuracy in 4.75 s and 0.132 s of inference time, respectively.

Keywords:

Tabular Maintenance Data, Digitization, CNN, FCN

키워드:

정비 자료표, 디지털화, 합성곱 신경망, 완전연결망

1. 서 론

표 이미지는 직관적인 데이터 관리를 제공하기 때문에 다양한 시설이나 기관에서 시설물 상태 점검 및 기록 등의 다양한 목적을 위해 사용하고 있다. 특히 기계 시스템의 정비 자료는 단순한 기호를 포함한 표로 나타낼 수 있는 경우가 많아 표 형식의 데이터를 유용하게 사용할 수 있다. 이렇게 축적된 데이터는 새로운 문제 해결 방법을 제시하기도 하며 이를 이용한 연구나 데이터 축적 자체를 위한 연구도 이루어지고 있다(1). 과거로부터 누적된 표 데이터는 데이터 기반의 인공지능 모델 학습에 유용하게 사용될 수 있음에도 불구하고 전산화의 어려움 때문에 이용되지 못하고 있다. 표 이미지는 Fig. 1에 나타낸 것 같이 수백 혹은 수천개의 기호 데이터를 포함하기 때문에 수동으로 전산화하기에는 시간과 비용이 과하게 요구되어 자동으로 표 이미지를 인식하여 데이터를 전산화하는 시스템의 개발이 필요하다.

Fig. 1

Bearing wedge maintenance table data

이 논문에서 실험에 사용한 데이터는 발전기에서 회전자의 부품을 고정하고 간격을 조절하는 발전기 웨지의 타음검사표 데이터를 사용하였다. 발전기 웨지의 상태를 점검하기 위해 웨지를 두드려 나는 소리를 숙련된 기술자가 듣고 판단하여 상태를 점검하는데, 발전기 웨지의 배치가 원통 표면을 따라 격자형으로 배치되기 때문에 표를 이용하여 기록하면 인접한 위치의 웨지가 표에서도 인접하여 웨지 상태의 분포를 파악하기 쉽고 또한 판단한 상태를 간단한 기호로 구분할 수 있다는 이점이 있다. 이렇게 축적된 데이터를 전산화하고자 하였다.

표 이미지 자동 전산화는 이미지에서 각 칸에 해당하는 영역을 구분하는 것과 각 칸이 보유한 기호가 무엇인지 인식하는 과정으로 크게 나눌 수 있다. 각 기호가 똑같은 형태를 갖는 인쇄된 표 데이터의 경우에는 유사도 기반의 컴퓨터 비전 방법이나 머신러닝 기법들 혹은 조건문 몇 개로 각 기호를 인식할 수 있지만 다른 기호끼리 형태가 매우 유사하거나 기호가 수기로 작성되어 같은 기호임에도 각각의 형태가 다를 경우에는 판별 시스템의 구축도 어려울뿐더러 오차도 증가하게 된다. 따라서 이 논문에서는 현재 이미지 분류에서 가장 높은 성능을 보이는 convolutional neural network (CNN)를 이용하여 위의 어려움을 극복하는 모델을 개발하고자 하였다. CNN 알고리듬의 state-of-the-art 기술 중 하나인 Noisy Student(Qizhe Xie, 2019)는 ImageNet(2)에 대한 Top-5 정확도가 98.2 %로 이미 사람보다 높은 분류율을 보이는 CNN의 성능을 다시 검증하였다(3).

좋은 검출 성능을 위해선 데이터 특성에 따라 딥러닝 모델의 구조를 다르게 설계하는 것이 바람직하다. Fig. 1과 같은 수기 작성 표 이미지의 경우에는 각 기호가 갖는 비선형성이 강하기 때문에 딥러닝 모델의 층이 깊어야 한다. 보통의 CNN 구조에서는 층을 지나면서 이미지의 크기를 줄이는 pooling 레이어를 사용하기 때문에 망의 깊이를 깊게 하려면 입력 이미지의 크기가 커야 하는데, 표 이미지 한 칸의 크기를 증가시키면 전체 이미지 크기도 같은 비율로 증가하여 시스템에 필요한 데이터 저장 공간과 소요 연산량 및 스캔 시간이 크게 증가하게 된다. 따라서 pooling 레이어를 사용하지 않으면서 깊은 망의 구조에서 학습성능이 좋다고 알려진 residual network(4) 구조를 사용하였다.

문서 이미지에서 표의 위치를 찾는 table detection과 표의 구조를 인식하는 table structure recognition, 또는 표의 내용까지 인식하는 table recognition을 위한 많은 연구가 있었다. 대부분의 연구는 기호가 아닌 문자를 포함한 표를 대상으로 한다. Gatos, G. et al.(2004)는 문서 이미지에서 가로선과 세로선을 찾고 교차점이 가질 수 있는 경우의 수를 고려하여 문서 이미지에서 표의 위치와 구조를 찾고자 하였다(5). 서원교(2013)는 표가 회전하거나 기울어져 있거나 조명 상태가 좋지 않은 경우에도 표를 검출할 수 있는 기법을 제안하고 표가 열려있는 상태에서도 대응하도록 하였다(6). 김지웅 등(2016)은 수평 및 수직 히스토그램을 이용하여 경계선을 찾고 이를 기반으로 각 셀 영역의 위치를 찾고 표 외부의 표 관련 텍스트박스를 검출하였다(7). Sheikh, F. R. et al.(2017)는 UNLV와 UW3 등의 표 이미지 데이터셋을 이용하여 문서 이미지에서 표와 표가 아닌 부분을 분리하고 표의 구조를 검출하는 뉴럴 네트워크 모델을 학습하고 적절한 후처리를 거쳐 정확도를 높였다(8). Paliwal, S. et al.(2019)은 VGG-19의 학습된 파라미터를 이용하여 문서에서 표의 위치와 구조를 검출하는 TableNet을 제안하였다(9). Zhong, X. et al.(2019)는 CNN을 이용하여 표 이미지에서 시각적 특징을 찾는 인코더와 표의 구조와 내용을 각각의 디코더로 인식하여 HTML 코드로 변환하는 encoder-dual-decoder 구조를 제안하였다(10).


2. 실험 설계

2.1 두 가지 접근 방식: CNN and FCN

문서 이미지에서 표 데이터 영역의 위치와 크기를 알고 있다면 선형 변환과 행과 열의 개수 정보를 이용한 균등분할을 통해 하나의 기호를 포함하는 각 칸의 영역을 추출할 수 있다. 이 경우에는 이미지 전체를 분류하는 CNN 모델의 특성을 이용하여 해당 칸이 무슨 기호를 포함하는지 쉽게 검출할 수 있고 높은 정확도를 기대할 수 있다. 하지만 표의 구조 정보가 없는 경우에는 행과 열의 정보를 이미지에서 검출해야 하는데 기존 연구에 의하면 이는 별도의 연산량 및 처리 시간을 요구한다. 이를 피하기 위해 표의 구조 정보가 없는 경우에는 각 칸의 영역을 따로 검출하지 않고 표 이미지 전체를 입력으로 받아 픽셀 단위로 해당 픽셀이 어느 기호에 속하는지 혹은 기타 경계선 혹은 제목 등의 영역에 해당하는지 분류하는 semantic segmentation방법 중 대표적 모델인 fully convolutional network (FCN)(11)를 이용하였다. 이 경우에는 병렬 연산을 사용하는 최근 딥러닝 라이브러리의 병렬화 효율을 감소시키는 반복문의 사용도 없앰으로써 학습 및 추론 시간을 크게 단축할 수 있었다.

2.2 Fully convolutional network(11)

CNN은 데이터 분류를 위한 인공지능 모델인 Artificial Neural Network에서 일부 연산을 convolution연산으로 대체하여 이미지에서 중요한 정보인 공간 정보를 유지하고 분류 정확도를 크게 향상시킨 네트워크이다. 일반적인 CNN의 마지막 단에는 완전연결 계층을 이용하여 데이터를 분류하는데, 높이와 너비의 공간적 정보를 갖고 있는 앞의 convolution층들과 달리 완전연결 계층의 모든 노드는 서로 독립적인 일차원 벡터의 형태를 갖기 때문에 공간적 정보는 버려지게 된다. 이를 피하기 위해 완전 연결 계층 대신 계속해서 convolution 연산을 사용하는 모델이 FCN이며 공간 정보를 유지하기 때문에 이미지를 픽셀별로 분류할 수 있게 된다. 이러한 기법을 semantic segmentation이라 하며 CNN 모델에서 FCN 모델로 변환하는 과정을 Fig. 2에 나타내었다(11). FCN을 이용하면 하나의 이미지 내에 분류 대상이 되는 객체가 여러 개 존재할 때 각 객체가 차지하는 영역을 상세하게 검출할 수 있으며, 노드의 개수가 고정되는 완전연결 계층 대신에 convolution 연산에 사용되는 이차원 필터를 학습하는 convolution 층을 사용하므로 입력 이미지의 크기에 관계없이 학습 및 검출을 할 수 있게 된다.

Fig. 2

FCN structure and convolutionalization

2.3 Residual network(4)

FCN은 기존의 CNN 구조의 마지막 단만 바꾸는 것이기 때문에 앞쪽의 CNN 구조는 데이터 특성과 성능을 고려하여 결정하여야 한다. 표 이미지는 수백 혹은 수천 개의 기호를 포함하기 때문에 스캔 해상도나 연산 시간을 고려하면 한 칸의 크기를 작게 유지하는 것이 좋다. 또한 수기로 작성된 기호는 인쇄물에 비해 비선형성이 강하고 같은 기호라도 가질 수 있는 형태가 다양하기 때문에 층의 깊이가 깊어야 높은 인식 정확도를 얻을 수 있다. 따라서 기존의 CNN구조에서 다운샘플링 목적으로 자주 사용되며 이미지의 크기를 점차 줄이는 pooling 레이어를 사용하지 않고, shortcut connection과 batch normalization을 특징으로 하는 residual network의 구조를 채택하였다. Shortcut connection(12)Fig. 3(4) 같이 여러 층을 건너 데이터를 전달하며 아주 작은 기울기나 큰 기울기가 거듭 곱해지면서 학습이 되지 않는 기울기 소실 혹은 기울기 폭발 문제를 해결하기에 용이하다. Batch normalization(13)은 마찬가지로 각 층에서의 데이터 분포가 학습에 적절한 분포로 수렴하도록 유도하는 요소이다.

Fig. 3

Shortcut connection


3. 학습 데이터 준비

3.1 데이터 설명

이 논문에서 수행한 실험의 분류 목표는 수기로 작성된 원형, 삼각형, 가위표, 공백의 네 종류 기호를 가지는 표 데이터이다. 인공지능 모델의 학습을 위해 각 기호를 가로 39개, 세로 49개의 칸을 갖는 표에 두 장씩 그려 각 기호마다 3822개씩 총 15 288개의 기호 데이터를 확보하였다. 확보한 데이터 중 일부를 Fig. 4에 나타내었다. 개발한 모델이 이미 존재하는 유용한 데이터베이스인 MNIST(14)의 수기 작성 숫자 데이터와 호환되도록 데이터 형식을 맞추어 칸 하나의 이미지 크기는 가로 28개 세로 28개 총 784개의 픽셀을 갖도록 하였고 픽셀 하나의 값은 흰색은 0.0으로, 검정색은 1.0으로 하여 그 사이의 값을 갖는 32 bit 부동소수점 회색조 이미지형식으로 설정하였다.

Fig. 4

Hand-written symbols of training set

3.2 데이터 증강

이 실험에서는 한정된 데이터를 이용하여 높은 정확도를 갖는 CNN 모델을 학습시키기 위해 앞에 설명한 수기로 제작된 데이터를 증강하여 사용하였다. 각 기호의 위치를 좌우로 조금씩 이동하여 만든 데이터도 같은 기호의 데이터이기 때문에 이를 학습 데이터에 추가하여 각 기호가 칸의 중앙에 정확하게 정렬되지 않은 실제의 검출 데이터에 대해서도 대응하도록 하여 검출 성능을 높이고자 하였다. 각 칸의 가로 혹은 세로 길이인 28픽셀을 기준으로 가로 0.2, 세로 0.3의 비율 이내에서 무작위로 이동하는 방법으로 원래 학습 데이터 개수의 2배의 데이터를 새로 생성하였다. 또한 실험에서 사용한 Fig. 4의 기호들(원형, 가위표, 삼각형, 공백)은 좌우로 반전하여도 같은 기호이기 때문에 좌우로 반전한 이미지 데이터도 학습 데이터에 추가하였다. 위의 과정을 거쳐 원래 15288개의 학습 데이터를 6배로 증강하여 총 91 728개의 데이터를 학습 데이터로 사용하였다. 설명한 데이터 증강 과정을 Fig. 5에 나타내었다. FCN의 경우에는 학습 데이터로 한 칸의 이미지가 아닌 표 이미지가 필요하므로 수기로 제작된 데이터를 무작위로 복원추출하여 가로 3개, 세로 4개씩 재배치하여 가로 84 픽셀, 세로 112픽셀의 표 이미지를 만들어 학습 데이터로 사용하였다.

Fig. 5

Data augmentation using affine transform

3.3 FCN 데이터 라벨링

FCN은 픽셀 단위로 이미지의 클래스를 분류하기 때문에 모델을 학습시킬 라벨데이터로 학습 이미지와 가로와 세로의 크기가 같은 행렬 형태의 데이터가 필요하다. 실험에서는 Fig. 4의 4종류 기호에 표의 경계선 등의 기타 여백부분을 하나의 클래스로 묶어 총 5종류의 클래스를 사용하였다. CNN 기반의 알고리듬은 convolution 연산의 필터에 의해 특정 픽셀을 분류할 때 주변 픽셀까지 고려하여 분류하므로 데이터 라벨링 방법에 따라 학습한 모델의 검출 성능이 크게 달라질 수 있다. 비교할 두 가지의 라벨링 방법을 Fig. 6(a)(b)에 나타내었다. 회색조의 학습 이미지에 원형은 청색, 삼각형은 노란색, 가위표는 적색, 공백은 녹색, 기타 여백 부분은 투명으로 생성한 라벨링 이미지를 겹쳐 보이게 하였다. Fig. 6(a)의 경우 색상을 가진 모든 픽셀의 주변 픽셀들도 기호가 그려진 영역에 해당하므로 분명하게 특정 기호로 분류될 수 있는 반면 Fig. 6(b)의 색상을 가진 픽셀의 가장자리 부분은 주변 픽셀이 기호를 포함하지 않은 여백에 해당할 수 있으며 이는 모든 기호에서 동일하기 때문에 딥러닝 모델에 혼돈을 줄 수 있다. 따라서 Fig. 6(a)의 라벨링 방법이 (b)의 라벨링 방법보다 좋은 검출 성능을 낼 것이라 예상 할 수 있으며 학습 결과를 Fig. 6(c)(d)에 비교하여 나타내었다. (d)의 경우 원의 가장자리 부분에 다른 색으로 분류된 픽셀이 많은 것을 확인할 수 있으며 학습하지 않은 데이터에 대하여 정확도가 96.2%로 (c)의 정확도 98.8% 보다 낮은 것을 확인하였다.

Fig. 6

Effect of labeling area on prediction


4. 실험 및 결과

4.1 CNN 및 FCN 구조 설계

실험에 사용한 CNN 모델의 구조는 Fig. 7과 같다. 28×28의 32bit 부동소수점 회색조 이미지 데이터를 입력으로 받아 총 10개의 convolution 층과 완전연결 계층을 지나 4종류의 클래스 중 하나로 분류한다. 8개의 convolution층은 8개의 residual block과 그 block 두 개를 지날 때 마다 데이터를 그대로 전달하여 더하는 skip connection으로 이루어져 있으며 각 block은 학습 안정화를 위한 batch normalization 층과 비선형함수 rectified linear unit (ReLU) 층, 그리고 하나의 convolution 층을 포함하고 있다. CNN 구조 마지막 단의 완전연결 계층을 1×1 convolution 층으로 바꾸어 만든 FCN 모델의 구조를 Fig. 8에 나타내었다. 픽셀별 예측의 위치 정확도를 높이기 위해 각 residual block의 뒤에서 데이터를 가져와 transposed convolution 연산 앞에 더하는 up-sampling 과정을 추가하여 예측 행렬의 해상도를 높였다. FCN 모델은 입력 이미지 크기에 구애받지 않으므로 표 이미지 전체 혹은 일부를 임의로 잘라내어 입력으로 줄 수 있다.

Fig. 7

CNN structure for cell content recognition

Fig. 8

FCN structure for table recognition

4.2 학습 결과

학습한 CNN 및 FCN 모델의 성능을 검증하기 위해 사용한 데이터는 Fig. 1과 같다. 발전기의 베어링 웨지 정비를 목적으로 수기로 작성된 점검표로 가로 33개, 세로 42개의 칸으로 이루어져 있고 각 칸은 원형, 삼각형, 가위표 중 하나를 포함하고 있다. 해당 데이터에 대한 검출 성능을 Table 1에 나타내었다. CNN 모델의 성능 확인을 위해 표 이미지에서 각 칸의 영역을 추출한 이미지 데이터를 순차적으로 검출한 결과, CNN 모델의 연산 시간만을 고려하였을 때 추론 시간 4.75초에 99.2%의 예측 정확도를 보였고, FCN 모델의 성능 확인을 위해서 다양한 크기의 이미지를 입력으로 받을 수 있는 FCN의 특성을 이용하여 표 전체를 하나의 이미지로 입력하여 한꺼번에 검출한 결과 추론 시간 0.132초에 97.7%의 예측 정확도를 보였다.

Performance of trained CNN and FCN

CNN 모델은 학습 데이터와 실험 데이터가 같은 크기와 형태를 갖기 때문에 FCN 모델보다 정확도가 높은 반면 FCN 모델은 병렬 처리에서 병목현상을 일으키는 각 칸을 순차적으로 검출하는 과정을 없앰으로써 CNN 모델 보다 검출 시간이 짧은 것을 확인할 수 있다. FCN 네트워크의 예측 결과로 나온 라벨 행렬을 컬러 이미지로 시각화하여 Fig. 9에 나타내었다. 확대한 부분을 보면 칸의 중심부분보다 가장자리에서 오분류율이 높은 것을 볼 수 있다. 각 칸의 기호는 해당 칸 영역에서 가장 많이 분류된 기호로 판정하였다.

Fig. 9

Label image superimposed onto input image

학습한 FCN 모델이 잘못 예측한 기호의 예시를 Fig. 10에 나타내었다. 각 픽셀별로 빨간색은 가위표, 노란색은 삼각형으로 분류되었음을 의미한다. 기호가 칸의 구석에 위치해 증강한 데이터의 범위에서 벗어나 있거나 필기를 바르지 못하게 하여 학습한 다른 기호와 유사하게 보이는 경우 오분류되는 것을 확인하였다. 다음으로 데이터 증강이 분류율 향상에 도움을 준 것으로 보이는 경우를 Fig. 11에 나타내었다. 오분류되는 기호에서 유사한 형상이 반복적으로 나타날 경우에는 이를 학습 데이터에 포함시키면 추론 성능이 향상될 것으로 보인다.

Fig. 10

Examples of misclassified cases

Fig. 11

Data augmentation improving performance


5. 결 론

이 논문에서는 표 이미지 형식으로 저장된 정비 자료 데이터를 전산화하는 방법을 CNN과 FCN 두 가지 방법으로 소개하였다. 수기로 작성한 학습 데이터를 이용하여 실제 베어링 웨지 정비 검사표로 시험한 결과 CNN모델은 추론 시간 4.75 초에 99.2%의 정확도를 보였고 FCN 모델은 추론 시간 0.132초에 97.7%의 정확도를 보였다. 두 가지 모델을 상황에 맞게 이용하면 축적된 표이미지 데이터를 전산화하여 데이터 기반의 인공지능 분야 등에서 유용하게 사용할 수 있을 것이라 기대한다.

Acknowledgments

이 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. 2020R1A2C1009744), 2019년도 정부(산업통상자원부)의 재원으로 한국산업기술진흥원의 지원을 받아 수행된 연구임(N0008691, 2019년 산업전문인력역량강화사업), 2019년도 산업통상자원부 및 산업기술평가관리원(KEIT) 연구비 지원에 의한 연구임(No. 10067766).

References

  • Son, D. H., Park, Y. J., Park, Y. S. and Jang, S. J., 2014, Building Korean Head-related Transfer Function Database, Transactions of the Korean Society for Noise and Vibration Engineering, Vol. 24, No. 4, pp. 282~288. [https://doi.org/10.5050/KSNVE.2014.24.4.282]
  • Deng, J., Dong, W., Socher, R., Li, L. J., Li, K. and Fei-Fei, L., 2009, ImageNet: A Large-scale Hierarchical Image Database, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 248~255. [https://doi.org/10.1109/CVPR.2009.5206848]
  • Xie, Q., Hovy, E., Luong, M. T. and Le, Q. V., 2019, Self-training with Noisy Student Improves ImageNet Classification, http://arxiv.org/abs/1911.04252, .
  • He, K., Zhang, X., Ren, S. and Sun, J., 2016, Deep Residual Learning for Image Recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770~778. [https://doi.org/10.1109/CVPR.2016.90]
  • Gatos, B., Danatsas, D., Pratikakis, I. and Perantonis, S. J., 2005, Automatic Table Detection in Document Images, Proceedings of the Third International Conference on Advances in Pattern Recognition, Part I, pp. 609~618. [https://doi.org/10.1007/11551188_67]
  • Seo, W. K., Koo, H. I., Lee, D. H., Kim, S. H. and Cho, N. I., 2013, Table Recognition Algorithm for Camera-Captured Document Images Based on Junction Detection and Labeling, Proceedings of the Korean Society of Broadcast Engineers Conference, pp. 263~266.
  • Kim, J. W., Yi, K. and Kim, K. M., 2016, Table Structure Recognition in Images for Newspaper Reader Application for the Blind, Journal of Korea Multimedia Society, Vol. 19, No. 11, pp. 1837~1851. [https://doi.org/10.9717/kmms.2016.19.11.1837]
  • Rashid, S. F., Akmal, A. Adnan, M., Aslam, A. A. and Dengel, A., 2017, Table Recognition in Heterogeneous Documents Using Machine Learning, Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition, pp. 777~782. [https://doi.org/10.1109/ICDAR.2017.132]
  • Paliwal, S. S., Vishwanath, D., Rahul, R., Sharma, M. and Vig, L., 2019, TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images, Proceedings of the International Conference on Document Analysis and Recognition, pp. 128~133. [https://doi.org/10.1109/ICDAR.2019.00029]
  • Zhong, X., ShafieiBavani, E. and Yepes, A. J., 2019, Image-based Table Recognition: Data, Model, and Evaluation, http://arxiv.org/abs/1911.10683.
  • Long, J., Shelhamer, E. and Darrell, T., 2015, Fully Convolutional Networks for Semantic Segmentation, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3431~3440. [https://doi.org/10.1109/CVPR.2015.7298965]
  • Bishop, C. M., 1995, Neural Networks for Pattern Recognition. Oxford University Press, New York. [https://doi.org/10.1201/9781420050646.ptb6]
  • Ioffe, S. and Szegedy, C., 2015, Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, http://arxiv.org/abs/1502.03167, .
  • LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P., 1998, Gradient-based Learning Applied to Document Recognition, Proceedings of the IEEE, Vol. 86, No. 11, pp. 2278~2324. [https://doi.org/10.1109/5.726791]

Kangsan Lee received a B.S. degree of M.E. from Soongsil University in 2019. He is now a graduate student at industrial AI Lab. of Pohang University of Science and Technology.

Juwon Na received a B.S. degree of M.E. from Soongsil University in 2019. He is now a graduate student at industrial AI Lab. of Pohang University of Science and Technology.

Seungchul Lee received a B.S. degree from Seoul National University in 2001. He then received his M.S. and Ph.D. degrees from the University of Michigan, Ann Arbor, USA, in 2008, and 2010, respectively. He was an assistant professor with the Ulsan National Institute of Science and Technology, South Korea. He is currently an assistant professor at the department of mechanical engineering at Pohang University of Science and Technology in Pohang, South Korea, since 2018. His research interests include industrial artificial intelligence with mechanical systems, deep learning for machine healthcare, and the IoT-based smart manufacturing.

Fig. 1

Fig. 1
Bearing wedge maintenance table data

Fig. 2

Fig. 2
FCN structure and convolutionalization

Fig. 3

Fig. 3
Shortcut connection

Fig. 4

Fig. 4
Hand-written symbols of training set

Fig. 5

Fig. 5
Data augmentation using affine transform

Fig. 6

Fig. 6
Effect of labeling area on prediction

Fig. 7

Fig. 7
CNN structure for cell content recognition

Fig. 8

Fig. 8
FCN structure for table recognition

Fig. 9

Fig. 9
Label image superimposed onto input image

Fig. 10

Fig. 10
Examples of misclassified cases

Fig. 11

Fig. 11
Data augmentation improving performance

Table 1

Performance of trained CNN and FCN

Time Accuracy
CNN 4.75 s 99.2 %
FCN 0.132 s 97.7 %