Deep Learning

한국어 OCR를 위한 tfrecord 생성 (FSNS-tfrecord-generate)

민토즈 2021. 1. 4. 18:12
300x250

1) 구글 Attention OCR에 적용하기 위해서 한글이 적용된 FSNS 포맷의 tfrecord를 만들어 보겠습니다.

중국어 기반으로 github에 소스와 관련 자료가 있어서 사용을 했습니다.

출처: github.com/A-bone1/FSNS-tfrecord-generate

 

A-bone1/FSNS-tfrecord-generate

FSNS tfrecord generate. Contribute to A-bone1/FSNS-tfrecord-generate development by creating an account on GitHub.

github.com

2) 첫 번째 단계는 텍스트 레이블과 일치하는 dictionary 파일을 생성합니다. 

github.com/A-bone1/FSNS-tfrecord-generate/blob/master/dic.txt

링크의 형식처럼 한글, 숫자 및 특수문자 등을 추가합니다.

 

1     가

2     갸

3     거

4     기

...

50   네

51   이

52   클

53   바

..

100   !

101  @

103  #

....

200 <nul>

3) 이미지와 이미지가 포함하고 있는 레이블을 data 폴더 밑에 저장합니다. 

1.jpg

1.txt

2.jpg

2.txt

....

[출처:https://clova.ai/handwriting/list.html]

1.txt파일에는 "네이버 클로바와 함께하는"이 저장되어 있습니다. ""은 빼고 저장합니다. 

학습을 위한 충분한 데이터를 확보하고 각 이미지 파일에 대한 레이블을 동일한 이름의 텍스트 파일로 저장합니다.

 

4) python generate_tfrecord_JPG.py 또는 python generate_tfrecord_PNG.py로  tfrecord를 생성합니다.

생성 전에 python 파일 내에 파라미터를 자신의 입력에 맡게 수정합니다. length는 최대 글자 길이를 지정하고,

예) null_char_id는 200으로 지정했으며, dict.txt 파일의 200번으로 <nul>값이 지정

이미지 사이즈는 입력에 맞게 조정을 하면 됩니다.

 

300x250