한국어 OCR를 위한 tfrecord 생성 (FSNS-tfrecord-generate)

Deep Learning

한국어 OCR를 위한 tfrecord 생성 (FSNS-tfrecord-generate)

민토즈 2021. 1. 4. 18:12

1) 구글 Attention OCR에 적용하기 위해서 한글이 적용된 FSNS 포맷의 tfrecord를 만들어 보겠습니다.

중국어 기반으로 github에 소스와 관련 자료가 있어서 사용을 했습니다.

출처: github.com/A-bone1/FSNS-tfrecord-generate

A-bone1/FSNS-tfrecord-generate

FSNS tfrecord generate. Contribute to A-bone1/FSNS-tfrecord-generate development by creating an account on GitHub.

github.com

2) 첫 번째 단계는 텍스트 레이블과 일치하는 dictionary 파일을 생성합니다.

github.com/A-bone1/FSNS-tfrecord-generate/blob/master/dic.txt

링크의 형식처럼 한글, 숫자 및 특수문자 등을 추가합니다.

1 가

2 갸

3 거

4 기

...

50 네

51 이

52 클

53 바

100 !

101 @

103 #

....

200 <nul>

3) 이미지와 이미지가 포함하고 있는 레이블을 data 폴더 밑에 저장합니다.

1.jpg

1.txt

2.jpg

2.txt

....

[출처:https://clova.ai/handwriting/list.html]

1.txt파일에는 "네이버 클로바와 함께하는"이 저장되어 있습니다. ""은 빼고 저장합니다.

학습을 위한 충분한 데이터를 확보하고 각 이미지 파일에 대한 레이블을 동일한 이름의 텍스트 파일로 저장합니다.

4) python generate_tfrecord_JPG.py 또는 python generate_tfrecord_PNG.py로 tfrecord를 생성합니다.

생성 전에 python 파일 내에 파라미터를 자신의 입력에 맡게 수정합니다. length는 최대 글자 길이를 지정하고,

예) null_char_id는 200으로 지정했으며, dict.txt 파일의 200번으로 <nul>값이 지정

이미지 사이즈는 입력에 맞게 조정을 하면 됩니다.

저작자표시 비영리 (새창열림)

'Deep Learning' 카테고리의 다른 글

annotation tool roLabelImg 설치 (pyqt5) (0)	2021.01.08
Attention OCR Korean Version (0)	2020.12.31
Data Augmentation(데이터 증강)을 위한 Image Processing(영상처리) (0)	2020.10.12
Jupyter notebook 원격으로 사용하기 (0)	2020.10.07
미분 계산기 (Derivative Calculator) (0)	2019.07.02

현재글한국어 OCR를 위한 tfrecord 생성 (FSNS-tfrecord-generate)

대한항공 #마일리지 #포인트 #전환, python #office #word #excel #pptx #포맷변환, python #office #word #excel #ppt #이미지 추출 #Office 문서로부터 이미지 추출, 더고운스타일, SK이노베이션 #SK온, 파나소닉 #양극재, 아시아나마일리지 #마일리지 #마일리지전환 #마일리지적립 #아시아나, 일본배대지, 상테크 #해피머니 #북앤라이프 #컬쳐랜드 #문화상품권 #상품권, 일본직구, 현아플 #아멕스 #힐튼골드 #메리어트골드, 해피머니 #상품권 #페이코 #상테크 #충전 #전환 #현금화, 환율 #달러투자 #엔화투자 #환차익, 금선물 #금 #Godl, 아시아나마일리지 #적립 #상테크 #페이북머니 #실적, SK이노베이션 #SOIL,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

K