Python

python을 사용해서 Office에서 이미지 추출

민토즈 2023. 4. 6. 17:23
300x250

python을 사용해서 Office 문서에서 이미지를 추출하는 코드를 작성해보겠습니다. 

docx/pptx/xlsx를 기준으로 작성을 진행하며, doc/ppt/xls 파일은 이전 작성 글을 참조해서 변환하는 코드를 추가해서 

작성하시면 됩니다. 

https://incorea.tistory.com/152

import zipfile
import docx2txt

def unzip_xfile(file_path, save_path):
    with zipfile.ZipFile(file_path, 'r') as zip_ref:
        zip_ref.extractall(save_path)
        
def extract_images_from_pptx(file_path, save_path):
    unzip_xfile(file_path, save_path)
    return

def extract_images_from_xlsx(file_path, save_path):
    unzip_xfile(file_path, save_path)
    return
    
def extract_images_from_docx(file_path, save_path):
    docx2txt.process(file_path, save_path)
    return

1. pptx 파일로부터 unzip 후 media 폴더에서 이미지 추출 

2. xlsx 파일로부터 unzip 후 media 폴더에서 이미지 추출

3. docx 파일로부터 docx2txt.process 호출해서 이미지 추출 

4. docx 파일로부터 unzip 후 media 폴더에서 이미지 추출도 가능

 

docx/pptx/xlsx 포맷은 zip형태로 압축되어 있어서 확장자를 zip으로 rename처리 후 압축을 풀면 pptx 기준으로 

ppt폴더 하위에 media 폴더에서 저장된 이미지 파일들 확인할 수 있습니다. 

엑셀/워드 문서도 media  폴더에서 저장된 이미지 파일들을 추출할 수 있습니다. 

 

 

300x250