Breaking CAPTCHA for Intelligence RPA
CAPTCHA를 무력화해서 Intelligence RPA를 구현하도록 하는 프로젝트이다.
-
DATA
CAPTCHA 이미지를 Python Library로 생성 -
Image_preprocessing
Dillation, Close연산으로 선, 점의 노이즈를 제거해준다.
-
Modeling
CRNN + CTC Layer 모델 사용
Vanilla CAPTCHA Image와 Preprocessed CAPTCHA Image 두 가지 데이터를 모델에 적용 -
Model_Test
2,000개의 CAPTCHA 이미지를 추가로 생성
Tesseract-OCR, CRNN+CTC Layer 모델로 결과를 비교
- Tesseract-OCR
!pip install pytesseract
import pytesseract
# pytesseract 환경변수 설정 필요
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'
# 사용법
pytesseract.image_to_string(image,config='--psm 6 oem 3, lang=eng)
- Generate CAPTCHA Image
!pip install captcha
from captcha.image import ImageCaptcha