본문 바로가기

프로그래밍, 코딩

파이썬으로 네이버(naver) 주식 페이지 크롤링할 때 한글 깨짐 현상

반응형

파이썬으로 네이버(naver) 주식 페이지를 크롤링할 때, 코스피 페이지는 문제가 없는데, 코스닥 페이지는 한글 깨짐 현상이 발생한다.

 

 

< 네이버 주식 페이지 >

 

 

 

< 한글 깨짐 현상 >

 

 

 

검색해보니, euc-kr 을 디코딩해야 한다고 한다.

 

 

다른 글에는 euc-kr 을 디코딩하고 다시 utf-8로 인코딩해야 한다고 하는데, utf-8로 다시 인코딩할 필요는 없는 것 같다.

 

 

https://www.inflearn.com/questions/4466

 

네이버 주식 한글깨짐문제 - 인프런

 

www.inflearn.com

 

euc-kr 과 utf-8 에 대해서는 아래 링크 글 참조.

 

https://studyforus.tistory.com/167

 

한글 인코딩 종류 및 문제점 파악하기 (UTF-8 vs. EUC-KR)

인코딩 방식 이해하기 한글 인코딩 종류 윈도우를 기본 운영체제로 사용하였을 때는 전혀 느끼지 못했던 인코딩 방식이 웹서버를 운영하면서 인코딩 표준을 따라가다 보니 여러 문제점이 생겼�

studyforus.tistory.com

 

아래는 내가 적용한 코드다.

 

 

"html_text = html.decode('euc-kr')"

 

        req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
        
        html = urlopen(req).read()
        
        html_text = html.decode('euc-kr')
        
        soup = bs(html_text, 'html.parser')

 

 

반응형