반응형
파이썬으로 네이버(naver) 주식 페이지를 크롤링할 때, 코스피 페이지는 문제가 없는데, 코스닥 페이지는 한글 깨짐 현상이 발생한다.
< 네이버 주식 페이지 >
< 한글 깨짐 현상 >
검색해보니, euc-kr 을 디코딩해야 한다고 한다.
다른 글에는 euc-kr 을 디코딩하고 다시 utf-8로 인코딩해야 한다고 하는데, utf-8로 다시 인코딩할 필요는 없는 것 같다.
https://www.inflearn.com/questions/4466
euc-kr 과 utf-8 에 대해서는 아래 링크 글 참조.
https://studyforus.tistory.com/167
아래는 내가 적용한 코드다.
"html_text = html.decode('euc-kr')"
req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
html = urlopen(req).read()
html_text = html.decode('euc-kr')
soup = bs(html_text, 'html.parser')
반응형