[Python Crawling] - 네이버 실검 크롤링 #1

[Python Crawling] - 네이버 실검 크롤링 #1

2020. 2. 27. 19:15ㆍPython/Crawling

현재 네이버 실시간 검색어 크롤링 방법이 달라졌다.

유튜브, 블로그 등에 많은 예제가 있지만 현재는 네이버 실시간 검색어가 동적으로 정보를 받게 바뀌어서

기존 예제들로 실시간 검색어를 받아올 수 없게 되었다.

가볍게 실시간 검색어 크롤링을 해봐야지~ 했었는데 이리저리 서칭 하면서 알아봐야 했다.

그러던 중 찾게 된 인프런 사이트의 글

https://www.inflearn.com/questions/21894

실전 크롤링과 강력한 크롤링 기술 팁2: 네이버 사이트 크롤링 강의중 질문이 있습니다. - 인프런

질문 - 실전 크롤링과 강력한 크롤링 기술 팁2: 네이버 사이트 크롤링 강의중 질문이 있습니다. 네이버 사이트 급상승 검색어 키워드를 하던중 수업의 내용을 따라 코드를 작성해 보니... 아무런 검색이 되지 않아 질문드립니다 ㅠㅠ 참고로 pdf에 있는 크롤링 코드로도 해보았지만...아무런 값이 출력되지 않습니다 ㅠ 확인 부탁드리겠습니다!답변 - 저도 윗분과 같은 상황입니다. 네이버 홈페이지 소스 보기에서 찾아봤는데 실시간 관련 소스는 부분이 전부입니다.안녕

www.inflearn.com

나와 비슷한 오류로 고생하고 있었다...

해법은

1. 네이버 메인 페이지가 아닌 실시간 검색어를 관리하는 곳에서 크롤링하는 것

2. 그리고 '유저 정보'를 설정하여 '사람' 임을 알려주는 것

관련링크)

크롤링) 접속 차단되었을때 User-Agent지정(header)

뭐야? 너 컴퓨터야? 그럼 들어오지마 !!!파이썬 크롤링을 진행하시다가, 이상하게... 아무 이유없이 진...

blog.naver.com

이리저리 해서 방법을 얻게 되어 작성한

네이버 실시간 검색어 크롤링이다.

	# python에서 HTTP 요청을 보내는 모듈
	import requests
	# bs4 라 불리는 html 분석 라이브러리
	from bs4 import BeautifulSoup

	# 유저 설정
	headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}

	# 네이버 메인이 아닌 DataLab 페이지
	url = 'https://datalab.naver.com/keyword/realtimeList.naver?where=main'

	# User 설정
	res = requests.get(url, headers = headers)

	# res.content 주의
	soup = BeautifulSoup(res.content, 'html.parser')

	# span.item_title 정보를 선택
	data = soup.select('span.item_title')

	# for 문으로 출력해준다.
	for item in data:
	print(item.get_text())

view raw naverCrawling.py hosted with ❤ by GitHub

코드에서 몇 가지만 설정하자면,

1. 유저 설정 부분

헤더의 유저 정보를 설정하는 부분에 들어간 저건 뭔가요? 물으신다면

http://www.useragentstring.com/

UserAgentString.com - unknown version

www.useragentstring.com

요 사이트 상단 부분에 있는

이걸 그대로 복사하면 된다.

2. BeautifulSoup 부분

BeautifulSoup(res, 'html.parser')의 형태가 강좌에 많이 나와있는데

content라는 키워드? 를 붙여줘야 된다.

검색해보니 Response 데이터를 바이트로 리턴하는 속성이라고 한다.

결과

간단하게 시작하려 했던 파이썬이었는데... 이리저리 서칭 해보느라 시간이 많이 지나갔다.

그래도 User 정보를 입력해서 속성을 변환? 해주는 방법은 차후에도 많이 쓰일 수 있을 거 같아서 알아두면 좋을 거 같다.

저작자표시 (새창열림)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

태그

최근글

댓글

공지사항

아카이브

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역