Django에서 Scrapy 커스텀 익스텐션 사용하기

기본

Scrapy는 웹 크롤링을 쉽게 해주는 파인썬 라이브러리 입니다. 이 크롤러 라이브러리는 기본적으로 독립적인 프로젝트로 돌아가게끔 설계가 돼있지만 장고 모델을 사용해 크롤링 한 데이터를 저장할 수 있는 방법도 있고, 장고에서 스크래피를 실행시키는 방법도 문서에 잘 나와있습니다.

다음으로 에러났을 때 메일을 받고 싶어서 확장 포인트를 찾다가 custom extension을 작성하는 방법도 문서에서 찾았죠. 그런데 이걸 스크래피 기본 설정에서 어떻게 읽게 하는지에 대해선 관련 문서를 찾기가 어려웠습니다. (삽질의 시작..)

그래서 간단하게 정리해 보는 스크래피 커스텀 익스텐션 사용하기 3 스텝:
1. scrapy_setting.py 를 하나 작성합니다. 어떤 설정을 할 수 있는지에 대해 문서화가 잘 돼있습니다. 저는 덜렁 4줄..

BOT_NAME = 'zibit_spider'

SPIDER_MODULES = ['zibit.spiders']
EXTENSIONS = {
'zibit.spiders.extension.ReportError': 0,
}

2. 해당 설정 파일을 읽을 수 있도록 manage.py에 한 줄 추가.

os.environ['SCRAPY_SETTINGS_MODULE'] = 'zibit.scrapy_settings'

3. extension 작성. 작성 시 주의점은 스크래피가 기본적으로 APP_NAME/spiders/APP_NAME_spider.py 를 꼭 찾는다는 점입니다. 저처럼 삽질하지 마시고 왠만하면 저 패키지에 파일을 작성하세요. 어떤 시그널을 받을 수 있는지도 문서화가 잘돼있네요.

from scrapy import signals
import logging

logger = logging.getLogger(__name__)

class ReportError(object):

def __init__(self, crawler):
self.crawler = crawler
crawler.signals.connect(self.spider_opened, signal=signals.spider_opened)
crawler.signals.connect(self.report_error, signal=signals.spider_error)
crawler.signals.connect(self.spider_closed, signal=signals.spider_closed)

@classmethod
def from_crawler(cls, crawler):
return cls(crawler)

def report_error(self, failure, response, spider):
logger.debug('spider error!!')
logger.error('error message: ' + failure.getErrorMessage())
logger.error('traceback: ' + failure.getTraceback())

def spider_opened(self, spider):
logger.debug('spider opened!!')

def spider_closed(self, spider):
logger.debug('spider closed!!')

signals.connect 부분만 설정해 주면 콜백이 들어오더라고요. 굿.

스크래피 익스텐션 테스트

반응형 웹 개발할 때 레이아웃 px과 이미지 크기

기본

사이트를 반응형으로 개편하면서 한가지 궁금한 점이 생겼습니다. 맥의 레티나 디스플레이나 요새 모바일은 물리적인 화면은 작아도 해상도는 2배-3배인 경우가 있기 때문에 미디어 쿼리의 max-width < 760px 같은 수식이 정말 모바일을 구별 할 수 있을까? 하는 점이죠.

원리는 의의로 간단했습니다. 안드로이드의 dp 개념처럼 웹브라우저도 density 값을 가지고 해상도 / density를 한 값을 미디어 쿼리가 사용합니다. 그래서 해상도가 높아도 모바일과 데스크탑을 구분하는게 가능합니다.

http://uhb.kr/book/wiki/rwd/resolution/

위 사이트에서 브라우저가 계산하는 실제 해상도 크기를 볼 수 있죠.

정리해보면 density가 1인 모니터에서 작업을 할 때 디자인 가이드라인의 px 값은 그대로 사용하고(desity가 다른 환경에서도 동일한 크기로 보여질 테니 말이죠.) 이미지들은 2배-3배 크기가 따로 필요합니다. (아니면 density가 높은 환경에서 이미지를 늘여서 표시해야 하니까요.)

postMessage를 이용한 크로스도메인간 iframe 리사이징

기본

회사에서 외주를 주고 있는 사이트가 변경돼서, <iframe>으로 해당 사이트를 임베드 해야하는 이슈가 있었습니다. <iframe> 해서 추가하는 거야 일도 아닌데 포함시킬려는 페이지의 사이즈에 맞게 사이즈를 조절해 줘야 하더군요.

바꾸기 전에는 같은 도메인이었기 때문에 iframe 안에서 부모쪽의 함수를 호출하면 되는 부분이었는데 도메인이 아예 달라져서 이렇게 호출하려고 하면 크로스도메인 관련 오류가 떨어집니다.

이 문제를 해결하기 위해 몇 가지 트릭이 존재하는데 그 중에서 제가 찾은 가장 모던한 방법은 window.postMessage를 사용하는 겁니다.

일반적으로 서로 다른 페이지의 스크립트가 통신하기 위해선 프로토콜, 포트, 호스트(도메인)가 같아야만 가능한데 window.postMessage는 이런 제약들을 우회할 수 있다고 합니다. 그러면 보안이 문제가 될 수도 있는데 이게 다른 페이지의 메소드를 호출하는건 아니고 한쪽에선 메시지를 보내고 다른쪽에서 그 메시지를 처리하는 일종의 이벤트 이고 받는 쪽도 origin을 지정할 수 있기 때문에 보안에 큰 문제는 없어 보입니다. (단, jQuery postMessage 플러그인을 사용할 경우 window.postMessage를 지원하지 않는 브라우저에서는 origin이 무시됩니다.)

문제는 IE 8+ 부터 지원한다는 건데 다행히 jQuery postMessage 플러그인을 사용하면 IE6도 커버가 됩니다. 코드도 간단합니다. ajax 요청과 크게 다르지 않네요. window.postMessage를 지원하지 않는 경우엔 window.location에 해시(#)를 붙여 메시지를 보내고 window.location.hash 값을 모니터링하는 식으로 처리합니다. 기발하네요.

톰캣 필터 순서 조심해야지

기본

뷰와 서버단 모두 UTF-8인 환경에서 GET 방식으로 넘긴 한글 파라미터가 깨져서 몇 시간 동안 삽질 했습니다 -_-;

tomcat 6에는 useBodyEncoding=”ture” 세팅이 돼있어서 처음엔 URIEncoding 속성이 없어서 그러나 싶었는데, 기본으로 사용하는 필터에서 request 객체에 UTF-8로 세팅을 해주니 이건 상관 없죠. 계속 신경쓰였던 부분은 리얼 환경에선 제대로 되는데 유독 개발 환경에서만 한글이 깨진다는 거였습니다. 피들러로 살펴봐도 헤더부터 파라미터까지 똑같고..

결국 파트장님이랑 톰캣 디버깅 하다가 겨우 원인 발견!

제가 추가한 필터 순서 때문이었네요. request 객체에 인코딩 세팅 해주는 필터보다 일찍 타서 파라미터가 깨졌던 거죠. 톰캣은 useBodyEncoding 속성이 true면 요청 헤더에서 인코딩 정보를 가져오게 되는데 jQuery의 getJSON() 요청에 관련 헤더가 없었습니다. 이 경우 URIEncoding 속성이 있으면 여기에 세팅된 값으로 인코딩이 될텐데 이 속성도 없었던 터라 결국 톰캣 기본 인코딩인 ISO-8859-1을 사용!

리모트 디버깅에 톰캣 소스도 까보고 알찬 하루였네요 ㅋ

최근 프로젝트 진행하며 사용한 유용한 jQuery 플러그인

기본

1. jQuery Placeholder

HTML5에 등장한 속성인 placeholder는 폼에 디폴트 문구를 표시할 수 있어 매우 유용합니다만.. IE에서 제대로 보여주지 못하는 치명적인 단점이 있습니다. 이를 보완할 수 있는 jQuery 플러그인! 사용법도 상당히 쉽습니다. placeholder 속성에 원하는 기본 문구를 작성한 후.. placeholder()를 뙇!

$("input").placeholder();
<input type="text" placeholder="Foobar"/>

2. jQuery Create Event

live() 함수가 deprecated 되긴 했지만.. 프로젝트에서 1.4.x 버전을 사용하기 때문에 별 고민 없이 사용한 플러그인 입니다. 이 플러그인은 live() 함수에서 “create” 이벤트(DOM에 새로 엘리먼트가 추가된 경우)를 감지할 수 있게 합니다.

$("someDiv").live("create", function(...));

Ajax로 서버에서 데이터를 받아온 후, 특정 부분이 업데이트 됐을 경우 어떤 행동을 해야한다면 이 플러그인을 써보세요.

3. jQuery Data Selector

jQuery API 중에 해당 DOM에 객체를 저장할 수 있는 data() 함수가 있습니다. 간단하게 key/value로 이루어져 있는데요. jQuery Data Selector 플러그인은 jQuery 셀렉터에 data()로 저장한 key/value를 검색할 수 있게끔 확장해 줍니다.

$(function(){
    // Attach data to the 2nd li
    $('#dataSelector li').eq(1).data('foo', 'bar');
    // Change the color of the li whose foo key is == bar
    $('#dataSelector li:data(foo=bar)').css('color', 'red');
});

4. jQuery Wordcount

트위터 글 입력 폼 같이 사용자가 몇 글자 입력했는지 알아보려고 textarea를 만든 다음에 keyup, keydown, keypress 같은 이벤트를 걸고 크로스브라우징 테스트를 해보면 특정 브라우저에서 생각대로 잘 동작하지 않습니다. 아쉬운 일이지만 브라우저에서 한글 키 입력 이벤트를 제대로 처리하지 못하기 때문인데요. 이를 보완하기 위해 타이머 이벤트로 특정 시간 마다 글자 수를 체크해서 업데이트 하는 플러그인을 만들어 봤습니다. 처음으로 만든 jQuery 플러그인이네요 ㅋ

사용법은 나름 간단합니다:

$("textarea").wordcount({
    countElement: $("span")
});
이번 프로젝트 진행하면서 만든 플러그인이 하나 더 있었네요! 두 번째 플러그인이군요. 이 플러그인은 jQuery UI Datepicker 예제에 나와있는 날짜 범위 선택을 재사용 하기 쉽게 만든 플러그인 입니다. 소소한 제한사항이 있으니 코드에 있는 주석을 꼭 읽어보세요.
사용법은 이런식입니다:
$("#from, #to").datepickerRange();
자매품으로 class 셀렉터를 사용할 수도 있습니다:
$(".from, .to").datepickerRange({
    dateFormat: "yy-mm-dd"
});
혹시 사용하다가 이상한 점을 발견하시면 이슈 등록 부탁드려요! (이 포스팅의 목적)

UTF-8에서 한글 바이트 크기

기본

회사에서 사용하는 오라클 DB에서 컬럼 제약이 VARCHAR2 300byte로 돼있었습니다. 저는 별 생각없이 한글 150자를 입력하고 테스트를 했는데 계속 실패. 이상하다 싶어서 글자 수를 줄이다가 결국 100글자에서 입력되는 걸 보고선 구글링을 하다가 UTF-8 바이트 크기라는 포스트를 발견했습니다.

아.. 한글은 3byte 구나. 팀 분이 말씀하시길 한글이 4byte인 경우도 있을거라고 하시더군요.

Textarea 한글 글자 수 카운팅 제대로하기

기본

추측컨데 한글이 조합형이라 발생하는 문제 같습니다.

어떤 문제냐면 textarea 글자 수 카운팅을 할 때, keydown, keyup, change 등등의 이벤트 핸들러를 바인딩 해놔도 한글을 입력하면 카운트가 제대로 업데이트 되질 않습니다. 몇몇 jQuery 플러그인이나 JavaScript 구현된 것을 구글링 해봤는데 코드는 대동소이하더라구요. 문제도 여전히 발생하고. 사실 영어는 문제 발생하지 않으니 아마 고려하지 않았을겁니다.

이 문제를 해결한 곳이 두 군데 있는데 하나는 미투데이고 다른 하나는 트위터입니다. 미투 같은 경우엔 focus가 발생했을 때, setInterval() 함수를 이용해 업데이트를 시작하고 다시 blur()가 되면 setInterval()을 해지시키는 식으로 구현했습니다. 물론, 좀 비효율적이긴 하지만 이렇게 안하면 어떻게 구현하나 싶기도 하네요.

트위터는 어떤식으로 구현하는지 아직 살펴보지 못했는데 한 번 확인해 봐야겠네요.

js 구현체 Github 링크