NewsBlur-viq/apps/rss_feeds/importer.py

import socket
socket.setdefaulttimeout(2)
import urllib2
import re
import urlparse
import multiprocessing
import traceback
from apps.rss_feeds.models import FeedPage

class PageImporter(object):
    
    def __init__(self, url, feed):
        self.url = url
        self.feed = feed
        self.lock = multiprocessing.Lock()
    
    def fetch_page(self):
        if not self.url:
            return
        
        try:
            request = urllib2.Request(self.url)
            response = urllib2.urlopen(request)
            data = response.read()
            html = self.rewrite_page(data)
            self.save_page(html)
        except urllib2.HTTPError, e:
            print "HTTP Error: %s" % e
            self.feed.save_page_history(e.code, e.msg, e.fp.read())
            return
        except Exception, e:
            print '[%d] ! -------------------------' % (self.feed.id,)
            tb = traceback.format_exc()
            print tb
            print '[%d] ! -------------------------' % (self.feed.id,)
            self.feed.save_page_history(500, "Error", tb)
            return
        
        self.feed.save_page_history(200, "OK")
    
    def rewrite_page(self, response):
        BASE_RE = re.compile(r'<head(.*?\>)', re.I)
        base_code = u'<base href="%s" />' % (self.feed.feed_link,)
        try:
            html = BASE_RE.sub(r'<head\1 '+base_code, response)
        except:
            response = response.decode('latin1').encode('utf-8')
            html = BASE_RE.sub(r'<head\1 '+base_code, response)
        
        # html = self.fix_urls(html)
        
        return html.strip()

    def fix_urls(self, document):
        # BEWARE: This will rewrite URLs inside of <script> tags. You know, like
        # Google Analytics. Ugh.
        
        FIND_RE = re.compile(r'\b(href|src)\s*=\s*("[^"]*"|\'[^\']*\'|[^"\'<>=\s]+)')
        ret = []
        last_end = 0
        
        for match in FIND_RE.finditer(document):
            url = match.group(2)
            if url[0] in "\"'":
                url = url.strip(url[0])
            parsed = urlparse.urlparse(url)
            if parsed.scheme == parsed.netloc == '': #relative to domain
                url = urlparse.urljoin(self.feed.feed_link, url)
                ret.append(document[last_end:match.start(2)])
                ret.append('"%s"' % (url,))
                last_end = match.end(2)
        ret.append(document[last_end:])
        
        return ''.join(ret)
        
    def save_page(self, html):
        if html and len(html) > 100:
            feed_page, _ = FeedPage.objects.get_or_create(feed=self.feed)
            feed_page.page_data = html
            feed_page.save()
Fixing broken Last Modified Date bug which causes all stories to be discarded. 2010-07-08 01:07:37 -04:00			`import socket`
			`socket.setdefaulttimeout(2)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`import urllib2`
			`import re`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`import urlparse`
Adding semaphore locks on all mysql db requests in threads/processes. 2009-09-16 02:34:04 +00:00			`import multiprocessing`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00			`import traceback`
Migrating page_data to its own table so as to not slow down the feeds table. 2010-06-27 21:03:29 -04:00			`from apps.rss_feeds.models import FeedPage`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
			`class PageImporter(object):`

			`def __init__(self, url, feed):`
			`self.url = url`
			`self.feed = feed`
Adding semaphore locks on all mysql db requests in threads/processes. 2009-09-16 02:34:04 +00:00			`self.lock = multiprocessing.Lock()`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
			`def fetch_page(self):`
Additional instrumentation on feed fetching, parsing, and importing. 2010-07-06 18:16:41 -04:00			`if not self.url:`
			`return`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00
			`try:`
			`request = urllib2.Request(self.url)`
			`response = urllib2.urlopen(request)`
			`data = response.read()`
			`html = self.rewrite_page(data)`
			`self.save_page(html)`
			`except urllib2.HTTPError, e:`
			`print "HTTP Error: %s" % e`
			`self.feed.save_page_history(e.code, e.msg, e.fp.read())`
			`return`
			`except Exception, e:`
			`print '[%d] ! -------------------------' % (self.feed.id,)`
			`tb = traceback.format_exc()`
			`print tb`
			`print '[%d] ! -------------------------' % (self.feed.id,)`
			`self.feed.save_page_history(500, "Error", tb)`
			`return`

			`self.feed.save_page_history(200, "OK")`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
			`def rewrite_page(self, response):`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`BASE_RE = re.compile(r'<head(.*?\>)', re.I)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`base_code = u'<base href="%s" />' % (self.feed.feed_link,)`
			`try:`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`html = BASE_RE.sub(r'<head\1 '+base_code, response)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`except:`
			`response = response.decode('latin1').encode('utf-8')`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`html = BASE_RE.sub(r'<head\1 '+base_code, response)`

			`# html = self.fix_urls(html)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
Adding a feed punishment for slow feeds. Slow feeds get updated less often. 2010-06-24 15:27:25 -04:00			`return html.strip()`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00
			`def fix_urls(self, document):`
			`# BEWARE: This will rewrite URLs inside of <script> tags. You know, like`
			`# Google Analytics. Ugh.`

			`FIND_RE = re.compile(r'\b(href\|src)\s=\s("[^"]"\|\'[^\']\'\|[^"\'<>=\s]+)')`
			`ret = []`
			`last_end = 0`

			`for match in FIND_RE.finditer(document):`
			`url = match.group(2)`
			`if url[0] in "\"'":`
			`url = url.strip(url[0])`
			`parsed = urlparse.urlparse(url)`
			`if parsed.scheme == parsed.netloc == '': #relative to domain`
			`url = urlparse.urljoin(self.feed.feed_link, url)`
			`ret.append(document[last_end:match.start(2)])`
			`ret.append('"%s"' % (url,))`
			`last_end = match.end(2)`
			`ret.append(document[last_end:])`

			`return ''.join(ret)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
			`def save_page(self, html):`
Prevent blank original sites from being saved. 2010-06-24 16:31:38 -04:00			`if html and len(html) > 100:`
Migrating page_data to its own table so as to not slow down the feeds table. 2010-06-27 21:03:29 -04:00			`feed_page, _ = FeedPage.objects.get_or_create(feed=self.feed)`
			`feed_page.page_data = html`
Removing unnecessary cruft above the page importer. 2010-07-01 17:33:58 -04:00			`feed_page.save()`