NewsBlur-viq/apps/rss_feeds/page_importer.py

import requests
import re
import urlparse
import traceback
import feedparser
import time
import urllib2
import httplib
from requests.models import ConnectionError
from django.conf import settings
from utils import log as logging
from apps.rss_feeds.models import MFeedPage
from utils.feed_functions import timelimit, mail_feed_error_to_admin

BROKEN_PAGES = [
    'tag:', 
    'info:', 
    'uuid:', 
    'urn:', 
    '[]',
]

class PageImporter(object):
    
    def __init__(self, feed):
        self.feed = feed
        
    @property
    def headers(self):
        s = requests.session()
        s.config['keep_alive'] = False
        return {
            'User-Agent': 'NewsBlur Page Fetcher (%s subscriber%s) - %s '
                          '(Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_1) '
                          'AppleWebKit/534.48.3 (KHTML, like Gecko) Version/5.1 '
                          'Safari/534.48.3)' % (
                self.feed.num_subscribers,
                's' if self.feed.num_subscribers != 1 else '',
                settings.NEWSBLUR_URL
            ),
            'Connection': 'close',
        }
    
    @timelimit(15)
    def fetch_page(self, urllib_fallback=False):
        feed_link = self.feed.feed_link
        if not feed_link:
            self.save_no_page()
            return
        
        try:
            if feed_link.startswith('www'):
                self.feed.feed_link = 'http://' + feed_link
            if feed_link.startswith('http'):
                if urllib_fallback:
                    request = urllib2.Request(feed_link, headers=self.headers)
                    response = urllib2.urlopen(request)
                    time.sleep(0.01) # Grrr, GIL.
                    data = response.read()
                else:
                    response = requests.get(feed_link, headers=self.headers)
                    data = response.content
            elif any(feed_link.startswith(s) for s in BROKEN_PAGES):
                self.save_no_page()
                return
            else:
                data = open(feed_link, 'r').read()
            html = self.rewrite_page(data)
            self.save_page(html)
        except (ValueError, urllib2.URLError, httplib.BadStatusLine, httplib.InvalidURL), e:
            self.feed.save_page_history(401, "Bad URL", e)
            fp = feedparser.parse(self.feed.feed_address)
            feed_link = fp.feed.get('link', "")
            self.feed.save()
        except (urllib2.HTTPError), e:
            self.feed.save_page_history(e.code, e.msg, e.fp.read())
        except (httplib.IncompleteRead), e:
            self.feed.save_page_history(500, "IncompleteRead", e)
        except Exception, e:
            logging.debug('[%d] ! -------------------------' % (self.feed.id,))
            tb = traceback.format_exc()
            logging.debug(tb)
            logging.debug('[%d] ! -------------------------' % (self.feed.id,))
            self.feed.save_page_history(500, "Error", tb)
            mail_feed_error_to_admin(self.feed, e, locals())
            self.fetch_page(urllib_fallback=True)
        else:
            self.feed.save_page_history(200, "OK")

    def save_no_page(self):
        self.feed.has_page = False
        self.feed.save()
        self.feed.save_page_history(404, "Feed has no original page.")

    def rewrite_page(self, response):
        BASE_RE = re.compile(r'<head(.*?\>)', re.I)
        base_code = u'<base href="%s" />' % (self.feed.feed_link,)
        try:
            html = BASE_RE.sub(r'<head\1 '+base_code, response)
        except:
            response = response.decode('latin1').encode('utf-8')
            html = BASE_RE.sub(r'<head\1 '+base_code, response)
        
        if '<base href' not in html:
            html = "%s %s" % (base_code, html)
        
        # html = self.fix_urls(html)
        
        return html.strip()

    def fix_urls(self, document):
        # BEWARE: This will rewrite URLs inside of <script> tags. You know, like
        # Google Analytics. Ugh.
        
        FIND_RE = re.compile(r'\b(href|src)\s*=\s*("[^"]*"|\'[^\']*\'|[^"\'<>=\s]+)')
        ret = []
        last_end = 0
        
        for match in FIND_RE.finditer(document):
            url = match.group(2)
            if url[0] in "\"'":
                url = url.strip(url[0])
            parsed = urlparse.urlparse(url)
            if parsed.scheme == parsed.netloc == '': #relative to domain
                url = urlparse.urljoin(self.feed.feed_link, url)
                ret.append(document[last_end:match.start(2)])
                ret.append('"%s"' % (url,))
                last_end = match.end(2)
        ret.append(document[last_end:])
        
        return ''.join(ret)
        
    def save_page(self, html):
        if html and len(html) > 100:
            feed_page, _ = MFeedPage.objects.get_or_create(feed_id=self.feed.pk)
            feed_page.page_data = html
            feed_page.save()
Revert "Revert "Switching to requests from urllib2/httplib. Bring on the page errors."" This reverts commit a827b2c86406f1ed485e24845fada4fa831bf720. 2011-11-27 02:41:12 -05:00			`import requests`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`import re`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`import urlparse`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00			`import traceback`
Fixing bad page URLs to use the feed fetcher to find the correct address. 2010-07-21 11:38:33 -04:00			`import feedparser`
Fixing a few issues here and there around feed fetching. 2011-08-27 14:13:28 -07:00			`import time`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`import urllib2`
			`import httplib`
			`from requests.models import ConnectionError`
Revert "Revert "Switching to requests from urllib2/httplib. Bring on the page errors."" This reverts commit a827b2c86406f1ed485e24845fada4fa831bf720. 2011-11-27 02:41:12 -05:00			`from django.conf import settings`
Adding logging in many other places. 2010-08-16 15:45:35 -04:00			`from utils import log as logging`
Moving feed_pages from PostgreSQL to Mongo. Adding compression. 2010-08-29 12:35:09 -04:00			`from apps.rss_feeds.models import MFeedPage`
Fixing a whole lot of feed fetch bugs. 2011-02-15 21:08:40 -05:00			`from utils.feed_functions import timelimit, mail_feed_error_to_admin`
Cleaning up logging, adding several errors and timeout checks on page and icon fetching. Standardizing fetcher headers. 2011-01-29 22:01:09 -05:00
Better error handling around broken feed pages. 2011-09-04 14:47:47 -07:00			`BROKEN_PAGES = [`
			`'tag:',`
			`'info:',`
			`'uuid:',`
Fixing issue around broken pages that have urn:uuid: in their URL. WTF, Google? 2011-09-07 22:35:03 -07:00			`'urn:',`
Better error handling around broken feed pages. 2011-09-04 14:47:47 -07:00			`'[]',`
			`]`

Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`class PageImporter(object):`

Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`def __init__(self, feed):`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`self.feed = feed`
Revert "Revert "Switching to requests from urllib2/httplib. Bring on the page errors."" This reverts commit a827b2c86406f1ed485e24845fada4fa831bf720. 2011-11-27 02:41:12 -05:00
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`@property`
			`def headers(self):`
Revert "Revert "Switching to requests from urllib2/httplib. Bring on the page errors."" This reverts commit a827b2c86406f1ed485e24845fada4fa831bf720. 2011-11-27 02:41:12 -05:00			`s = requests.session()`
			`s.config['keep_alive'] = False`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`return {`
			`'User-Agent': 'NewsBlur Page Fetcher (%s subscriber%s) - %s '`
			`'(Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_1) '`
			`'AppleWebKit/534.48.3 (KHTML, like Gecko) Version/5.1 '`
			`'Safari/534.48.3)' % (`
Revert "Revert "Switching to requests from urllib2/httplib. Bring on the page errors."" This reverts commit a827b2c86406f1ed485e24845fada4fa831bf720. 2011-11-27 02:41:12 -05:00			`self.feed.num_subscribers,`
			`'s' if self.feed.num_subscribers != 1 else '',`
			`settings.NEWSBLUR_URL`
			`),`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`'Connection': 'close',`
Revert "Revert "Switching to requests from urllib2/httplib. Bring on the page errors."" This reverts commit a827b2c86406f1ed485e24845fada4fa831bf720. 2011-11-27 02:41:12 -05:00			`}`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
Crazy refactor of feedfinder to extract timelimits, so they can be caught by a lower-level api instead of messing up the feed fetcher. 2011-02-02 13:07:12 -05:00			`@timelimit(15)`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`def fetch_page(self, urllib_fallback=False):`
			`feed_link = self.feed.feed_link`
			`if not feed_link:`
Adding feed.has_page to weed out feeds with no original page. This should've been in 2 years ago. 2011-09-04 10:59:29 -07:00			`self.save_no_page()`
Additional instrumentation on feed fetching, parsing, and importing. 2010-07-06 18:16:41 -04:00			`return`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00
			`try:`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`if feed_link.startswith('www'):`
			`self.feed.feed_link = 'http://' + feed_link`
			`if feed_link.startswith('http'):`
			`if urllib_fallback:`
			`request = urllib2.Request(feed_link, headers=self.headers)`
			`response = urllib2.urlopen(request)`
			`time.sleep(0.01) # Grrr, GIL.`
			`data = response.read()`
			`else:`
			`response = requests.get(feed_link, headers=self.headers)`
			`data = response.content`
			`elif any(feed_link.startswith(s) for s in BROKEN_PAGES):`
Adding feed.has_page to weed out feeds with no original page. This should've been in 2 years ago. 2011-09-04 10:59:29 -07:00			`self.save_no_page()`
			`return`
Updating unit tests, fixing datetime issue in json serialization. 2011-08-31 09:41:34 -07:00			`else:`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`data = open(feed_link, 'r').read()`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00			`html = self.rewrite_page(data)`
			`self.save_page(html)`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`except (ValueError, urllib2.URLError, httplib.BadStatusLine, httplib.InvalidURL), e:`
			`self.feed.save_page_history(401, "Bad URL", e)`
			`fp = feedparser.parse(self.feed.feed_address)`
			`feed_link = fp.feed.get('link', "")`
			`self.feed.save()`
			`except (urllib2.HTTPError), e:`
			`self.feed.save_page_history(e.code, e.msg, e.fp.read())`
			`except (httplib.IncompleteRead), e:`
			`self.feed.save_page_history(500, "IncompleteRead", e)`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00			`except Exception, e:`
Silencing logs from the backgorund importer. 2010-08-15 12:09:40 -04:00			`logging.debug('[%d] ! -------------------------' % (self.feed.id,))`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00			`tb = traceback.format_exc()`
Silencing logs from the backgorund importer. 2010-08-15 12:09:40 -04:00			`logging.debug(tb)`
			`logging.debug('[%d] ! -------------------------' % (self.feed.id,))`
Adding page fetching history. Also denormaling story authors. 2010-07-08 11:37:54 -04:00			`self.feed.save_page_history(500, "Error", tb)`
Adding a little bit more leeway in page importer by falling back to urllib2 when requests fail. 2011-12-20 22:30:55 -08:00			`mail_feed_error_to_admin(self.feed, e, locals())`
			`self.fetch_page(urllib_fallback=True)`
			`else:`
			`self.feed.save_page_history(200, "OK")`
Adding feed.has_page to weed out feeds with no original page. This should've been in 2 years ago. 2011-09-04 10:59:29 -07:00
			`def save_no_page(self):`
			`self.feed.has_page = False`
			`self.feed.save()`
			`self.feed.save_page_history(404, "Feed has no original page.")`

Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`def rewrite_page(self, response):`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`BASE_RE = re.compile(r'<head(.*?\>)', re.I)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`base_code = u'<base href="%s" />' % (self.feed.feed_link,)`
			`try:`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`html = BASE_RE.sub(r'<head\1 '+base_code, response)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00			`except:`
			`response = response.decode('latin1').encode('utf-8')`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`html = BASE_RE.sub(r'<head\1 '+base_code, response)`

Fixing issue around original pages not including a <HEAD> section, so all URLs are relative to NewsBlur. Thanks to Cramer http://getsatisfaction.com/newsblur/topics/problem_with_relative_urls_in_for_example_rarestblog?utm_medium=widget&utm_source=widget_newsblur 2011-08-07 21:44:57 -07:00			`if '<base href' not in html:`
			`html = "%s %s" % (base_code, html)`

Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00			`# html = self.fix_urls(html)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
Adding a feed punishment for slow feeds. Slow feeds get updated less often. 2010-06-24 15:27:25 -04:00			`return html.strip()`
Ignoring fix urls path for now. 2010-04-23 10:44:46 -04:00
			`def fix_urls(self, document):`
			`# BEWARE: This will rewrite URLs inside of <script> tags. You know, like`
			`# Google Analytics. Ugh.`

			`FIND_RE = re.compile(r'\b(href\|src)\s=\s("[^"]"\|\'[^\']\'\|[^"\'<>=\s]+)')`
			`ret = []`
			`last_end = 0`

			`for match in FIND_RE.finditer(document):`
			`url = match.group(2)`
			`if url[0] in "\"'":`
			`url = url.strip(url[0])`
			`parsed = urlparse.urlparse(url)`
			`if parsed.scheme == parsed.netloc == '': #relative to domain`
			`url = urlparse.urljoin(self.feed.feed_link, url)`
			`ret.append(document[last_end:match.start(2)])`
			`ret.append('"%s"' % (url,))`
			`last_end = match.end(2)`
			`ret.append(document[last_end:])`

			`return ''.join(ret)`
Importing feed's original page along with RSS stories. Wowzers. 2009-08-13 03:26:12 +00:00
			`def save_page(self, html):`
Prevent blank original sites from being saved. 2010-06-24 16:31:38 -04:00			`if html and len(html) > 100:`
Moving feed_pages from PostgreSQL to Mongo. Adding compression. 2010-08-29 12:35:09 -04:00			`feed_page, _ = MFeedPage.objects.get_or_create(feed_id=self.feed.pk)`
Migrating page_data to its own table so as to not slow down the feeds table. 2010-06-27 21:03:29 -04:00			`feed_page.page_data = html`
Removing unnecessary cruft above the page importer. 2010-07-01 17:33:58 -04:00			`feed_page.save()`