7 лет назад · ae3874ced7
--- a/twhatter/__main__.py
+++ b/twhatter/__main__.py
@@ -1,13 +1,13 @@
 
																-from twhatter.old_query import query_tweets_from_user
															
 
																-from twhatter.query import Query
															
 
																 from twhatter.api import ApiUser
															
 
																 from bs4 import BeautifulSoup
															
 
																 from twhatter.parser import TweetList
															
 
																 from twhatter.output import Print
															
 
																+user="the_english_way"
															
 
																+a = ApiUser(user)
															
 
																-q = Query(ApiUser("the_english_way").init_page)
															
 
																-soup = BeautifulSoup(q.text, "lxml")
															
 
																-t_list = TweetList(soup)
															
 
																-for t in t_list:
															
 
																+for t in a.iter_own_tweets():
															
 
																+    Print(t)()
															
 
																+
															
 
																+for t in a.iter_all_tweets():
															
 
																     Print(t)()
															
--- a/twhatter/api.py
+++ b/twhatter/api.py
@@ -1,12 +1,12 @@
 
																 import requests
															
 
																 from random import choice
															
 
																+from bs4 import BeautifulSoup
															
 
																-
															
 
																-class Api():
															
 
																-    pass
															
 
																+from twhatter.parser import TweetList
															
 
																+import json
															
 
																-class ApiUser(Api):
															
 
																+class Api():
															
 
																     HEADERS_LIST = [
															
 
																         'Mozilla/5.0 (Windows; U; Windows NT 6.1; x64; fr; rv:1.9.2.13) Gecko/20101203 Firebird/3.6.13',
															
 
																         'Mozilla/5.0 (compatible, MSIE 11, Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko',
															
@@ -15,24 +15,56 @@ class ApiUser(Api):
 
																         'Mozilla/5.0 (Windows NT 5.2; RW; rv:7.0a1) Gecko/20091211 SeaMonkey/9.23a1pre'
															
 
																     ]
															
 
																-    def __init__(self, user):
															
 
																+    def get_initial(self):
															
 
																+        raise NotImplementedError()
															
 
																+
															
 
																+    def get_more_tweets(self):
															
 
																+        raise NotImplementedError()
															
 
																+
															
 
																+
															
 
																+class ApiUser(Api):
															
 
																+    def __init__(self, user, limit=100):
															
 
																         self.user = user
															
 
																+        self.earliest_tweet = None
															
 
																+        self.limit = limit
															
 
																-    @property
															
 
																-    def init_page(self):
															
 
																+    def get_initial(self):
															
 
																+        url = "https://twitter.com/{}".format(self.user)
															
 
																         return requests.get(
															
 
																-            'https://twitter.com/{}'.format(self.user),
															
 
																+            url,
															
 
																             headers={'User-Agent': choice(self.HEADERS_LIST)}
															
 
																         )
															
 
																-    @property
															
 
																-    def tweets_from(self, position):
															
 
																-        return (
															
 
																-            "https://twitter.com/i/profiles/show/{u}"
															
 
																-            "/timeline"
															
 
																-            "/tweets"
															
 
																-            "?include_available_features=1"
															
 
																-            "&include_entities=1"
															
 
																-            "&max_position={pos}"
															
 
																-            "&reset_error_state=false"
															
 
																+    def get_more_tweets(self):
															
 
																+        return requests.get(
															
 
																+            "https://twitter.com/i/profiles/show/{}/timeline/tweets".format(self.user),
															
 
																+            params= dict(
															
 
																+                include_available_features=1,
															
 
																+                include_entities=1,
															
 
																+                max_position=self.earliest_tweet,
															
 
																+                reset_error_state=False
															
 
																+            ),
															
 
																+            headers={'User-Agent': choice(self.HEADERS_LIST)}
															
 
																         )
															
 
																+
															
 
																+    def iter_tweets(self):
															
 
																+        tweets = self.get_initial()
															
 
																+        soup = BeautifulSoup(tweets.text, "lxml")
															
 
																+        t_list = TweetList(soup)
															
 
																+
															
 
																+        for t in t_list:
															
 
																+            yield t
															
 
																+            self.earliest_tweet = t.id
															
 
																+
															
 
																+        while True:
															
 
																+            more_tweets = self.get_more_tweets()
															
 
																+            html = json.loads(more_tweets.content)
															
 
																+            soup = BeautifulSoup(html['items_html'], "lxml")
															
 
																+            t_list = TweetList(soup)
															
 
																+
															
 
																+            if len(t_list) == 0:
															
 
																+                break
															
 
																+
															
 
																+            for t in t_list:
															
 
																+                yield t
															
 
																+                self.earliest_tweet = t.id
															
--- a/twhatter/cli.py
+++ b/twhatter/cli.py
@@ -4,21 +4,18 @@
 
																 import click
															
 
																 from twhatter.api import ApiUser
															
 
																-from bs4 import BeautifulSoup
															
 
																-from twhatter.parser import TweetList
															
 
																 @click.command()
															
 
																 @click.option('--user', prompt='User name to check',
															
 
																               help='The person to greet.')
															
 
																-def main(user):
															
 
																+@click.option('-r', '--replies', is_flag=True)
															
 
																+def main(user, replies):
															
 
																     """Console script for twhatter."""
															
 
																-    p = ApiUser(user).init_page
															
 
																-    soup = BeautifulSoup(p.text, "lxml")
															
 
																-    t_list = TweetList(soup)
															
 
																-    for t in t_list:
															
 
																-        click.echo(t)
															
 
																+    a = ApiUser(user)
															
 
																+    for t in a.iter_tweets():
															
 
																+        click.echo(t)
															
 
																 if __name__ == "__main__":
															
 
																     main()
															
--- a/twhatter/old_query.py
+++ b/twhatter/old_query.py
@@ -1,256 +0,0 @@
 
																-from __future__ import division
															
 
																-import random
															
 
																-import requests
															
 
																-import datetime as dt
															
 
																-import json
															
 
																-from functools import partial
															
 
																-from multiprocessing.pool import Pool
															
 
																-
															
 
																-from twhatter.parser.tweet import Tweet
															
 
																-import urllib
															
 
																-
															
 
																-import logging
															
 
																-
															
 
																-
															
 
																-logger = logging.getLogger('twitterscraper')
															
 
																-
															
 
																-formatter = logging.Formatter('%(levelname)s: %(message)s')
															
 
																-handler = logging.StreamHandler()
															
 
																-handler.setFormatter(formatter)
															
 
																-logger.addHandler(handler)
															
 
																-
															
 
																-level = logging.INFO
															
 
																-logger.setLevel(level)
															
 
																-
															
 
																-
															
 
																-HEADERS_LIST = [
															
 
																-    'Mozilla/5.0 (Windows; U; Windows NT 6.1; x64; fr; rv:1.9.2.13) Gecko/20101203 Firebird/3.6.13',
															
 
																-    'Mozilla/5.0 (compatible, MSIE 11, Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko',
															
 
																-    'Mozilla/5.0 (Windows; U; Windows NT 6.1; rv:2.2) Gecko/20110201',
															
 
																-    'Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16',
															
 
																-    'Mozilla/5.0 (Windows NT 5.2; RW; rv:7.0a1) Gecko/20091211 SeaMonkey/9.23a1pre'
															
 
																-]
															
 
																-
															
 
																-HEADER = {'User-Agent': random.choice(HEADERS_LIST)}
															
 
																-
															
 
																-INIT_URL = 'https://twitter.com/search?f=tweets&vertical=default&q={q}&l={lang}'
															
 
																-RELOAD_URL = 'https://twitter.com/i/search/timeline?f=tweets&vertical=' \
															
 
																-             'default&include_available_features=1&include_entities=1&' \
															
 
																-             'reset_error_state=false&src=typd&max_position={pos}&q={q}&l={lang}'
															
 
																-INIT_URL_USER = 'https://twitter.com/{u}'
															
 
																-RELOAD_URL_USER = 'https://twitter.com/i/profiles/show/{u}/timeline/tweets?' \
															
 
																-                  'include_available_features=1&include_entities=1&' \
															
 
																-                  'max_position={pos}&reset_error_state=false'
															
 
																-
															
 
																-
															
 
																-def get_query_url(query, lang, pos, from_user = False):
															
 
																-    if from_user:
															
 
																-        if pos is None:
															
 
																-            return INIT_URL_USER.format(u=query)
															
 
																-        else:
															
 
																-            return RELOAD_URL_USER.format(u=query, pos=pos)
															
 
																-    if pos is None:
															
 
																-        return INIT_URL.format(q=query, lang=lang)
															
 
																-    else:
															
 
																-        return RELOAD_URL.format(q=query, pos=pos, lang=lang)
															
 
																-
															
 
																-
															
 
																-def linspace(start, stop, n):
															
 
																-    if n == 1:
															
 
																-        yield stop
															
 
																-        return
															
 
																-    h = (stop - start) / (n - 1)
															
 
																-    for i in range(n):
															
 
																-        yield start + h * i
															
 
																-
															
 
																-
															
 
																-def query_single_page(query, lang, pos, retry=50, from_user=False):
															
 
																-    """
															
 
																-    Returns tweets from the given URL.
															
 
																-
															
 
																-    :param query: The query parameter of the query url
															
 
																-    :param lang: The language parameter of the query url
															
 
																-    :param pos: The query url parameter that determines where to start looking
															
 
																-    :param retry: Number of retries if something goes wrong.
															
 
																-    :return: The list of tweets, the pos argument for getting the next page.
															
 
																-    """
															
 
																-    url = get_query_url(query, lang, pos, from_user)
															
 
																-
															
 
																-    try:
															
 
																-        response = requests.get(url, headers=HEADER)
															
 
																-        if pos is None:  # html response
															
 
																-            html = response.text or ''
															
 
																-            json_resp = None
															
 
																-        else:
															
 
																-            html = ''
															
 
																-            try:
															
 
																-                json_resp = json.loads(response.text)
															
 
																-                html = json_resp['items_html'] or ''
															
 
																-            except ValueError as e:
															
 
																-                logger.exception('Failed to parse JSON "{}" while requesting "{}"'.format(e, url))
															
 
																-
															
 
																-        tweets = list(Tweet.from_html(html))
															
 
																-
															
 
																-        if not tweets:
															
 
																-            if json_resp:
															
 
																-                pos = json_resp['min_position']
															
 
																-            else:
															
 
																-                pos = None
															
 
																-            if retry > 0:
															
 
																-                return query_single_page(query, lang, pos, retry - 1, from_user)
															
 
																-            else:
															
 
																-                return [], pos
															
 
																-
															
 
																-        if json_resp:
															
 
																-            return tweets, urllib.parse.quote(json_resp['min_position'])
															
 
																-        if from_user:
															
 
																-            return tweets, tweets[-1].id
															
 
																-        return tweets, "TWEET-{}-{}".format(tweets[-1].id, tweets[0].id)
															
 
																-
															
 
																-    except requests.exceptions.HTTPError as e:
															
 
																-        logger.exception('HTTPError {} while requesting "{}"'.format(
															
 
																-            e, url))
															
 
																-    except requests.exceptions.ConnectionError as e:
															
 
																-        logger.exception('ConnectionError {} while requesting "{}"'.format(
															
 
																-            e, url))
															
 
																-    except requests.exceptions.Timeout as e:
															
 
																-        logger.exception('TimeOut {} while requesting "{}"'.format(
															
 
																-            e, url))
															
 
																-    except json.decoder.JSONDecodeError as e:
															
 
																-        logger.exception('Failed to parse JSON "{}" while requesting "{}".'.format(
															
 
																-            e, url))
															
 
																-
															
 
																-    if retry > 0:
															
 
																-        logger.info('Retrying... (Attempts left: {})'.format(retry))
															
 
																-        return query_single_page(query, lang, pos, retry - 1)
															
 
																-
															
 
																-    logger.error('Giving up.')
															
 
																-    return [], None
															
 
																-
															
 
																-
															
 
																-def query_tweets_once_generator(query, limit=None, lang='', pos=None):
															
 
																-    """
															
 
																-    Queries twitter for all the tweets you want! It will load all pages it gets
															
 
																-    from twitter. However, twitter might out of a sudden stop serving new pages,
															
 
																-    in that case, use the `query_tweets` method.
															
 
																-
															
 
																-    Note that this function catches the KeyboardInterrupt so it can return
															
 
																-    tweets on incomplete queries if the user decides to abort.
															
 
																-
															
 
																-    :param query: Any advanced query you want to do! Compile it at
															
 
																-                  https://twitter.com/search-advanced and just copy the query!
															
 
																-    :param limit: Scraping will be stopped when at least ``limit`` number of
															
 
																-                  items are fetched.
															
 
																-    :param pos: Field used as a "checkpoint" to continue where you left off in iteration
															
 
																-    :return:      A list of twitterscraper.Tweet objects. You will get at least
															
 
																-                  ``limit`` number of items.
															
 
																-    """
															
 
																-    logger.info('Querying {}'.format(query))
															
 
																-    query = query.replace(' ', '%20').replace('#', '%23').replace(':', '%3A')
															
 
																-    num_tweets = 0
															
 
																-    try:
															
 
																-        while True:
															
 
																-            new_tweets, new_pos = query_single_page(query, lang, pos)
															
 
																-            if len(new_tweets) == 0:
															
 
																-                logger.info('Got {} tweets for {}.'.format(
															
 
																-                    num_tweets, query))
															
 
																-                return
															
 
																-
															
 
																-            for t in new_tweets:
															
 
																-                yield t, pos
															
 
																-
															
 
																-            # use new_pos only once you have iterated through all old tweets
															
 
																-            pos = new_pos
															
 
																-
															
 
																-            num_tweets += len(new_tweets)
															
 
																-
															
 
																-            if limit and num_tweets >= limit:
															
 
																-                logger.info('Got {} tweets for {}.'.format(
															
 
																-                    num_tweets, query))
															
 
																-                return
															
 
																-
															
 
																-    except KeyboardInterrupt:
															
 
																-        logger.info('Program interrupted by user. Returning tweets gathered '
															
 
																-                     'so far...')
															
 
																-    except BaseException:
															
 
																-        logger.exception('An unknown error occurred! Returning tweets '
															
 
																-                          'gathered so far.')
															
 
																-    logger.info('Got {} tweets for {}.'.format(
															
 
																-        num_tweets, query))
															
 
																-
															
 
																-
															
 
																-def query_tweets_once(*args, **kwargs):
															
 
																-    res = list(query_tweets_once_generator(*args, **kwargs))
															
 
																-    if res:
															
 
																-        tweets, positions = zip(*res)
															
 
																-        return tweets
															
 
																-    else:
															
 
																-        return []
															
 
																-
															
 
																-
															
 
																-def query_tweets(query, limit=None, begindate=dt.date(2006, 3, 21), enddate=dt.date.today(), poolsize=20, lang=''):
															
 
																-    no_days = (enddate - begindate).days
															
 
																-
															
 
																-    if(no_days < 0):
															
 
																-        sys.exit('Begin date must occur before end date.')
															
 
																-
															
 
																-    if poolsize > no_days:
															
 
																-        # Since we are assigning each pool a range of dates to query,
															
 
																-		# the number of pools should not exceed the number of dates.
															
 
																-        poolsize = no_days
															
 
																-    dateranges = [begindate + dt.timedelta(days=elem) for elem in linspace(0, no_days, poolsize+1)]
															
 
																-
															
 
																-    if limit:
															
 
																-        limit_per_pool = (limit // poolsize)+1
															
 
																-    else:
															
 
																-        limit_per_pool = None
															
 
																-
															
 
																-    queries = ['{} since:{} until:{}'.format(query, since, until)
															
 
																-               for since, until in zip(dateranges[:-1], dateranges[1:])]
															
 
																-
															
 
																-    all_tweets = []
															
 
																-    try:
															
 
																-        pool = Pool(poolsize)
															
 
																-        logger.info('queries: {}'.format(queries))
															
 
																-        try:
															
 
																-            for new_tweets in pool.imap_unordered(partial(query_tweets_once, limit=limit_per_pool, lang=lang), queries):
															
 
																-                all_tweets.extend(new_tweets)
															
 
																-                logger.info('Got {} tweets ({} new).'.format(
															
 
																-                    len(all_tweets), len(new_tweets)))
															
 
																-        except KeyboardInterrupt:
															
 
																-            logger.info('Program interrupted by user. Returning all tweets '
															
 
																-                         'gathered so far.')
															
 
																-    finally:
															
 
																-        pool.close()
															
 
																-        pool.join()
															
 
																-
															
 
																-    return all_tweets
															
 
																-
															
 
																-
															
 
																-def query_tweets_from_user(user, limit=None):
															
 
																-    pos = None
															
 
																-    tweets = []
															
 
																-    query = user
															
 
																-    try:
															
 
																-        while True:
															
 
																-           new_tweets, pos = query_single_page(query, lang='', pos=pos, from_user=True)
															
 
																-           if len(new_tweets) == 0:
															
 
																-               logger.info("Got {} tweets from username {}".format(len(tweets), user))
															
 
																-               return tweets
															
 
																-
															
 
																-           tweets += new_tweets
															
 
																-
															
 
																-           if limit and len(tweets) >= limit:
															
 
																-               logger.info("Got {} tweets from username {}".format(len(tweets), user))
															
 
																-               return tweets
															
 
																-
															
 
																-    except KeyboardInterrupt:
															
 
																-        logger.info("Program interrupted by user. Returning tweets gathered "
															
 
																-                     "so far...")
															
 
																-    except BaseException:
															
 
																-        logger.exception("An unknown error occurred! Returning tweets "
															
 
																-                          "gathered so far.")
															
 
																-    logger.info("Got {} tweets from username {}.".format(
															
 
																-        len(tweets), user))
															
 
																-    return tweets
															
 
																-
															
--- a/twhatter/parser/tweet.py
+++ b/twhatter/parser/tweet.py
@@ -105,3 +105,6 @@ class TweetList:
 
																     def __iter__(self):
															
 
																         for tweet in self.raw_tweets:
															
 
																             yield Tweet.extract(tweet)
															
 
																+
															
 
																+    def __len__(self):
															
 
																+        return len(self.raw_tweets)