From e6b31fbf8a700b04ceb1ff0725f74848977bd2f9 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Gr=C3=A9gory=20Soutad=C3=A9?= Date: Wed, 26 Nov 2014 16:56:33 +0100 Subject: [PATCH] WIP --- awstats_data.py | 12 ++++---- iwla_convert.pl | 4 +-- plugins/display/referers.py | 55 +++++++++++++++++++++++----------- plugins/pre_analysis/robots.py | 2 +- 4 files changed, 47 insertions(+), 26 deletions(-) diff --git a/awstats_data.py b/awstats_data.py index a6145f0..8789384 100644 --- a/awstats_data.py +++ b/awstats_data.py @@ -1,12 +1,12 @@ -robots = ['.*appie.*', '.*architext.*', '.*jeeves.*', '.*bjaaland.*', '.*contentmatch.*', '.*ferret.*', '.*googlebot.*', '.*google\-sitemaps.*', '.*gulliver.*', '.*virus[_+ ]detector.*', '.*harvest.*', '.*htdig.*', '.*linkwalker.*', '.*lilina.*', '.*lycos[_+ ].*', '.*moget.*', '.*muscatferret.*', '.*myweb.*', '.*nomad.*', '.*scooter.*', '.*slurp.*', '.*^voyager\/.*', '.*weblayers.*', '.*antibot.*', '.*bruinbot.*', '.*digout4u.*', '.*echo!.*', '.*fast\-webcrawler.*', '.*ia_archiver\-web\.archive\.org.*', '.*ia_archiver.*', '.*jennybot.*', '.*mercator.*', '.*netcraft.*', '.*msnbot\-media.*', '.*msnbot.*', '.*petersnews.*', '.*relevantnoise\.com.*', '.*unlost_web_crawler.*', '.*voila.*', '.*webbase.*', '.*webcollage.*', '.*cfetch.*', '.*zyborg.*', '.*wisenutbot.*', '.*[^a]fish.*', '.*abcdatos.*', '.*acme\.spider.*', '.*ahoythehomepagefinder.*', '.*alkaline.*', '.*anthill.*', '.*arachnophilia.*', '.*arale.*', '.*araneo.*', '.*aretha.*', '.*ariadne.*', '.*powermarks.*', '.*arks.*', '.*aspider.*', '.*atn\.txt.*', '.*atomz.*', '.*auresys.*', '.*backrub.*', '.*bbot.*', '.*bigbrother.*', '.*blackwidow.*', '.*blindekuh.*', '.*bloodhound.*', '.*borg\-bot.*', '.*brightnet.*', '.*bspider.*', '.*cactvschemistryspider.*', '.*calif[^r].*', '.*cassandra.*', '.*cgireader.*', '.*checkbot.*', '.*christcrawler.*', '.*churl.*', '.*cienciaficcion.*', '.*collective.*', '.*combine.*', '.*conceptbot.*', '.*coolbot.*', '.*core.*', '.*cosmos.*', '.*cruiser.*', '.*cusco.*', '.*cyberspyder.*', '.*desertrealm.*', '.*deweb.*', '.*dienstspider.*', '.*digger.*', '.*diibot.*', '.*direct_hit.*', '.*dnabot.*', '.*download_express.*', '.*dragonbot.*', '.*dwcp.*', '.*e\-collector.*', '.*ebiness.*', '.*elfinbot.*', '.*emacs.*', '.*emcspider.*', '.*esther.*', '.*evliyacelebi.*', '.*fastcrawler.*', '.*feedcrawl.*', '.*fdse.*', '.*felix.*', '.*fetchrover.*', '.*fido.*', '.*finnish.*', '.*fireball.*', '.*fouineur.*', '.*francoroute.*', '.*freecrawl.*', '.*funnelweb.*', '.*gama.*', '.*gazz.*', '.*gcreep.*', '.*getbot.*', '.*geturl.*', '.*golem.*', '.*gougou.*', '.*grapnel.*', '.*griffon.*', '.*gromit.*', '.*gulperbot.*', '.*hambot.*', '.*havindex.*', '.*hometown.*', '.*htmlgobble.*', '.*hyperdecontextualizer.*', '.*iajabot.*', '.*iaskspider.*', '.*hl_ftien_spider.*', '.*sogou.*', '.*iconoclast.*', '.*ilse.*', '.*imagelock.*', '.*incywincy.*', '.*informant.*', '.*infoseek.*', '.*infoseeksidewinder.*', '.*infospider.*', '.*inspectorwww.*', '.*intelliagent.*', '.*irobot.*', '.*iron33.*', '.*israelisearch.*', '.*javabee.*', '.*jbot.*', '.*jcrawler.*', '.*jobo.*', '.*jobot.*', '.*joebot.*', '.*jubii.*', '.*jumpstation.*', '.*kapsi.*', '.*katipo.*', '.*kilroy.*', '.*ko[_+ ]yappo[_+ ]robot.*', '.*kummhttp.*', '.*labelgrabber\.txt.*', '.*larbin.*', '.*legs.*', '.*linkidator.*', '.*linkscan.*', '.*lockon.*', '.*logo_gif.*', '.*macworm.*', '.*magpie.*', '.*marvin.*', '.*mattie.*', '.*mediafox.*', '.*merzscope.*', '.*meshexplorer.*', '.*mindcrawler.*', '.*mnogosearch.*', '.*momspider.*', '.*monster.*', '.*motor.*', '.*muncher.*', '.*mwdsearch.*', '.*ndspider.*', '.*nederland\.zoek.*', '.*netcarta.*', '.*netmechanic.*', '.*netscoop.*', '.*newscan\-online.*', '.*nhse.*', '.*northstar.*', '.*nzexplorer.*', '.*objectssearch.*', '.*occam.*', '.*octopus.*', '.*openfind.*', '.*orb_search.*', '.*packrat.*', '.*pageboy.*', '.*parasite.*', '.*patric.*', '.*pegasus.*', '.*perignator.*', '.*perlcrawler.*', '.*phantom.*', '.*phpdig.*', '.*piltdownman.*', '.*pimptrain.*', '.*pioneer.*', '.*pitkow.*', '.*pjspider.*', '.*plumtreewebaccessor.*', '.*poppi.*', '.*portalb.*', '.*psbot.*', '.*python.*', '.*raven.*', '.*rbse.*', '.*resumerobot.*', '.*rhcs.*', '.*road_runner.*', '.*robbie.*', '.*robi.*', '.*robocrawl.*', '.*robofox.*', '.*robozilla.*', '.*roverbot.*', '.*rules.*', '.*safetynetrobot.*', '.*search\-info.*', '.*search_au.*', '.*searchprocess.*', '.*senrigan.*', '.*sgscout.*', '.*shaggy.*', '.*shaihulud.*', '.*sift.*', '.*simbot.*', '.*site\-valet.*', '.*sitetech.*', '.*skymob.*', '.*slcrawler.*', '.*smartspider.*', '.*snooper.*', '.*solbot.*', '.*speedy.*', '.*spider[_+ ]monkey.*', '.*spiderbot.*', '.*spiderline.*', '.*spiderman.*', '.*spiderview.*', '.*spry.*', '.*sqworm.*', '.*ssearcher.*', '.*suke.*', '.*sunrise.*', '.*suntek.*', '.*sven.*', '.*tach_bw.*', '.*tagyu_agent.*', '.*tailrank.*', '.*tarantula.*', '.*tarspider.*', '.*techbot.*', '.*templeton.*', '.*titan.*', '.*titin.*', '.*tkwww.*', '.*tlspider.*', '.*ucsd.*', '.*udmsearch.*', '.*universalfeedparser.*', '.*urlck.*', '.*valkyrie.*', '.*verticrawl.*', '.*victoria.*', '.*visionsearch.*', '.*voidbot.*', '.*vwbot.*', '.*w3index.*', '.*w3m2.*', '.*wallpaper.*', '.*wanderer.*', '.*wapspIRLider.*', '.*webbandit.*', '.*webcatcher.*', '.*webcopy.*', '.*webfetcher.*', '.*webfoot.*', '.*webinator.*', '.*weblinker.*', '.*webmirror.*', '.*webmoose.*', '.*webquest.*', '.*webreader.*', '.*webreaper.*', '.*websnarf.*', '.*webspider.*', '.*webvac.*', '.*webwalk.*', '.*webwalker.*', '.*webwatch.*', '.*whatuseek.*', '.*whowhere.*', '.*wired\-digital.*', '.*wmir.*', '.*wolp.*', '.*wombat.*', '.*wordpress.*', '.*worm.*', '.*woozweb.*', '.*wwwc.*', '.*wz101.*', '.*xget.*', '.*1\-more_scanner.*', '.*accoona\-ai\-agent.*', '.*activebookmark.*', '.*adamm_bot.*', '.*almaden.*', '.*aipbot.*', '.*aleadsoftbot.*', '.*alpha_search_agent.*', '.*allrati.*', '.*aport.*', '.*archive\.org_bot.*', '.*argus.*', '.*arianna\.libero\.it.*', '.*aspseek.*', '.*asterias.*', '.*awbot.*', '.*baiduspider.*', '.*becomebot.*', '.*bender.*', '.*betabot.*', '.*biglotron.*', '.*bittorrent_bot.*', '.*biz360[_+ ]spider.*', '.*blogbridge[_+ ]service.*', '.*bloglines.*', '.*blogpulse.*', '.*blogsearch.*', '.*blogshares.*', '.*blogslive.*', '.*blogssay.*', '.*bncf\.firenze\.sbn\.it\/raccolta\.txt.*', '.*bobby.*', '.*boitho\.com\-dc.*', '.*bookmark\-manager.*', '.*boris.*', '.*bumblebee.*', '.*candlelight[_+ ]favorites[_+ ]inspector.*', '.*cbn00glebot.*', '.*cerberian_drtrs.*', '.*cfnetwork.*', '.*cipinetbot.*', '.*checkweb_link_validator.*', '.*commons\-httpclient.*', '.*computer_and_automation_research_institute_crawler.*', '.*converamultimediacrawler.*', '.*converacrawler.*', '.*cscrawler.*', '.*cse_html_validator_lite_online.*', '.*cuasarbot.*', '.*cursor.*', '.*custo.*', '.*datafountains\/dmoz_downloader.*', '.*daviesbot.*', '.*daypopbot.*', '.*deepindex.*', '.*dipsie\.bot.*', '.*dnsgroup.*', '.*domainchecker.*', '.*domainsdb\.net.*', '.*dulance.*', '.*dumbot.*', '.*dumm\.de\-bot.*', '.*earthcom\.info.*', '.*easydl.*', '.*edgeio\-retriever.*', '.*ets_v.*', '.*exactseek.*', '.*extreme[_+ ]picture[_+ ]finder.*', '.*eventax.*', '.*everbeecrawler.*', '.*everest\-vulcan.*', '.*ezresult.*', '.*enteprise.*', '.*facebook.*', '.*fast_enterprise_crawler.*crawleradmin\.t\-info@telekom\.de.*', '.*fast_enterprise_crawler.*t\-info_bi_cluster_crawleradmin\.t\-info@telekom\.de.*', '.*matrix_s\.p\.a\._\-_fast_enterprise_crawler.*', '.*fast_enterprise_crawler.*', '.*fast\-search\-engine.*', '.*favicon.*', '.*favorg.*', '.*favorites_sweeper.*', '.*feedburner.*', '.*feedfetcher\-google.*', '.*feedflow.*', '.*feedster.*', '.*feedsky.*', '.*feedvalidator.*', '.*filmkamerabot.*', '.*findlinks.*', '.*findexa_crawler.*', '.*fooky\.com\/ScorpionBot.*', '.*g2crawler.*', '.*gaisbot.*', '.*geniebot.*', '.*gigabot.*', '.*girafabot.*', '.*global_fetch.*', '.*gnodspider.*', '.*goforit\.com.*', '.*goforitbot.*', '.*gonzo.*', '.*grub.*', '.*gpu_p2p_crawler.*', '.*henrythemiragorobot.*', '.*heritrix.*', '.*holmes.*', '.*hoowwwer.*', '.*hpprint.*', '.*htmlparser.*', '.*html[_+ ]link[_+ ]validator.*', '.*httrack.*', '.*hundesuche\.com\-bot.*', '.*ichiro.*', '.*iltrovatore\-setaccio.*', '.*infobot.*', '.*infociousbot.*', '.*infomine.*', '.*insurancobot.*', '.*internet[_+ ]ninja.*', '.*internetarchive.*', '.*internetseer.*', '.*internetsupervision.*', '.*irlbot.*', '.*isearch2006.*', '.*iupui_research_bot.*', '.*jrtwine[_+ ]software[_+ ]check[_+ ]favorites[_+ ]utility.*', '.*justview.*', '.*kalambot.*', '.*kamano\.de_newsfeedverzeichnis.*', '.*kazoombot.*', '.*kevin.*', '.*keyoshid.*', '.*kinjabot.*', '.*kinja\-imagebot.*', '.*knowitall.*', '.*knowledge\.com.*', '.*kouaa_krawler.*', '.*krugle.*', '.*ksibot.*', '.*kurzor.*', '.*lanshanbot.*', '.*letscrawl\.com.*', '.*libcrawl.*', '.*linkbot.*', '.*link_valet_online.*', '.*metager\-linkchecker.*', '.*linkchecker.*', '.*livejournal\.com.*', '.*lmspider.*', '.*lwp\-request.*', '.*lwp\-trivial.*', '.*magpierss.*', '.*mail\.ru.*', '.*mapoftheinternet\.com.*', '.*mediapartners\-google.*', '.*megite.*', '.*metaspinner.*', '.*microsoft[_+ ]url[_+ ]control.*', '.*mini\-reptile.*', '.*minirank.*', '.*missigua_locator.*', '.*misterbot.*', '.*miva.*', '.*mizzu_labs.*', '.*mj12bot.*', '.*mojeekbot.*', '.*msiecrawler.*', '.*ms_search_4\.0_robot.*', '.*msrabot.*', '.*msrbot.*', '.*mt::telegraph::agent.*', '.*nagios.*', '.*nasa_search.*', '.*mydoyouhike.*', '.*netluchs.*', '.*netsprint.*', '.*newsgatoronline.*', '.*nicebot.*', '.*nimblecrawler.*', '.*noxtrumbot.*', '.*npbot.*', '.*nutchcvs.*', '.*nutchosu\-vlib.*', '.*nutch.*', '.*ocelli.*', '.*octora_beta_bot.*', '.*omniexplorer[_+ ]bot.*', '.*onet\.pl[_+ ]sa.*', '.*onfolio.*', '.*opentaggerbot.*', '.*openwebspider.*', '.*oracle_ultra_search.*', '.*orbiter.*', '.*yodaobot.*', '.*qihoobot.*', '.*passwordmaker\.org.*', '.*pear_http_request_class.*', '.*peerbot.*', '.*perman.*', '.*php[_+ ]version[_+ ]tracker.*', '.*pictureofinternet.*', '.*ping\.blo\.gs.*', '.*plinki.*', '.*pluckfeedcrawler.*', '.*pogodak.*', '.*pompos.*', '.*popdexter.*', '.*port_huron_labs.*', '.*postfavorites.*', '.*projectwf\-java\-test\-crawler.*', '.*proodlebot.*', '.*pyquery.*', '.*rambler.*', '.*redalert.*', '.*rojo.*', '.*rssimagesbot.*', '.*ruffle.*', '.*rufusbot.*', '.*sandcrawler.*', '.*sbider.*', '.*schizozilla.*', '.*scumbot.*', '.*searchguild[_+ ]dmoz[_+ ]experiment.*', '.*seekbot.*', '.*sensis_web_crawler.*', '.*seznambot.*', '.*shim\-crawler.*', '.*shoutcast.*', '.*slysearch.*', '.*snap\.com_beta_crawler.*', '.*sohu\-search.*', '.*sohu.*', '.*snappy.*', '.*sphere_scout.*', '.*spip.*', '.*sproose_crawler.*', '.*steeler.*', '.*steroid__download.*', '.*suchfin\-bot.*', '.*superbot.*', '.*surveybot.*', '.*susie.*', '.*syndic8.*', '.*syndicapi.*', '.*synoobot.*', '.*tcl_http_client_package.*', '.*technoratibot.*', '.*teragramcrawlersurf.*', '.*test_crawler.*', '.*testbot.*', '.*t\-h\-u\-n\-d\-e\-r\-s\-t\-o\-n\-e.*', '.*topicblogs.*', '.*turnitinbot.*', '.*turtlescanner.*', '.*turtle.*', '.*tutorgigbot.*', '.*twiceler.*', '.*ubicrawler.*', '.*ultraseek.*', '.*unchaos_bot_hybrid_web_search_engine.*', '.*unido\-bot.*', '.*updated.*', '.*ustc\-semantic\-group.*', '.*vagabondo\-wap.*', '.*vagabondo.*', '.*vermut.*', '.*versus_crawler_from_eda\.baykan@epfl\.ch.*', '.*vespa_crawler.*', '.*vortex.*', '.*vse\/.*', '.*w3c\-checklink.*', '.*w3c[_+ ]css[_+ ]validator[_+ ]jfouffa.*', '.*w3c_validator.*', '.*watchmouse.*', '.*wavefire.*', '.*webclipping\.com.*', '.*webcompass.*', '.*webcrawl\.net.*', '.*web_downloader.*', '.*webdup.*', '.*webfilter.*', '.*webindexer.*', '.*webminer.*', '.*website[_+ ]monitoring[_+ ]bot.*', '.*webvulncrawl.*', '.*wells_search.*', '.*wonderer.*', '.*wume_crawler.*', '.*wwweasel.*', '.*xenu\'s_link_sleuth.*', '.*xenu_link_sleuth.*', '.*xirq.*', '.*y!j.*', '.*yacy.*', '.*yahoo\-blogs.*', '.*yahoo\-verticalcrawler.*', '.*yahoofeedseeker.*', '.*yahooseeker\-testing.*', '.*yahooseeker.*', '.*yahoo\-mmcrawler.*', '.*yahoo!_mindset.*', '.*yandex.*', '.*flexum.*', '.*yanga.*', '.*yooglifetchagent.*', '.*z\-add_link_checker.*', '.*zealbot.*', '.*zhuaxia.*', '.*zspider.*', '.*zeus.*', '.*ng\/1\..*', '.*ng\/2\..*', '.*exabot.*', '.*wget.*', '.*libwww.*', '.*java\/[0-9].*'] +robots = ['appie', 'architext', 'jeeves', 'bjaaland', 'contentmatch', 'ferret', 'googlebot', 'google\-sitemaps', 'gulliver', 'virus[_+ ]detector', 'harvest', 'htdig', 'linkwalker', 'lilina', 'lycos[_+ ]', 'moget', 'muscatferret', 'myweb', 'nomad', 'scooter', 'slurp', '^voyager\/', 'weblayers', 'antibot', 'bruinbot', 'digout4u', 'echo!', 'fast\-webcrawler', 'ia_archiver\-web\.archive\.org', 'ia_archiver', 'jennybot', 'mercator', 'netcraft', 'msnbot\-media', 'msnbot', 'petersnews', 'relevantnoise\.com', 'unlost_web_crawler', 'voila', 'webbase', 'webcollage', 'cfetch', 'zyborg', 'wisenutbot', '[^a]fish', 'abcdatos', 'acme\.spider', 'ahoythehomepagefinder', 'alkaline', 'anthill', 'arachnophilia', 'arale', 'araneo', 'aretha', 'ariadne', 'powermarks', 'arks', 'aspider', 'atn\.txt', 'atomz', 'auresys', 'backrub', 'bbot', 'bigbrother', 'blackwidow', 'blindekuh', 'bloodhound', 'borg\-bot', 'brightnet', 'bspider', 'cactvschemistryspider', 'calif[^r]', 'cassandra', 'cgireader', 'checkbot', 'christcrawler', 'churl', 'cienciaficcion', 'collective', 'combine', 'conceptbot', 'coolbot', 'core', 'cosmos', 'cruiser', 'cusco', 'cyberspyder', 'desertrealm', 'deweb', 'dienstspider', 'digger', 'diibot', 'direct_hit', 'dnabot', 'download_express', 'dragonbot', 'dwcp', 'e\-collector', 'ebiness', 'elfinbot', 'emacs', 'emcspider', 'esther', 'evliyacelebi', 'fastcrawler', 'feedcrawl', 'fdse', 'felix', 'fetchrover', 'fido', 'finnish', 'fireball', 'fouineur', 'francoroute', 'freecrawl', 'funnelweb', 'gama', 'gazz', 'gcreep', 'getbot', 'geturl', 'golem', 'gougou', 'grapnel', 'griffon', 'gromit', 'gulperbot', 'hambot', 'havindex', 'hometown', 'htmlgobble', 'hyperdecontextualizer', 'iajabot', 'iaskspider', 'hl_ftien_spider', 'sogou', 'iconoclast', 'ilse', 'imagelock', 'incywincy', 'informant', 'infoseek', 'infoseeksidewinder', 'infospider', 'inspectorwww', 'intelliagent', 'irobot', 'iron33', 'israelisearch', 'javabee', 'jbot', 'jcrawler', 'jobo', 'jobot', 'joebot', 'jubii', 'jumpstation', 'kapsi', 'katipo', 'kilroy', 'ko[_+ ]yappo[_+ ]robot', 'kummhttp', 'labelgrabber\.txt', 'larbin', 'legs', 'linkidator', 'linkscan', 'lockon', 'logo_gif', 'macworm', 'magpie', 'marvin', 'mattie', 'mediafox', 'merzscope', 'meshexplorer', 'mindcrawler', 'mnogosearch', 'momspider', 'monster', 'motor', 'muncher', 'mwdsearch', 'ndspider', 'nederland\.zoek', 'netcarta', 'netmechanic', 'netscoop', 'newscan\-online', 'nhse', 'northstar', 'nzexplorer', 'objectssearch', 'occam', 'octopus', 'openfind', 'orb_search', 'packrat', 'pageboy', 'parasite', 'patric', 'pegasus', 'perignator', 'perlcrawler', 'phantom', 'phpdig', 'piltdownman', 'pimptrain', 'pioneer', 'pitkow', 'pjspider', 'plumtreewebaccessor', 'poppi', 'portalb', 'psbot', 'python', 'raven', 'rbse', 'resumerobot', 'rhcs', 'road_runner', 'robbie', 'robi', 'robocrawl', 'robofox', 'robozilla', 'roverbot', 'rules', 'safetynetrobot', 'search\-info', 'search_au', 'searchprocess', 'senrigan', 'sgscout', 'shaggy', 'shaihulud', 'sift', 'simbot', 'site\-valet', 'sitetech', 'skymob', 'slcrawler', 'smartspider', 'snooper', 'solbot', 'speedy', 'spider[_+ ]monkey', 'spiderbot', 'spiderline', 'spiderman', 'spiderview', 'spry', 'sqworm', 'ssearcher', 'suke', 'sunrise', 'suntek', 'sven', 'tach_bw', 'tagyu_agent', 'tailrank', 'tarantula', 'tarspider', 'techbot', 'templeton', 'titan', 'titin', 'tkwww', 'tlspider', 'ucsd', 'udmsearch', 'universalfeedparser', 'urlck', 'valkyrie', 'verticrawl', 'victoria', 'visionsearch', 'voidbot', 'vwbot', 'w3index', 'w3m2', 'wallpaper', 'wanderer', 'wapspIRLider', 'webbandit', 'webcatcher', 'webcopy', 'webfetcher', 'webfoot', 'webinator', 'weblinker', 'webmirror', 'webmoose', 'webquest', 'webreader', 'webreaper', 'websnarf', 'webspider', 'webvac', 'webwalk', 'webwalker', 'webwatch', 'whatuseek', 'whowhere', 'wired\-digital', 'wmir', 'wolp', 'wombat', 'wordpress', 'worm', 'woozweb', 'wwwc', 'wz101', 'xget', '1\-more_scanner', 'accoona\-ai\-agent', 'activebookmark', 'adamm_bot', 'almaden', 'aipbot', 'aleadsoftbot', 'alpha_search_agent', 'allrati', 'aport', 'archive\.org_bot', 'argus', 'arianna\.libero\.it', 'aspseek', 'asterias', 'awbot', 'baiduspider', 'becomebot', 'bender', 'betabot', 'biglotron', 'bittorrent_bot', 'biz360[_+ ]spider', 'blogbridge[_+ ]service', 'bloglines', 'blogpulse', 'blogsearch', 'blogshares', 'blogslive', 'blogssay', 'bncf\.firenze\.sbn\.it\/raccolta\.txt', 'bobby', 'boitho\.com\-dc', 'bookmark\-manager', 'boris', 'bumblebee', 'candlelight[_+ ]favorites[_+ ]inspector', 'cbn00glebot', 'cerberian_drtrs', 'cfnetwork', 'cipinetbot', 'checkweb_link_validator', 'commons\-httpclient', 'computer_and_automation_research_institute_crawler', 'converamultimediacrawler', 'converacrawler', 'cscrawler', 'cse_html_validator_lite_online', 'cuasarbot', 'cursor', 'custo', 'datafountains\/dmoz_downloader', 'daviesbot', 'daypopbot', 'deepindex', 'dipsie\.bot', 'dnsgroup', 'domainchecker', 'domainsdb\.net', 'dulance', 'dumbot', 'dumm\.de\-bot', 'earthcom\.info', 'easydl', 'edgeio\-retriever', 'ets_v', 'exactseek', 'extreme[_+ ]picture[_+ ]finder', 'eventax', 'everbeecrawler', 'everest\-vulcan', 'ezresult', 'enteprise', 'facebook', 'fast_enterprise_crawler.*crawleradmin\.t\-info@telekom\.de', 'fast_enterprise_crawler.*t\-info_bi_cluster_crawleradmin\.t\-info@telekom\.de', 'matrix_s\.p\.a\._\-_fast_enterprise_crawler', 'fast_enterprise_crawler', 'fast\-search\-engine', 'favicon', 'favorg', 'favorites_sweeper', 'feedburner', 'feedfetcher\-google', 'feedflow', 'feedster', 'feedsky', 'feedvalidator', 'filmkamerabot', 'findlinks', 'findexa_crawler', 'fooky\.com\/ScorpionBot', 'g2crawler', 'gaisbot', 'geniebot', 'gigabot', 'girafabot', 'global_fetch', 'gnodspider', 'goforit\.com', 'goforitbot', 'gonzo', 'grub', 'gpu_p2p_crawler', 'henrythemiragorobot', 'heritrix', 'holmes', 'hoowwwer', 'hpprint', 'htmlparser', 'html[_+ ]link[_+ ]validator', 'httrack', 'hundesuche\.com\-bot', 'ichiro', 'iltrovatore\-setaccio', 'infobot', 'infociousbot', 'infomine', 'insurancobot', 'internet[_+ ]ninja', 'internetarchive', 'internetseer', 'internetsupervision', 'irlbot', 'isearch2006', 'iupui_research_bot', 'jrtwine[_+ ]software[_+ ]check[_+ ]favorites[_+ ]utility', 'justview', 'kalambot', 'kamano\.de_newsfeedverzeichnis', 'kazoombot', 'kevin', 'keyoshid', 'kinjabot', 'kinja\-imagebot', 'knowitall', 'knowledge\.com', 'kouaa_krawler', 'krugle', 'ksibot', 'kurzor', 'lanshanbot', 'letscrawl\.com', 'libcrawl', 'linkbot', 'link_valet_online', 'metager\-linkchecker', 'linkchecker', 'livejournal\.com', 'lmspider', 'lwp\-request', 'lwp\-trivial', 'magpierss', 'mail\.ru', 'mapoftheinternet\.com', 'mediapartners\-google', 'megite', 'metaspinner', 'microsoft[_+ ]url[_+ ]control', 'mini\-reptile', 'minirank', 'missigua_locator', 'misterbot', 'miva', 'mizzu_labs', 'mj12bot', 'mojeekbot', 'msiecrawler', 'ms_search_4\.0_robot', 'msrabot', 'msrbot', 'mt::telegraph::agent', 'nagios', 'nasa_search', 'mydoyouhike', 'netluchs', 'netsprint', 'newsgatoronline', 'nicebot', 'nimblecrawler', 'noxtrumbot', 'npbot', 'nutchcvs', 'nutchosu\-vlib', 'nutch', 'ocelli', 'octora_beta_bot', 'omniexplorer[_+ ]bot', 'onet\.pl[_+ ]sa', 'onfolio', 'opentaggerbot', 'openwebspider', 'oracle_ultra_search', 'orbiter', 'yodaobot', 'qihoobot', 'passwordmaker\.org', 'pear_http_request_class', 'peerbot', 'perman', 'php[_+ ]version[_+ ]tracker', 'pictureofinternet', 'ping\.blo\.gs', 'plinki', 'pluckfeedcrawler', 'pogodak', 'pompos', 'popdexter', 'port_huron_labs', 'postfavorites', 'projectwf\-java\-test\-crawler', 'proodlebot', 'pyquery', 'rambler', 'redalert', 'rojo', 'rssimagesbot', 'ruffle', 'rufusbot', 'sandcrawler', 'sbider', 'schizozilla', 'scumbot', 'searchguild[_+ ]dmoz[_+ ]experiment', 'seekbot', 'sensis_web_crawler', 'seznambot', 'shim\-crawler', 'shoutcast', 'slysearch', 'snap\.com_beta_crawler', 'sohu\-search', 'sohu', 'snappy', 'sphere_scout', 'spip', 'sproose_crawler', 'steeler', 'steroid__download', 'suchfin\-bot', 'superbot', 'surveybot', 'susie', 'syndic8', 'syndicapi', 'synoobot', 'tcl_http_client_package', 'technoratibot', 'teragramcrawlersurf', 'test_crawler', 'testbot', 't\-h\-u\-n\-d\-e\-r\-s\-t\-o\-n\-e', 'topicblogs', 'turnitinbot', 'turtlescanner', 'turtle', 'tutorgigbot', 'twiceler', 'ubicrawler', 'ultraseek', 'unchaos_bot_hybrid_web_search_engine', 'unido\-bot', 'updated', 'ustc\-semantic\-group', 'vagabondo\-wap', 'vagabondo', 'vermut', 'versus_crawler_from_eda\.baykan@epfl\.ch', 'vespa_crawler', 'vortex', 'vse\/', 'w3c\-checklink', 'w3c[_+ ]css[_+ ]validator[_+ ]jfouffa', 'w3c_validator', 'watchmouse', 'wavefire', 'webclipping\.com', 'webcompass', 'webcrawl\.net', 'web_downloader', 'webdup', 'webfilter', 'webindexer', 'webminer', 'website[_+ ]monitoring[_+ ]bot', 'webvulncrawl', 'wells_search', 'wonderer', 'wume_crawler', 'wwweasel', 'xenu\'s_link_sleuth', 'xenu_link_sleuth', 'xirq', 'y!j', 'yacy', 'yahoo\-blogs', 'yahoo\-verticalcrawler', 'yahoofeedseeker', 'yahooseeker\-testing', 'yahooseeker', 'yahoo\-mmcrawler', 'yahoo!_mindset', 'yandex', 'flexum', 'yanga', 'yooglifetchagent', 'z\-add_link_checker', 'zealbot', 'zhuaxia', 'zspider', 'zeus', 'ng\/1\.', 'ng\/2\.', 'exabot', 'wget', 'libwww', 'java\/[0-9]'] -search_engines = ['.*google\.[\w.]+/products.*', '.*base\.google\..*', '.*froogle\.google\..*', '.*groups\.google\..*', '.*images\.google\..*', '.*google\..*', '.*googlee\..*', '.*googlecom\.com.*', '.*goggle\.co\.hu.*', '.*216\.239\.(35|37|39|51)\.100.*', '.*216\.239\.(35|37|39|51)\.101.*', '.*216\.239\.5[0-9]\.104.*', '.*64\.233\.1[0-9]{2}\.104.*', '.*66\.102\.[1-9]\.104.*', '.*66\.249\.93\.104.*', '.*72\.14\.2[0-9]{2}\.104.*', '.*msn\..*', '.*live\.com.*', '.*bing\..*', '.*voila\..*', '.*mindset\.research\.yahoo.*', '.*yahoo\..*', '.*(66\.218\.71\.225|216\.109\.117\.135|216\.109\.125\.130|66\.218\.69\.11).*', '.*search\.aol\.co.*', '.*tiscali\..*', '.*lycos\..*', '.*alexa\.com.*', '.*alltheweb\.com.*', '.*altavista\..*', '.*a9\.com.*', '.*dmoz\.org.*', '.*netscape\..*', '.*search\.terra\..*', '.*www\.search\.com.*', '.*search\.sli\.sympatico\.ca.*', '.*excite\..*'] +search_engines = ['google\.[\w.]+/products', 'base\.google\.', 'froogle\.google\.', 'groups\.google\.', 'images\.google\.', 'google\.', 'googlee\.', 'googlecom\.com', 'goggle\.co\.hu', '216\.239\.(35|37|39|51)\.100', '216\.239\.(35|37|39|51)\.101', '216\.239\.5[0-9]\.104', '64\.233\.1[0-9]{2}\.104', '66\.102\.[1-9]\.104', '66\.249\.93\.104', '72\.14\.2[0-9]{2}\.104', 'msn\.', 'live\.com', 'bing\.', 'voila\.', 'mindset\.research\.yahoo', 'yahoo\.', '(66\.218\.71\.225|216\.109\.117\.135|216\.109\.125\.130|66\.218\.69\.11)', 'search\.aol\.co', 'tiscali\.', 'lycos\.', 'alexa\.com', 'alltheweb\.com', 'altavista\.', 'a9\.com', 'dmoz\.org', 'netscape\.', 'search\.terra\.', 'www\.search\.com', 'search\.sli\.sympatico\.ca', 'excite\.'] -search_engines_2 = ['.*4\-counter\.com.*', '.*att\.net.*', '.*bungeebonesdotcom.*', '.*northernlight\..*', '.*hotbot\..*', '.*kvasir\..*', '.*webcrawler\..*', '.*metacrawler\..*', '.*go2net\.com.*', '.*(^|\.)go\.com.*', '.*euroseek\..*', '.*looksmart\..*', '.*spray\..*', '.*nbci\.com\/search.*', '.*de\.ask.\com.*', '.*es\.ask.\com.*', '.*fr\.ask.\com.*', '.*it\.ask.\com.*', '.*nl\.ask.\com.*', '.*uk\.ask.\com.*', '.*(^|\.)ask\.com.*', '.*atomz\..*', '.*overture\.com.*', '.*teoma\..*', '.*findarticles\.com.*', '.*infospace\.com.*', '.*mamma\..*', '.*dejanews\..*', '.*dogpile\.com.*', '.*wisenut\.com.*', '.*ixquick\.com.*', '.*search\.earthlink\.net.*', '.*i-une\.com.*', '.*blingo\.com.*', '.*centraldatabase\.org.*', '.*clusty\.com.*', '.*mysearch\..*', '.*vivisimo\.com.*', '.*kartoo\.com.*', '.*icerocket\.com.*', '.*sphere\.com.*', '.*ledix\.net.*', '.*start\.shaw\.ca.*', '.*searchalot\.com.*', '.*copernic\.com.*', '.*avantfind\.com.*', '.*steadysearch\.com.*', '.*steady-search\.com.*', '.*chello\.at.*', '.*chello\.be.*', '.*chello\.cz.*', '.*chello\.fr.*', '.*chello\.hu.*', '.*chello\.nl.*', '.*chello\.no.*', '.*chello\.pl.*', '.*chello\.se.*', '.*chello\.sk.*', '.*chello.*', '.*mirago\.be.*', '.*mirago\.ch.*', '.*mirago\.de.*', '.*mirago\.dk.*', '.*es\.mirago\.com.*', '.*mirago\.fr.*', '.*mirago\.it.*', '.*mirago\.nl.*', '.*no\.mirago\.com.*', '.*mirago\.se.*', '.*mirago\.co\.uk.*', '.*mirago.*', '.*answerbus\.com.*', '.*icq\.com\/search.*', '.*nusearch\.com.*', '.*goodsearch\.com.*', '.*scroogle\.org.*', '.*questionanswering\.com.*', '.*mywebsearch\.com.*', '.*as\.starware\.com.*', '.*del\.icio\.us.*', '.*digg\.com.*', '.*stumbleupon\.com.*', '.*swik\.net.*', '.*segnalo\.alice\.it.*', '.*ineffabile\.it.*', '.*anzwers\.com\.au.*', '.*engine\.exe.*', '.*miner\.bol\.com\.br.*', '.*\.baidu\.com.*', '.*\.vnet\.cn.*', '.*\.soso\.com.*', '.*\.sogou\.com.*', '.*\.3721\.com.*', '.*iask\.com.*', '.*\.accoona\.com.*', '.*\.163\.com.*', '.*\.zhongsou\.com.*', '.*atlas\.cz.*', '.*seznam\.cz.*', '.*quick\.cz.*', '.*centrum\.cz.*', '.*jyxo\.(cz|com).*', '.*najdi\.to.*', '.*redbox\.cz.*', '.*opasia\.dk.*', '.*danielsen\.com.*', '.*sol\.dk.*', '.*jubii\.dk.*', '.*find\.dk.*', '.*edderkoppen\.dk.*', '.*netstjernen\.dk.*', '.*orbis\.dk.*', '.*tyfon\.dk.*', '.*1klik\.dk.*', '.*ofir\.dk.*', '.*ilse\..*', '.*vindex\..*', '.*(^|\.)ask\.co\.uk.*', '.*bbc\.co\.uk/cgi-bin/search.*', '.*ifind\.freeserve.*', '.*looksmart\.co\.uk.*', '.*splut\..*', '.*spotjockey\..*', '.*ukdirectory\..*', '.*ukindex\.co\.uk.*', '.*ukplus\..*', '.*searchy\.co\.uk.*', '.*haku\.www\.fi.*', '.*recherche\.aol\.fr.*', '.*ctrouve\..*', '.*francite\..*', '.*\.lbb\.org.*', '.*rechercher\.libertysurf\.fr.*', '.*search[\w\-]+\.free\.fr.*', '.*recherche\.club-internet\.fr.*', '.*toile\.com.*', '.*biglotron\.com.*', '.*mozbot\.fr.*', '.*sucheaol\.aol\.de.*', '.*fireball\.de.*', '.*infoseek\.de.*', '.*suche\d?\.web\.de.*', '.*[a-z]serv\.rrzn\.uni-hannover\.de.*', '.*suchen\.abacho\.de.*', '.*(brisbane|suche)\.t-online\.de.*', '.*allesklar\.de.*', '.*meinestadt\.de.*', '.*212\.227\.33\.241.*', '.*(161\.58\.227\.204|161\.58\.247\.101|212\.40\.165\.90|213\.133\.108\.202|217\.160\.108\.151|217\.160\.111\.99|217\.160\.131\.108|217\.160\.142\.227|217\.160\.176\.42).*', '.*wwweasel\.de.*', '.*netluchs\.de.*', '.*schoenerbrausen\.de.*', '.*heureka\.hu.*', '.*vizsla\.origo\.hu.*', '.*lapkereso\.hu.*', '.*goliat\.hu.*', '.*index\.hu.*', '.*wahoo\.hu.*', '.*webmania\.hu.*', '.*search\.internetto\.hu.*', '.*tango\.hu.*', '.*keresolap\.hu.*', '.*polymeta\.hu.*', '.*sify\.com.*', '.*virgilio\.it.*', '.*arianna\.libero\.it.*', '.*supereva\.com.*', '.*kataweb\.it.*', '.*search\.alice\.it\.master.*', '.*search\.alice\.it.*', '.*gotuneed\.com.*', '.*godado.*', '.*jumpy\.it.*', '.*shinyseek\.it.*', '.*teecno\.it.*', '.*ask\.jp.*', '.*sagool\.jp.*', '.*sok\.start\.no.*', '.*eniro\.no.*', '.*szukaj\.wp\.pl.*', '.*szukaj\.onet\.pl.*', '.*dodaj\.pl.*', '.*gazeta\.pl.*', '.*gery\.pl.*', '.*hoga\.pl.*', '.*netsprint\.pl.*', '.*interia\.pl.*', '.*katalog\.onet\.pl.*', '.*o2\.pl.*', '.*polska\.pl.*', '.*szukacz\.pl.*', '.*wow\.pl.*', '.*ya(ndex)?\.ru.*', '.*aport\.ru.*', '.*rambler\.ru.*', '.*turtle\.ru.*', '.*metabot\.ru.*', '.*evreka\.passagen\.se.*', '.*eniro\.se.*', '.*zoznam\.sk.*', '.*sapo\.pt.*', '.*search\.ch.*', '.*search\.bluewin\.ch.*', '.*pogodak\..*'] +search_engines_2 = ['4\-counter\.com', 'att\.net', 'bungeebonesdotcom', 'northernlight\.', 'hotbot\.', 'kvasir\.', 'webcrawler\.', 'metacrawler\.', 'go2net\.com', '(^|\.)go\.com', 'euroseek\.', 'looksmart\.', 'spray\.', 'nbci\.com\/search', 'de\.ask.\com', 'es\.ask.\com', 'fr\.ask.\com', 'it\.ask.\com', 'nl\.ask.\com', 'uk\.ask.\com', '(^|\.)ask\.com', 'atomz\.', 'overture\.com', 'teoma\.', 'findarticles\.com', 'infospace\.com', 'mamma\.', 'dejanews\.', 'dogpile\.com', 'wisenut\.com', 'ixquick\.com', 'search\.earthlink\.net', 'i-une\.com', 'blingo\.com', 'centraldatabase\.org', 'clusty\.com', 'mysearch\.', 'vivisimo\.com', 'kartoo\.com', 'icerocket\.com', 'sphere\.com', 'ledix\.net', 'start\.shaw\.ca', 'searchalot\.com', 'copernic\.com', 'avantfind\.com', 'steadysearch\.com', 'steady-search\.com', 'chello\.at', 'chello\.be', 'chello\.cz', 'chello\.fr', 'chello\.hu', 'chello\.nl', 'chello\.no', 'chello\.pl', 'chello\.se', 'chello\.sk', 'chello', 'mirago\.be', 'mirago\.ch', 'mirago\.de', 'mirago\.dk', 'es\.mirago\.com', 'mirago\.fr', 'mirago\.it', 'mirago\.nl', 'no\.mirago\.com', 'mirago\.se', 'mirago\.co\.uk', 'mirago', 'answerbus\.com', 'icq\.com\/search', 'nusearch\.com', 'goodsearch\.com', 'scroogle\.org', 'questionanswering\.com', 'mywebsearch\.com', 'as\.starware\.com', 'del\.icio\.us', 'digg\.com', 'stumbleupon\.com', 'swik\.net', 'segnalo\.alice\.it', 'ineffabile\.it', 'anzwers\.com\.au', 'engine\.exe', 'miner\.bol\.com\.br', '\.baidu\.com', '\.vnet\.cn', '\.soso\.com', '\.sogou\.com', '\.3721\.com', 'iask\.com', '\.accoona\.com', '\.163\.com', '\.zhongsou\.com', 'atlas\.cz', 'seznam\.cz', 'quick\.cz', 'centrum\.cz', 'jyxo\.(cz|com)', 'najdi\.to', 'redbox\.cz', 'opasia\.dk', 'danielsen\.com', 'sol\.dk', 'jubii\.dk', 'find\.dk', 'edderkoppen\.dk', 'netstjernen\.dk', 'orbis\.dk', 'tyfon\.dk', '1klik\.dk', 'ofir\.dk', 'ilse\.', 'vindex\.', '(^|\.)ask\.co\.uk', 'bbc\.co\.uk/cgi-bin/search', 'ifind\.freeserve', 'looksmart\.co\.uk', 'splut\.', 'spotjockey\.', 'ukdirectory\.', 'ukindex\.co\.uk', 'ukplus\.', 'searchy\.co\.uk', 'haku\.www\.fi', 'recherche\.aol\.fr', 'ctrouve\.', 'francite\.', '\.lbb\.org', 'rechercher\.libertysurf\.fr', 'search[\w\-]+\.free\.fr', 'recherche\.club-internet\.fr', 'toile\.com', 'biglotron\.com', 'mozbot\.fr', 'sucheaol\.aol\.de', 'fireball\.de', 'infoseek\.de', 'suche\d?\.web\.de', '[a-z]serv\.rrzn\.uni-hannover\.de', 'suchen\.abacho\.de', '(brisbane|suche)\.t-online\.de', 'allesklar\.de', 'meinestadt\.de', '212\.227\.33\.241', '(161\.58\.227\.204|161\.58\.247\.101|212\.40\.165\.90|213\.133\.108\.202|217\.160\.108\.151|217\.160\.111\.99|217\.160\.131\.108|217\.160\.142\.227|217\.160\.176\.42)', 'wwweasel\.de', 'netluchs\.de', 'schoenerbrausen\.de', 'heureka\.hu', 'vizsla\.origo\.hu', 'lapkereso\.hu', 'goliat\.hu', 'index\.hu', 'wahoo\.hu', 'webmania\.hu', 'search\.internetto\.hu', 'tango\.hu', 'keresolap\.hu', 'polymeta\.hu', 'sify\.com', 'virgilio\.it', 'arianna\.libero\.it', 'supereva\.com', 'kataweb\.it', 'search\.alice\.it\.master', 'search\.alice\.it', 'gotuneed\.com', 'godado', 'jumpy\.it', 'shinyseek\.it', 'teecno\.it', 'ask\.jp', 'sagool\.jp', 'sok\.start\.no', 'eniro\.no', 'szukaj\.wp\.pl', 'szukaj\.onet\.pl', 'dodaj\.pl', 'gazeta\.pl', 'gery\.pl', 'hoga\.pl', 'netsprint\.pl', 'interia\.pl', 'katalog\.onet\.pl', 'o2\.pl', 'polska\.pl', 'szukacz\.pl', 'wow\.pl', 'ya(ndex)?\.ru', 'aport\.ru', 'rambler\.ru', 'turtle\.ru', 'metabot\.ru', 'evreka\.passagen\.se', 'eniro\.se', 'zoznam\.sk', 'sapo\.pt', 'search\.ch', 'search\.bluewin\.ch', 'pogodak\.'] -not_search_engines_keys = {'.*yahoo\..*' : '(?:picks|mail)\.yahoo\.|yahoo\.[^/]+/picks', '.*altavista\..*' : 'babelfish\.altavista\.', '.*tiscali\..*' : 'mail\.tiscali\.', '.*yandex\..*' : 'direct\.yandex\.', '.*google\..*' : 'translate\.google\.', '.*msn\..*' : 'hotmail\.msn\.'} +not_search_engines_keys = {'yahoo\.' : '(?:picks|mail)\.yahoo\.|yahoo\.[^/]+/picks', 'altavista\.' : 'babelfish\.altavista\.', 'tiscali\.' : 'mail\.tiscali\.', 'yandex\.' : 'direct\.yandex\.', 'google\.' : 'translate\.google\.', 'msn\.' : 'hotmail\.msn\.'} -search_engines_hashid = {'.*search\.sli\.sympatico\.ca.*' : 'sympatico', '.*mywebsearch\.com.*' : 'mywebsearch', '.*netsprint\.pl\/hoga\-search.*' : 'hogapl', '.*findarticles\.com.*' : 'findarticles', '.*wow\.pl.*' : 'wowpl', '.*allesklar\.de.*' : 'allesklar', '.*atomz\..*' : 'atomz', '.*bing\..*' : 'bing', '.*find\.dk.*' : 'finddk', '.*google\..*' : 'google', '.*(66\.218\.71\.225|216\.109\.117\.135|216\.109\.125\.130|66\.218\.69\.11).*' : 'yahoo', '.*pogodak\..*' : 'pogodak', '.*ask\.jp.*' : 'askjp', '.*\.baidu\.com.*' : 'baidu', '.*tango\.hu.*' : 'tango_hu', '.*gotuneed\.com.*' : 'gotuneed', '.*quick\.cz.*' : 'quick', '.*mirago.*' : 'mirago', '.*szukaj\.wp\.pl.*' : 'wp', '.*mirago\.de.*' : 'miragode', '.*mirago\.dk.*' : 'miragodk', '.*katalog\.onet\.pl.*' : 'katalogonetpl', '.*googlee\..*' : 'google', '.*orbis\.dk.*' : 'orbis', '.*turtle\.ru.*' : 'turtle', '.*zoznam\.sk.*' : 'zoznam', '.*start\.shaw\.ca.*' : 'shawca', '.*chello\.at.*' : 'chelloat', '.*centraldatabase\.org.*' : 'centraldatabase', '.*centrum\.cz.*' : 'centrum', '.*kataweb\.it.*' : 'kataweb', '.*\.lbb\.org.*' : 'lbb', '.*blingo\.com.*' : 'blingo', '.*vivisimo\.com.*' : 'vivisimo', '.*stumbleupon\.com.*' : 'stumbleupon', '.*es\.ask.\com.*' : 'askes', '.*interia\.pl.*' : 'interiapl', '.*[a-z]serv\.rrzn\.uni-hannover\.de.*' : 'meta', '.*search\.alice\.it.*' : 'aliceit', '.*shinyseek\.it.*' : 'shinyseek\.it', '.*i-une\.com.*' : 'iune', '.*dejanews\..*' : 'dejanews', '.*opasia\.dk.*' : 'opasia', '.*chello\.cz.*' : 'chellocz', '.*ya(ndex)?\.ru.*' : 'yandex', '.*kartoo\.com.*' : 'kartoo', '.*arianna\.libero\.it.*' : 'arianna', '.*ofir\.dk.*' : 'ofir', '.*search\.earthlink\.net.*' : 'earthlink', '.*biglotron\.com.*' : 'biglotron', '.*lapkereso\.hu.*' : 'lapkereso', '.*216\.239\.(35|37|39|51)\.101.*' : 'google_cache', '.*miner\.bol\.com\.br.*' : 'miner', '.*dodaj\.pl.*' : 'dodajpl', '.*mirago\.be.*' : 'miragobe', '.*googlecom\.com.*' : 'google', '.*steadysearch\.com.*' : 'steadysearch', '.*redbox\.cz.*' : 'redbox', '.*haku\.www\.fi.*' : 'haku', '.*sapo\.pt.*' : 'sapo', '.*sphere\.com.*' : 'sphere', '.*danielsen\.com.*' : 'danielsen', '.*alexa\.com.*' : 'alexa', '.*mamma\..*' : 'mamma', '.*swik\.net.*' : 'swik', '.*polska\.pl.*' : 'polskapl', '.*groups\.google\..*' : 'google_groups', '.*metabot\.ru.*' : 'metabot', '.*rechercher\.libertysurf\.fr.*' : 'libertysurf', '.*szukaj\.onet\.pl.*' : 'onetpl', '.*aport\.ru.*' : 'aport', '.*de\.ask.\com.*' : 'askde', '.*splut\..*' : 'splut', '.*live\.com.*' : 'live', '.*216\.239\.5[0-9]\.104.*' : 'google_cache', '.*mysearch\..*' : 'mysearch', '.*ukplus\..*' : 'ukplus', '.*najdi\.to.*' : 'najdi', '.*overture\.com.*' : 'overture', '.*iask\.com.*' : 'iask', '.*nl\.ask.\com.*' : 'asknl', '.*nbci\.com\/search.*' : 'nbci', '.*search\.aol\.co.*' : 'aol', '.*eniro\.se.*' : 'enirose', '.*64\.233\.1[0-9]{2}\.104.*' : 'google_cache', '.*mirago\.ch.*' : 'miragoch', '.*altavista\..*' : 'altavista', '.*chello\.hu.*' : 'chellohu', '.*mozbot\.fr.*' : 'mozbot', '.*northernlight\..*' : 'northernlight', '.*mirago\.co\.uk.*' : 'miragocouk', '.*search[\w\-]+\.free\.fr.*' : 'free', '.*mindset\.research\.yahoo.*' : 'yahoo_mindset', '.*copernic\.com.*' : 'copernic', '.*heureka\.hu.*' : 'heureka', '.*steady-search\.com.*' : 'steadysearch', '.*teecno\.it.*' : 'teecnoit', '.*voila\..*' : 'voila', '.*netstjernen\.dk.*' : 'netstjernen', '.*keresolap\.hu.*' : 'keresolap_hu', '.*yahoo\..*' : 'yahoo', '.*icerocket\.com.*' : 'icerocket', '.*alltheweb\.com.*' : 'alltheweb', '.*www\.search\.com.*' : 'search.com', '.*digg\.com.*' : 'digg', '.*tiscali\..*' : 'tiscali', '.*spotjockey\..*' : 'spotjockey', '.*a9\.com.*' : 'a9', '.*(brisbane|suche)\.t-online\.de.*' : 't-online', '.*ifind\.freeserve.*' : 'freeserve', '.*att\.net.*' : 'att', '.*mirago\.it.*' : 'miragoit', '.*index\.hu.*' : 'indexhu', '.*\.sogou\.com.*' : 'sogou', '.*no\.mirago\.com.*' : 'miragono', '.*ineffabile\.it.*' : 'ineffabile', '.*netluchs\.de.*' : 'netluchs', '.*toile\.com.*' : 'toile', '.*search\..*\.\w+.*' : 'search', '.*del\.icio\.us.*' : 'delicious', '.*vizsla\.origo\.hu.*' : 'origo', '.*netscape\..*' : 'netscape', '.*dogpile\.com.*' : 'dogpile', '.*anzwers\.com\.au.*' : 'anzwers', '.*\.zhongsou\.com.*' : 'zhongsou', '.*ctrouve\..*' : 'ctrouve', '.*gazeta\.pl.*' : 'gazetapl', '.*recherche\.club-internet\.fr.*' : 'clubinternet', '.*sok\.start\.no.*' : 'start', '.*scroogle\.org.*' : 'scroogle', '.*schoenerbrausen\.de.*' : 'schoenerbrausen', '.*looksmart\.co\.uk.*' : 'looksmartuk', '.*wwweasel\.de.*' : 'wwweasel', '.*godado.*' : 'godado', '.*216\.239\.(35|37|39|51)\.100.*' : 'google_cache', '.*jubii\.dk.*' : 'jubii', '.*212\.227\.33\.241.*' : 'metaspinner', '.*mirago\.fr.*' : 'miragofr', '.*sol\.dk.*' : 'sol', '.*bbc\.co\.uk/cgi-bin/search.*' : 'bbc', '.*jumpy\.it.*' : 'jumpy\.it', '.*francite\..*' : 'francite', '.*infoseek\.de.*' : 'infoseek', '.*es\.mirago\.com.*' : 'miragoes', '.*jyxo\.(cz|com).*' : 'jyxo', '.*hotbot\..*' : 'hotbot', '.*engine\.exe.*' : 'engine', '.*(^|\.)ask\.com.*' : 'ask', '.*goliat\.hu.*' : 'goliat', '.*wisenut\.com.*' : 'wisenut', '.*mirago\.nl.*' : 'miragonl', '.*base\.google\..*' : 'google_base', '.*search\.bluewin\.ch.*' : 'bluewin', '.*lycos\..*' : 'lycos', '.*meinestadt\.de.*' : 'meinestadt', '.*4\-counter\.com.*' : 'google4counter', '.*search\.alice\.it\.master.*' : 'aliceitmaster', '.*teoma\..*' : 'teoma', '.*(^|\.)ask\.co\.uk.*' : 'askuk', '.*tyfon\.dk.*' : 'tyfon', '.*froogle\.google\..*' : 'google_froogle', '.*ukdirectory\..*' : 'ukdirectory', '.*ledix\.net.*' : 'ledix', '.*edderkoppen\.dk.*' : 'edderkoppen', '.*recherche\.aol\.fr.*' : 'aolfr', '.*google\.[\w.]+/products.*' : 'google_products', '.*webmania\.hu.*' : 'webmania', '.*searchy\.co\.uk.*' : 'searchy', '.*fr\.ask.\com.*' : 'askfr', '.*spray\..*' : 'spray', '.*72\.14\.2[0-9]{2}\.104.*' : 'google_cache', '.*eniro\.no.*' : 'eniro', '.*goodsearch\.com.*' : 'goodsearch', '.*kvasir\..*' : 'kvasir', '.*\.accoona\.com.*' : 'accoona', '.*\.soso\.com.*' : 'soso', '.*as\.starware\.com.*' : 'comettoolbar', '.*virgilio\.it.*' : 'virgilio', '.*o2\.pl.*' : 'o2pl', '.*chello\.nl.*' : 'chellonl', '.*chello\.be.*' : 'chellobe', '.*icq\.com\/search.*' : 'icq', '.*msn\..*' : 'msn', '.*fireball\.de.*' : 'fireball', '.*sucheaol\.aol\.de.*' : 'aolde', '.*uk\.ask.\com.*' : 'askuk', '.*euroseek\..*' : 'euroseek', '.*gery\.pl.*' : 'gerypl', '.*chello\.fr.*' : 'chellofr', '.*netsprint\.pl.*' : 'netsprintpl', '.*avantfind\.com.*' : 'avantfind', '.*supereva\.com.*' : 'supereva', '.*polymeta\.hu.*' : 'polymeta_hu', '.*infospace\.com.*' : 'infospace', '.*sify\.com.*' : 'sify', '.*go2net\.com.*' : 'go2net', '.*wahoo\.hu.*' : 'wahoo', '.*suche\d?\.web\.de.*' : 'webde', '.*(161\.58\.227\.204|161\.58\.247\.101|212\.40\.165\.90|213\.133\.108\.202|217\.160\.108\.151|217\.160\.111\.99|217\.160\.131\.108|217\.160\.142\.227|217\.160\.176\.42).*' : 'metacrawler_de', '.*\.3721\.com.*' : '3721', '.*ilse\..*' : 'ilse', '.*metacrawler\..*' : 'metacrawler', '.*sagool\.jp.*' : 'sagool', '.*atlas\.cz.*' : 'atlas', '.*vindex\..*' : 'vindex', '.*ixquick\.com.*' : 'ixquick', '.*66\.102\.[1-9]\.104.*' : 'google_cache', '.*rambler\.ru.*' : 'rambler', '.*answerbus\.com.*' : 'answerbus', '.*evreka\.passagen\.se.*' : 'passagen', '.*chello\.se.*' : 'chellose', '.*clusty\.com.*' : 'clusty', '.*search\.ch.*' : 'searchch', '.*chello\.no.*' : 'chellono', '.*searchalot\.com.*' : 'searchalot', '.*questionanswering\.com.*' : 'questionanswering', '.*seznam\.cz.*' : 'seznam', '.*ukindex\.co\.uk.*' : 'ukindex', '.*dmoz\.org.*' : 'dmoz', '.*excite\..*' : 'excite', '.*chello\.pl.*' : 'chellopl', '.*looksmart\..*' : 'looksmart', '.*1klik\.dk.*' : '1klik', '.*\.vnet\.cn.*' : 'vnet', '.*chello\.sk.*' : 'chellosk', '.*(^|\.)go\.com.*' : 'go', '.*nusearch\.com.*' : 'nusearch', '.*it\.ask.\com.*' : 'askit', '.*bungeebonesdotcom.*' : 'bungeebonesdotcom', '.*search\.terra\..*' : 'terra', '.*webcrawler\..*' : 'webcrawler', '.*suchen\.abacho\.de.*' : 'abacho', '.*szukacz\.pl.*' : 'szukaczpl', '.*66\.249\.93\.104.*' : 'google_cache', '.*search\.internetto\.hu.*' : 'internetto', '.*goggle\.co\.hu.*' : 'google', '.*mirago\.se.*' : 'miragose', '.*images\.google\..*' : 'google_image', '.*segnalo\.alice\.it.*' : 'segnalo', '.*\.163\.com.*' : 'netease', '.*chello.*' : 'chellocom'} +search_engines_hashid = {'search\.sli\.sympatico\.ca' : 'sympatico', 'mywebsearch\.com' : 'mywebsearch', 'netsprint\.pl\/hoga\-search' : 'hogapl', 'findarticles\.com' : 'findarticles', 'wow\.pl' : 'wowpl', 'allesklar\.de' : 'allesklar', 'atomz\.' : 'atomz', 'bing\.' : 'bing', 'find\.dk' : 'finddk', 'google\.' : 'google', '(66\.218\.71\.225|216\.109\.117\.135|216\.109\.125\.130|66\.218\.69\.11)' : 'yahoo', 'pogodak\.' : 'pogodak', 'ask\.jp' : 'askjp', '\.baidu\.com' : 'baidu', 'tango\.hu' : 'tango_hu', 'gotuneed\.com' : 'gotuneed', 'quick\.cz' : 'quick', 'mirago' : 'mirago', 'szukaj\.wp\.pl' : 'wp', 'mirago\.de' : 'miragode', 'mirago\.dk' : 'miragodk', 'katalog\.onet\.pl' : 'katalogonetpl', 'googlee\.' : 'google', 'orbis\.dk' : 'orbis', 'turtle\.ru' : 'turtle', 'zoznam\.sk' : 'zoznam', 'start\.shaw\.ca' : 'shawca', 'chello\.at' : 'chelloat', 'centraldatabase\.org' : 'centraldatabase', 'centrum\.cz' : 'centrum', 'kataweb\.it' : 'kataweb', '\.lbb\.org' : 'lbb', 'blingo\.com' : 'blingo', 'vivisimo\.com' : 'vivisimo', 'stumbleupon\.com' : 'stumbleupon', 'es\.ask.\com' : 'askes', 'interia\.pl' : 'interiapl', '[a-z]serv\.rrzn\.uni-hannover\.de' : 'meta', 'search\.alice\.it' : 'aliceit', 'shinyseek\.it' : 'shinyseek\.it', 'i-une\.com' : 'iune', 'dejanews\.' : 'dejanews', 'opasia\.dk' : 'opasia', 'chello\.cz' : 'chellocz', 'ya(ndex)?\.ru' : 'yandex', 'kartoo\.com' : 'kartoo', 'arianna\.libero\.it' : 'arianna', 'ofir\.dk' : 'ofir', 'search\.earthlink\.net' : 'earthlink', 'biglotron\.com' : 'biglotron', 'lapkereso\.hu' : 'lapkereso', '216\.239\.(35|37|39|51)\.101' : 'google_cache', 'miner\.bol\.com\.br' : 'miner', 'dodaj\.pl' : 'dodajpl', 'mirago\.be' : 'miragobe', 'googlecom\.com' : 'google', 'steadysearch\.com' : 'steadysearch', 'redbox\.cz' : 'redbox', 'haku\.www\.fi' : 'haku', 'sapo\.pt' : 'sapo', 'sphere\.com' : 'sphere', 'danielsen\.com' : 'danielsen', 'alexa\.com' : 'alexa', 'mamma\.' : 'mamma', 'swik\.net' : 'swik', 'polska\.pl' : 'polskapl', 'groups\.google\.' : 'google_groups', 'metabot\.ru' : 'metabot', 'rechercher\.libertysurf\.fr' : 'libertysurf', 'szukaj\.onet\.pl' : 'onetpl', 'aport\.ru' : 'aport', 'de\.ask.\com' : 'askde', 'splut\.' : 'splut', 'live\.com' : 'live', '216\.239\.5[0-9]\.104' : 'google_cache', 'mysearch\.' : 'mysearch', 'ukplus\.' : 'ukplus', 'najdi\.to' : 'najdi', 'overture\.com' : 'overture', 'iask\.com' : 'iask', 'nl\.ask.\com' : 'asknl', 'nbci\.com\/search' : 'nbci', 'search\.aol\.co' : 'aol', 'eniro\.se' : 'enirose', '64\.233\.1[0-9]{2}\.104' : 'google_cache', 'mirago\.ch' : 'miragoch', 'altavista\.' : 'altavista', 'chello\.hu' : 'chellohu', 'mozbot\.fr' : 'mozbot', 'northernlight\.' : 'northernlight', 'mirago\.co\.uk' : 'miragocouk', 'search[\w\-]+\.free\.fr' : 'free', 'mindset\.research\.yahoo' : 'yahoo_mindset', 'copernic\.com' : 'copernic', 'heureka\.hu' : 'heureka', 'steady-search\.com' : 'steadysearch', 'teecno\.it' : 'teecnoit', 'voila\.' : 'voila', 'netstjernen\.dk' : 'netstjernen', 'keresolap\.hu' : 'keresolap_hu', 'yahoo\.' : 'yahoo', 'icerocket\.com' : 'icerocket', 'alltheweb\.com' : 'alltheweb', 'www\.search\.com' : 'search.com', 'digg\.com' : 'digg', 'tiscali\.' : 'tiscali', 'spotjockey\.' : 'spotjockey', 'a9\.com' : 'a9', '(brisbane|suche)\.t-online\.de' : 't-online', 'ifind\.freeserve' : 'freeserve', 'att\.net' : 'att', 'mirago\.it' : 'miragoit', 'index\.hu' : 'indexhu', '\.sogou\.com' : 'sogou', 'no\.mirago\.com' : 'miragono', 'ineffabile\.it' : 'ineffabile', 'netluchs\.de' : 'netluchs', 'toile\.com' : 'toile', 'search\..*\.\w+' : 'search', 'del\.icio\.us' : 'delicious', 'vizsla\.origo\.hu' : 'origo', 'netscape\.' : 'netscape', 'dogpile\.com' : 'dogpile', 'anzwers\.com\.au' : 'anzwers', '\.zhongsou\.com' : 'zhongsou', 'ctrouve\.' : 'ctrouve', 'gazeta\.pl' : 'gazetapl', 'recherche\.club-internet\.fr' : 'clubinternet', 'sok\.start\.no' : 'start', 'scroogle\.org' : 'scroogle', 'schoenerbrausen\.de' : 'schoenerbrausen', 'looksmart\.co\.uk' : 'looksmartuk', 'wwweasel\.de' : 'wwweasel', 'godado' : 'godado', '216\.239\.(35|37|39|51)\.100' : 'google_cache', 'jubii\.dk' : 'jubii', '212\.227\.33\.241' : 'metaspinner', 'mirago\.fr' : 'miragofr', 'sol\.dk' : 'sol', 'bbc\.co\.uk/cgi-bin/search' : 'bbc', 'jumpy\.it' : 'jumpy\.it', 'francite\.' : 'francite', 'infoseek\.de' : 'infoseek', 'es\.mirago\.com' : 'miragoes', 'jyxo\.(cz|com)' : 'jyxo', 'hotbot\.' : 'hotbot', 'engine\.exe' : 'engine', '(^|\.)ask\.com' : 'ask', 'goliat\.hu' : 'goliat', 'wisenut\.com' : 'wisenut', 'mirago\.nl' : 'miragonl', 'base\.google\.' : 'google_base', 'search\.bluewin\.ch' : 'bluewin', 'lycos\.' : 'lycos', 'meinestadt\.de' : 'meinestadt', '4\-counter\.com' : 'google4counter', 'search\.alice\.it\.master' : 'aliceitmaster', 'teoma\.' : 'teoma', '(^|\.)ask\.co\.uk' : 'askuk', 'tyfon\.dk' : 'tyfon', 'froogle\.google\.' : 'google_froogle', 'ukdirectory\.' : 'ukdirectory', 'ledix\.net' : 'ledix', 'edderkoppen\.dk' : 'edderkoppen', 'recherche\.aol\.fr' : 'aolfr', 'google\.[\w.]+/products' : 'google_products', 'webmania\.hu' : 'webmania', 'searchy\.co\.uk' : 'searchy', 'fr\.ask.\com' : 'askfr', 'spray\.' : 'spray', '72\.14\.2[0-9]{2}\.104' : 'google_cache', 'eniro\.no' : 'eniro', 'goodsearch\.com' : 'goodsearch', 'kvasir\.' : 'kvasir', '\.accoona\.com' : 'accoona', '\.soso\.com' : 'soso', 'as\.starware\.com' : 'comettoolbar', 'virgilio\.it' : 'virgilio', 'o2\.pl' : 'o2pl', 'chello\.nl' : 'chellonl', 'chello\.be' : 'chellobe', 'icq\.com\/search' : 'icq', 'msn\.' : 'msn', 'fireball\.de' : 'fireball', 'sucheaol\.aol\.de' : 'aolde', 'uk\.ask.\com' : 'askuk', 'euroseek\.' : 'euroseek', 'gery\.pl' : 'gerypl', 'chello\.fr' : 'chellofr', 'netsprint\.pl' : 'netsprintpl', 'avantfind\.com' : 'avantfind', 'supereva\.com' : 'supereva', 'polymeta\.hu' : 'polymeta_hu', 'infospace\.com' : 'infospace', 'sify\.com' : 'sify', 'go2net\.com' : 'go2net', 'wahoo\.hu' : 'wahoo', 'suche\d?\.web\.de' : 'webde', '(161\.58\.227\.204|161\.58\.247\.101|212\.40\.165\.90|213\.133\.108\.202|217\.160\.108\.151|217\.160\.111\.99|217\.160\.131\.108|217\.160\.142\.227|217\.160\.176\.42)' : 'metacrawler_de', '\.3721\.com' : '3721', 'ilse\.' : 'ilse', 'metacrawler\.' : 'metacrawler', 'sagool\.jp' : 'sagool', 'atlas\.cz' : 'atlas', 'vindex\.' : 'vindex', 'ixquick\.com' : 'ixquick', '66\.102\.[1-9]\.104' : 'google_cache', 'rambler\.ru' : 'rambler', 'answerbus\.com' : 'answerbus', 'evreka\.passagen\.se' : 'passagen', 'chello\.se' : 'chellose', 'clusty\.com' : 'clusty', 'search\.ch' : 'searchch', 'chello\.no' : 'chellono', 'searchalot\.com' : 'searchalot', 'questionanswering\.com' : 'questionanswering', 'seznam\.cz' : 'seznam', 'ukindex\.co\.uk' : 'ukindex', 'dmoz\.org' : 'dmoz', 'excite\.' : 'excite', 'chello\.pl' : 'chellopl', 'looksmart\.' : 'looksmart', '1klik\.dk' : '1klik', '\.vnet\.cn' : 'vnet', 'chello\.sk' : 'chellosk', '(^|\.)go\.com' : 'go', 'nusearch\.com' : 'nusearch', 'it\.ask.\com' : 'askit', 'bungeebonesdotcom' : 'bungeebonesdotcom', 'search\.terra\.' : 'terra', 'webcrawler\.' : 'webcrawler', 'suchen\.abacho\.de' : 'abacho', 'szukacz\.pl' : 'szukaczpl', '66\.249\.93\.104' : 'google_cache', 'search\.internetto\.hu' : 'internetto', 'goggle\.co\.hu' : 'google', 'mirago\.se' : 'miragose', 'images\.google\.' : 'google_image', 'segnalo\.alice\.it' : 'segnalo', '\.163\.com' : 'netease', 'chello' : 'chellocom'} -search_engines_knwown_url = {'.*dmoz.*' : 'search=', '.*google.*' : '(p|q|as_p|as_q)=', '.*searchalot.*' : 'q=', '.*teoma.*' : 'q=', '.*looksmartuk.*' : 'key=', '.*polymeta_hu.*' : '', '.*google_groups.*' : 'group\/', '.*iune.*' : '(keywords|q)=', '.*chellosk.*' : 'q1=', '.*eniro.*' : 'q=', '.*msn.*' : 'q=', '.*webcrawler.*' : 'searchText=', '.*mirago.*' : '(txtsearch|qry)=', '.*enirose.*' : 'q=', '.*miragobe.*' : '(txtsearch|qry)=', '.*netease.*' : 'q=', '.*netluchs.*' : 'query=', '.*google_products.*' : '(p|q|as_p|as_q)=', '.*jyxo.*' : '(s|q)=', '.*origo.*' : '(q|search)=', '.*ilse.*' : 'search_for=', '.*chellocom.*' : 'q1=', '.*goodsearch.*' : 'Keywords=', '.*ledix.*' : 'q=', '.*mozbot.*' : 'q=', '.*chellocz.*' : 'q1=', '.*webde.*' : 'su=', '.*biglotron.*' : 'question=', '.*metacrawler_de.*' : 'qry=', '.*finddk.*' : 'words=', '.*start.*' : 'q=', '.*sagool.*' : 'q=', '.*miragoch.*' : '(txtsearch|qry)=', '.*google_base.*' : '(p|q|as_p|as_q)=', '.*aliceit.*' : 'qs=', '.*shinyseek\.it.*' : 'KEY=', '.*onetpl.*' : 'qt=', '.*clusty.*' : 'query=', '.*chellonl.*' : 'q1=', '.*miragode.*' : '(txtsearch|qry)=', '.*miragose.*' : '(txtsearch|qry)=', '.*o2pl.*' : 'qt=', '.*goliat.*' : 'KERESES=', '.*kvasir.*' : 'q=', '.*askfr.*' : '(ask|q)=', '.*infoseek.*' : 'qt=', '.*yahoo_mindset.*' : 'p=', '.*comettoolbar.*' : 'qry=', '.*alltheweb.*' : 'q(|uery)=', '.*miner.*' : 'q=', '.*aol.*' : 'query=', '.*rambler.*' : 'words=', '.*scroogle.*' : 'Gw=', '.*chellose.*' : 'q1=', '.*ineffabile.*' : '', '.*miragoit.*' : '(txtsearch|qry)=', '.*yandex.*' : 'text=', '.*segnalo.*' : '', '.*dodajpl.*' : 'keyword=', '.*avantfind.*' : 'keywords=', '.*nusearch.*' : 'nusearch_terms=', '.*bbc.*' : 'q=', '.*supereva.*' : 'q=', '.*atomz.*' : 'sp-q=', '.*searchy.*' : 'search_term=', '.*dogpile.*' : 'q(|kw)=', '.*chellohu.*' : 'q1=', '.*vnet.*' : 'kw=', '.*1klik.*' : 'query=', '.*t-online.*' : 'q=', '.*hogapl.*' : 'qt=', '.*stumbleupon.*' : '', '.*soso.*' : 'q=', '.*zhongsou.*' : '(word|w)=', '.*a9.*' : 'a9\.com\/', '.*centraldatabase.*' : 'query=', '.*mamma.*' : 'query=', '.*icerocket.*' : 'q=', '.*ask.*' : '(ask|q)=', '.*chellobe.*' : 'q1=', '.*altavista.*' : 'q=', '.*vindex.*' : 'in=', '.*miragodk.*' : '(txtsearch|qry)=', '.*chelloat.*' : 'q1=', '.*digg.*' : 's=', '.*metacrawler.*' : 'general=', '.*nbci.*' : 'keyword=', '.*chellono.*' : 'q1=', '.*icq.*' : 'q=', '.*arianna.*' : 'query=', '.*miragocouk.*' : '(txtsearch|qry)=', '.*3721.*' : '(p|name)=', '.*pogodak.*' : 'q=', '.*ukdirectory.*' : 'k=', '.*overture.*' : 'keywords=', '.*heureka.*' : 'heureka=', '.*teecnoit.*' : 'q=', '.*miragoes.*' : '(txtsearch|qry)=', '.*haku.*' : 'w=', '.*go.*' : 'qt=', '.*fireball.*' : 'q=', '.*wisenut.*' : 'query=', '.*sify.*' : 'keyword=', '.*ixquick.*' : 'query=', '.*anzwers.*' : 'search=', '.*quick.*' : 'query=', '.*jubii.*' : 'soegeord=', '.*questionanswering.*' : '', '.*asknl.*' : '(ask|q)=', '.*askde.*' : '(ask|q)=', '.*att.*' : 'qry=', '.*terra.*' : 'query=', '.*bing.*' : 'q=', '.*wowpl.*' : 'q=', '.*freeserve.*' : 'q=', '.*atlas.*' : '(searchtext|q)=', '.*askuk.*' : '(ask|q)=', '.*godado.*' : 'Keywords=', '.*northernlight.*' : 'qr=', '.*answerbus.*' : '', '.*search.com.*' : 'q=', '.*google_image.*' : '(p|q|as_p|as_q)=', '.*jumpy\.it.*' : 'searchWord=', '.*gazetapl.*' : 'slowo=', '.*yahoo.*' : 'p=', '.*hotbot.*' : 'mt=', '.*metabot.*' : 'st=', '.*copernic.*' : 'web\/', '.*kartoo.*' : '', '.*metaspinner.*' : 'qry=', '.*toile.*' : 'q=', '.*aolde.*' : 'q=', '.*blingo.*' : 'q=', '.*askit.*' : '(ask|q)=', '.*netscape.*' : 'search=', '.*splut.*' : 'pattern=', '.*looksmart.*' : 'key=', '.*sphere.*' : 'q=', '.*sol.*' : 'q=', '.*miragono.*' : '(txtsearch|qry)=', '.*kataweb.*' : 'q=', '.*ofir.*' : 'querytext=', '.*aliceitmaster.*' : 'qs=', '.*miragofr.*' : '(txtsearch|qry)=', '.*spray.*' : 'string=', '.*seznam.*' : '(w|q)=', '.*interiapl.*' : 'q=', '.*euroseek.*' : 'query=', '.*schoenerbrausen.*' : 'q=', '.*centrum.*' : 'q=', '.*netsprintpl.*' : 'q=', '.*go2net.*' : 'general=', '.*katalogonetpl.*' : 'qt=', '.*ukindex.*' : 'stext=', '.*shawca.*' : 'q=', '.*szukaczpl.*' : 'q=', '.*accoona.*' : 'qt=', '.*live.*' : 'q=', '.*google4counter.*' : '(p|q|as_p|as_q)=', '.*iask.*' : '(w|k)=', '.*earthlink.*' : 'q=', '.*tiscali.*' : 'key=', '.*askes.*' : '(ask|q)=', '.*gotuneed.*' : '', '.*clubinternet.*' : 'q=', '.*redbox.*' : 'srch=', '.*delicious.*' : 'all=', '.*chellofr.*' : 'q1=', '.*lycos.*' : 'query=', '.*sympatico.*' : 'query=', '.*vivisimo.*' : 'query=', '.*bluewin.*' : 'qry=', '.*mysearch.*' : 'searchfor=', '.*google_cache.*' : '(p|q|as_p|as_q)=cache:[0-9A-Za-z]{12}:', '.*ukplus.*' : 'search=', '.*gerypl.*' : 'q=', '.*keresolap_hu.*' : 'q=', '.*abacho.*' : 'q=', '.*engine.*' : 'p1=', '.*opasia.*' : 'q=', '.*wp.*' : 'szukaj=', '.*steadysearch.*' : 'w=', '.*chellopl.*' : 'q1=', '.*voila.*' : '(kw|rdata)=', '.*aport.*' : 'r=', '.*internetto.*' : 'searchstr=', '.*passagen.*' : 'q=', '.*wwweasel.*' : 'q=', '.*najdi.*' : 'dotaz=', '.*alexa.*' : 'q=', '.*baidu.*' : '(wd|word)=', '.*spotjockey.*' : 'Search_Keyword=', '.*virgilio.*' : 'qs=', '.*orbis.*' : 'search_field=', '.*tango_hu.*' : 'q=', '.*askjp.*' : '(ask|q)=', '.*bungeebonesdotcom.*' : 'query=', '.*francite.*' : 'name=', '.*searchch.*' : 'q=', '.*google_froogle.*' : '(p|q|as_p|as_q)=', '.*excite.*' : 'search=', '.*infospace.*' : 'qkw=', '.*polskapl.*' : 'qt=', '.*swik.*' : 'swik\.net/', '.*edderkoppen.*' : 'query=', '.*mywebsearch.*' : 'searchfor=', '.*danielsen.*' : 'q=', '.*wahoo.*' : 'q=', '.*sogou.*' : 'query=', '.*miragonl.*' : '(txtsearch|qry)=', '.*findarticles.*' : 'key='} +search_engines_knwown_url = {'dmoz' : 'search=', 'google' : '(p|q|as_p|as_q)=', 'searchalot' : 'q=', 'teoma' : 'q=', 'looksmartuk' : 'key=', 'polymeta_hu' : '', 'google_groups' : 'group\/', 'iune' : '(keywords|q)=', 'chellosk' : 'q1=', 'eniro' : 'q=', 'msn' : 'q=', 'webcrawler' : 'searchText=', 'mirago' : '(txtsearch|qry)=', 'enirose' : 'q=', 'miragobe' : '(txtsearch|qry)=', 'netease' : 'q=', 'netluchs' : 'query=', 'google_products' : '(p|q|as_p|as_q)=', 'jyxo' : '(s|q)=', 'origo' : '(q|search)=', 'ilse' : 'search_for=', 'chellocom' : 'q1=', 'goodsearch' : 'Keywords=', 'ledix' : 'q=', 'mozbot' : 'q=', 'chellocz' : 'q1=', 'webde' : 'su=', 'biglotron' : 'question=', 'metacrawler_de' : 'qry=', 'finddk' : 'words=', 'start' : 'q=', 'sagool' : 'q=', 'miragoch' : '(txtsearch|qry)=', 'google_base' : '(p|q|as_p|as_q)=', 'aliceit' : 'qs=', 'shinyseek\.it' : 'KEY=', 'onetpl' : 'qt=', 'clusty' : 'query=', 'chellonl' : 'q1=', 'miragode' : '(txtsearch|qry)=', 'miragose' : '(txtsearch|qry)=', 'o2pl' : 'qt=', 'goliat' : 'KERESES=', 'kvasir' : 'q=', 'askfr' : '(ask|q)=', 'infoseek' : 'qt=', 'yahoo_mindset' : 'p=', 'comettoolbar' : 'qry=', 'alltheweb' : 'q(|uery)=', 'miner' : 'q=', 'aol' : 'query=', 'rambler' : 'words=', 'scroogle' : 'Gw=', 'chellose' : 'q1=', 'ineffabile' : '', 'miragoit' : '(txtsearch|qry)=', 'yandex' : 'text=', 'segnalo' : '', 'dodajpl' : 'keyword=', 'avantfind' : 'keywords=', 'nusearch' : 'nusearch_terms=', 'bbc' : 'q=', 'supereva' : 'q=', 'atomz' : 'sp-q=', 'searchy' : 'search_term=', 'dogpile' : 'q(|kw)=', 'chellohu' : 'q1=', 'vnet' : 'kw=', '1klik' : 'query=', 't-online' : 'q=', 'hogapl' : 'qt=', 'stumbleupon' : '', 'soso' : 'q=', 'zhongsou' : '(word|w)=', 'a9' : 'a9\.com\/', 'centraldatabase' : 'query=', 'mamma' : 'query=', 'icerocket' : 'q=', 'ask' : '(ask|q)=', 'chellobe' : 'q1=', 'altavista' : 'q=', 'vindex' : 'in=', 'miragodk' : '(txtsearch|qry)=', 'chelloat' : 'q1=', 'digg' : 's=', 'metacrawler' : 'general=', 'nbci' : 'keyword=', 'chellono' : 'q1=', 'icq' : 'q=', 'arianna' : 'query=', 'miragocouk' : '(txtsearch|qry)=', '3721' : '(p|name)=', 'pogodak' : 'q=', 'ukdirectory' : 'k=', 'overture' : 'keywords=', 'heureka' : 'heureka=', 'teecnoit' : 'q=', 'miragoes' : '(txtsearch|qry)=', 'haku' : 'w=', 'go' : 'qt=', 'fireball' : 'q=', 'wisenut' : 'query=', 'sify' : 'keyword=', 'ixquick' : 'query=', 'anzwers' : 'search=', 'quick' : 'query=', 'jubii' : 'soegeord=', 'questionanswering' : '', 'asknl' : '(ask|q)=', 'askde' : '(ask|q)=', 'att' : 'qry=', 'terra' : 'query=', 'bing' : 'q=', 'wowpl' : 'q=', 'freeserve' : 'q=', 'atlas' : '(searchtext|q)=', 'askuk' : '(ask|q)=', 'godado' : 'Keywords=', 'northernlight' : 'qr=', 'answerbus' : '', 'search.com' : 'q=', 'google_image' : '(p|q|as_p|as_q)=', 'jumpy\.it' : 'searchWord=', 'gazetapl' : 'slowo=', 'yahoo' : 'p=', 'hotbot' : 'mt=', 'metabot' : 'st=', 'copernic' : 'web\/', 'kartoo' : '', 'metaspinner' : 'qry=', 'toile' : 'q=', 'aolde' : 'q=', 'blingo' : 'q=', 'askit' : '(ask|q)=', 'netscape' : 'search=', 'splut' : 'pattern=', 'looksmart' : 'key=', 'sphere' : 'q=', 'sol' : 'q=', 'miragono' : '(txtsearch|qry)=', 'kataweb' : 'q=', 'ofir' : 'querytext=', 'aliceitmaster' : 'qs=', 'miragofr' : '(txtsearch|qry)=', 'spray' : 'string=', 'seznam' : '(w|q)=', 'interiapl' : 'q=', 'euroseek' : 'query=', 'schoenerbrausen' : 'q=', 'centrum' : 'q=', 'netsprintpl' : 'q=', 'go2net' : 'general=', 'katalogonetpl' : 'qt=', 'ukindex' : 'stext=', 'shawca' : 'q=', 'szukaczpl' : 'q=', 'accoona' : 'qt=', 'live' : 'q=', 'google4counter' : '(p|q|as_p|as_q)=', 'iask' : '(w|k)=', 'earthlink' : 'q=', 'tiscali' : 'key=', 'askes' : '(ask|q)=', 'gotuneed' : '', 'clubinternet' : 'q=', 'redbox' : 'srch=', 'delicious' : 'all=', 'chellofr' : 'q1=', 'lycos' : 'query=', 'sympatico' : 'query=', 'vivisimo' : 'query=', 'bluewin' : 'qry=', 'mysearch' : 'searchfor=', 'google_cache' : '(p|q|as_p|as_q)=cache:[0-9A-Za-z]{12}:', 'ukplus' : 'search=', 'gerypl' : 'q=', 'keresolap_hu' : 'q=', 'abacho' : 'q=', 'engine' : 'p1=', 'opasia' : 'q=', 'wp' : 'szukaj=', 'steadysearch' : 'w=', 'chellopl' : 'q1=', 'voila' : '(kw|rdata)=', 'aport' : 'r=', 'internetto' : 'searchstr=', 'passagen' : 'q=', 'wwweasel' : 'q=', 'najdi' : 'dotaz=', 'alexa' : 'q=', 'baidu' : '(wd|word)=', 'spotjockey' : 'Search_Keyword=', 'virgilio' : 'qs=', 'orbis' : 'search_field=', 'tango_hu' : 'q=', 'askjp' : '(ask|q)=', 'bungeebonesdotcom' : 'query=', 'francite' : 'name=', 'searchch' : 'q=', 'google_froogle' : '(p|q|as_p|as_q)=', 'excite' : 'search=', 'infospace' : 'qkw=', 'polskapl' : 'qt=', 'swik' : 'swik\.net/', 'edderkoppen' : 'query=', 'mywebsearch' : 'searchfor=', 'danielsen' : 'q=', 'wahoo' : 'q=', 'sogou' : 'query=', 'miragonl' : '(txtsearch|qry)=', 'findarticles' : 'key='} diff --git a/iwla_convert.pl b/iwla_convert.pl index 5a74cf8..b5c9587 100755 --- a/iwla_convert.pl +++ b/iwla_convert.pl @@ -24,7 +24,7 @@ sub dumpList { { $first = 0; } - print $FIC "'.*$r.*'"; + print $FIC "'$r'"; } } @@ -44,7 +44,7 @@ sub dumpHash { { $first = 0; } - print $FIC "'.*$k.*' : '$v'"; + print $FIC "'$k' : '$v'"; } } diff --git a/plugins/display/referers.py b/plugins/display/referers.py index 56924d9..a279c4a 100644 --- a/plugins/display/referers.py +++ b/plugins/display/referers.py @@ -13,6 +13,14 @@ class IWLADisplayReferers(IPlugin): super(IWLADisplayReferers, self).__init__(iwla) self.API_VERSION = 1 + def _getSearchEngine(self, engine): + for (k, e) in self.search_engines.items(): + for hashid in e['hashid']: + if hashid.match(engine): + return k + print 'Not found %s' % (engine) + return None + def load(self): domain_name = self.iwla.getConfValue('domain_name', '') @@ -23,26 +31,40 @@ class IWLADisplayReferers(IPlugin): self.own_domain_re = re.compile('.*%s.*' % (domain_name)) self.search_engines = {} - for engine in awstats_data.search_engines: + for (engine, known_url) in awstats_data.search_engines_knwown_url.items(): self.search_engines[engine] = { - 're' : re.compile(engine, re.IGNORECASE) + 'known_url' : re.compile(known_url + '(?P.+)'), + 'hashid' : [] } - + + for (hashid, engine) in awstats_data.search_engines_hashid.items(): + hashid_re = re.compile('.*%s.*' % (hashid)) + if not engine in self.search_engines.keys(): + self.search_engines[engine] = { + 'hashid' : [hashid_re] + } + else: + self.search_engines[engine]['hashid'].append(hashid_re) + print 'Hashid %s => %s' % (engine, hashid) + for (engine, not_engine) in awstats_data.not_search_engines_keys.items(): - if not engine in self.search_engines: continue - self.search_engines[engine]['not_search_engine'] = \ - re.compile(not_engine, re.IGNORECASE) + not_engine_re = re.compile('.*%s.*' % (not_engine)) + key = self._getSearchEngine(engine) + if key: + self.search_engines[key]['not_search_engine'] = not_engine_re - for (engine, name) in awstats_data.search_engines_hashid.items(): - if not engine in self.search_engines: continue - self.search_engines[engine]['name'] = name + for engine in awstats_data.search_engines: + engine_re = re.compile('.*%s.*' % (engine), re.IGNORECASE) + key = self._getSearchEngine(engine) + if key: + self.search_engines[key]['re'] = not_engine_re - for (engine, knwown_url) in awstats_data.search_engines_knwown_url.items(): - engine = engin[2:-2] - if not engine in self.search_engines: continue - print knwown_url - self.search_engines[engine]['known_url'] = re.compile(known_url + '(?P.+)') + for (k,e) in self.search_engines.items(): + if not 're' in e.keys(): + print 'Remove %s' % k + del self.search_engines[k] + print self.search_engines self.html_parser = HTMLParser.HTMLParser() @@ -51,7 +73,6 @@ class IWLADisplayReferers(IPlugin): def _extractKeyPhrase(self, key_phrase_re, parameters, key_phrases): if not parameters or not key_phrase_re: return - for p in parameters.split('&'): groups = key_phrase_re.match(p) if groups: @@ -89,8 +110,8 @@ class IWLADisplayReferers(IPlugin): parameters = r['extract_referer'].get('extract_parameters', None) key_phrase_re = e.get('known_url', None) - print parameters - print key_phrase_re + # print parameters + # print key_phrase_re self._extractKeyPhrase(key_phrase_re, parameters, key_phrases) diff --git a/plugins/pre_analysis/robots.py b/plugins/pre_analysis/robots.py index 6211ade..78ba2ff 100644 --- a/plugins/pre_analysis/robots.py +++ b/plugins/pre_analysis/robots.py @@ -11,7 +11,7 @@ class IWLAPreAnalysisRobots(IPlugin): self.API_VERSION = 1 def load(self): - self.awstats_robots = map(lambda (x) : re.compile(x, re.IGNORECASE), awstats_data.robots) + self.awstats_robots = map(lambda (x) : re.compile(('.*%s.*') % (x), re.IGNORECASE), awstats_data.robots) return True