您现在的位置是:网站首页> 编程资料编程资料

hta作品笨狼CSDN爬虫_hta_

2023-05-26 457人已围观

简介 hta作品笨狼CSDN爬虫_hta_



笨狼CSDN爬虫




帖子号码

  !从: http://community.csdn.net/Expert/topic/
/
 
.xml?temp=.XXXXXXX 


  "到: http://community.csdn.net/Expert/topic/

/
.xml?temp=.XXXXXXX 



爬行范围

ß

    全部社区
    Web开发
    软件工程/管理
    企业开发
    专题开发
    多媒体/设计
    Linux/Unix社区
    硬件/嵌入开发
    Windows专区
    硬件使用
    软件培训/认证/考试
    扩充话题
    社区支持
    产品/厂家
    其他开发语言
    其他数据库开发
    计算机图书
    VC/MFC
    VB
    .NET技术
    Delphi
    Java
    C++Builder
    C/C++
    MS-SQLServer
    PowerBuilder
    WebSphere
    DB2
    Oracle
    程序员杂志
    移动平台
    PowerTools控件专区
    《开发高手》杂志
    palmos
    2004微软创新杯软件开发大赛
    《MSDN开发精选》杂志


    ASP
    PHP
    JavaScript
    CGI
    XML/SOAP
    IIS
    Apache
    应用服务器
    HTML(CSS)
    其他
    非技术区
    ColdFusion
            



开始爬...
 
 

说明:

1,将CSDN帖子分类保存在爬虫身边/*.XML文件;


2,也可以选择保留XML文件,进行深加工;


3,请根据当前的帖子号码来设定爬行距离;


4,欢迎光临我的站点;



window.resizeTo(600,400);
window.moveTo(window.screen.availWidth/2-300,window.screen.availHeight/2-150);

var xmlURL=new String(); 
var headURL ="http://community.csdn.net/Expert/topic/";
var tailURL =".xml?temp=";

var xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
var stream = new ActiveXObject("ADODB.Stream");
var fso = new ActiveXObject("Scripting.FileSystemObject")


//定义本文件绝对路径
var thisFileDir =getthisFileDir();
//定义本文件名    
var thisFileName = LastOne(thisFileDir,"\\");
//定义本文件夹路径
var thisFileFolder = getFolderDir(thisFileDir);    
InitBigClass();
InitSmallClass();
var xmlID;
var xmlFolder = setFolder("xml");
function gogogo()
{    //主程序
    wormClick.innerText ="正在爬...";    
    //window.resizeTo(100,200);
    //window.scrollTo(10,20);
    //window.moveTo(window.screen.availWidth-200,window.screen.availHeight-250)
    for(i=parseInt(numStart1.value) ;i    {
        for(j=parseInt(numStart2.value);j        {
            xmlURL  = headURL + i + "/" + j + tailURL + Math.random().toString().substr(1,8);
            try
            {                
                saveToFile(xmlURL,smallclassid.value);                 
                xmlID = j;
            }
            catch(e)
            {
            }
        }     

    }
    alert("爬行完毕!!");
    wormClick.innerText = "开始爬...";
}

function saveToFile(URL,classID) 
{    
        xmlhttp.Open("GET",URL, false);
        try 
        { 
            xmlhttp.Send(); 
            var result = xmlhttp.status;
        }
        catch(e) 
        {
            return(false); 
        }
        if (xmlhttp.readyState == 4)    // 调用完毕
        {
            if(result==200) 
            { 
                    var tempXML=xmlhttp.responseBody;
                    stream.type=1;
                    stream.Open() ;
                    stream.Write(tempXML);                 
                    stream.SaveToFile(xmlFolder + xmlID + ".xml") 
                    stream.Close();                    
            }    
        }
}


function setFolder(str)
{
    var folder = thisFileFolder + str;
    if(!fso.FolderExists( folder))
    {    
        fso.CreateFolder(folder)
    }
    return(folder + "\\")
}


function getthisFileDir()
{//得到本文件完全路径
    var temp = window.location.href;    
    temp = temp.substr(8);
    temp = unescape(temp);
    temp = temp.replace(/[\/]/ig,"\\") 
    return(temp);
}
function LastOne(Str,splitStr)
{//输入字符和分隔符,得到最后一部分
    var Arr=Str.split(splitStr)
    return(Arr[Arr.length-1]);
}
function getFolderDir(fullDir)
{//输入得到全路径,得到文件夹路径
    var s=LastOne(fullDir,"\\");
    return(fullDir.substr(0,fullDir.length-s.length));
}
function InitBigClass()
{
bigclass  = new Array();

bigclass[0]  = new Array();
bigclass[0][0]  = "0";
bigclass[0][1]  = "全部社区";

bigclass[1]  = new Array();
bigclass[1][0]  = "3";
bigclass[1][1]  = "Web 开发";

bigclass[2]  = new Array();
bigclass[2][0]  = "4";
bigclass[2][1]  = "软件工程/管理";

bigclass[3]  = new Array();
bigclass[3][0]  = "5";
bigclass[3][1]  = "企业开发";

bigclass[4]  = new Array();
bigclass[4][0]  = "6";
bigclass[4][1]  = "专题开发";

bigclass[5]  = new Array();
bigclass[5][0]  = "7";
bigclass[5][1]  = "多媒体/设计";

bigclass[6]  = new Array();
bigclass[6][0]  = "8";
bigclass[6][1]  = "Linux/Unix社区";

bigclass[7]  = new Array();
bigclass[7][0]  = "9";
bigclass[7][1]  = "硬件/嵌入开发";

bigclass[8]  = new Array();
bigclass[8][0]  = "10";
bigclass[8][1]  = "Windows专区";

bigclass[9]  = new Array();
bigclass[9][0]  = "11";
bigclass[9][1]  = "硬件使用";

bigclass[10]  = new Array();
bigclass[10][0]  = "13";
bigclass[10][1]  = "软件培训/认证/考试";

bigclass[11]  = new Array();
bigclass[11][0]  = "14";
bigclass[11][1]  = "扩充话题";

bigclass[12]  = new Array();
bigclass[12][0]  = "15";
bigclass[12][1]  = "社区支持";

bigclass[13]  = new Array();
bigclass[13][0]  = "16";
bigclass[13][1]  = "产品/厂家";

bigclass[14]  = new Array();
bigclass[14][0]  = "17";
bigclass[14][1]  = "其他开发语言";

bigclass[15]  = new Array();
bigclass[15][0]  = "18";
bigclass[15][1]  = "其他数据库开发";

bigclass[16]  = new Array();
bigclass[16][0]  = "20";
bigclass[16][1]  = "计算机图书";

bigclass[17]  = new Array();
bigclass[17][0]  = "50";
bigclass[17][1]  = "VC/MFC";

bigclass[18]  = new Array();
bigclass[18][0]  = "51";
bigclass[18][1]  = "VB";

bigclass[19]  = new Array();
bigclass[19][0]  = "52";
bigclass[19][1]  = ".NET技术";

bigclass[20]  = new Array();
bigclass[20][0]  = "53";
bigclass[20][1]  = "Delphi";

bigclass[21]  = new Array();
bigclass[21][0]  = "54";
bigclass[21][1]  = "Java";

bigclass[22]  = new Array();
bigclass[22][0]  = "55";
bigclass[22][1]  = "C++ Builder";

bigclass[23]  = new Array();
bigclass[23][0]  = "56";
bigclass[23][1]  = "C/C++";

bigclass[24]  = new Array();
bigclass[24][0]  = "57";
bigclass[24][1]  = "MS-SQL  Server";

bigclass[25]  = new Array();
bigclass[25][0]  = "58";
bigclass[25][1]  = "PowerBuilder";

bigclass[26]  = new Array();
bigclass[26][0]  = "59";
bigclass[26][1]  = "WebSphere";

bigclass[27]  = new Array();
bigclass[27][0]  = "60";
bigclass[27][1]  = "DB2";

bigclass[28]  = new Array();
bigclass[28][0]  = "61";
bigclass[28][1]  = "Oracle";

bigclass[29]  = new Array();
bigclass[29][0]  = "62";
bigclass[29][1]  = "程序员杂志";

bigclass[30]  = new Array();
bigclass[30

-六神源码网