A. 在linux的shell編程中如何截取一段命令返回值的第一行
ifconfig eth0|grep eth0|awk '{print $5}' |head -1
head命令是取輸入的流的頭部,可以指定行數
tail命令是取輸入的流的尾部
B. 如何獲取網頁中的返回值
js中可以用 window.returnvalue來獲得網頁的返回值!
asp中為request.from("OBJ_NAME") 取用POST方法提交的數據
request.get("OBJ_NAME") 取用GET方法提交的數據!
php中 $_POST["OBJ_NAME"] 取用POST方法提交的數據
$_GET["OBJ_NAME"] 取用GET方法提交的數據!
C. 如何使用Java抓取網頁上指定部分的內容
1. 你可以選擇用Java代碼來找到整個網頁的html代碼,如下
(注意在處理網頁方面的內容時,需要導入htmlparser包來支持)
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;
public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}
以上代碼,public static NodeList getNodeList(String url) 為主體
傳入需要分析網頁的 url(String類型),返回值是網頁Html節點List(Nodelist類型)
這個方法我沒有什麼要說的,剛開始的時候沒看懂(沒接觸過),後來用了幾次也懂點皮毛了
注意: parser.setEncoding("GBK"); 可能你的工程編碼格式是UTF-8,有錯誤的話需要改動
運行該程序
2.通過瀏覽器工具直接查看 IE是按F12 (剛開始沒發現這個方法,於是傻乎乎地找上面的代碼)
分析你所獲得的html代碼讓人眼花繚亂,不要緊,找到自己需要趴取的內容,找到它上下文有特徵的節點
<!--中行牌價 開始-->
<div id="sw01_con1">
<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">
<thead>
<tr>
<th width="85" align="center" class="th_l">交易幣種</th>
<th width="80" align="center">交易單位</th>
<th width="130" align="center">現價(人民幣)</th>
<th width="80" align="center">賣出價</th>
<th width="100" align="center">現匯買入價</th>
<th width="95" align="center">現鈔買入價</th>
</tr>
</thead>
<tbody>
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 港幣</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<td class="no">81.16</td>
</tr>
<tr align="center">
<td> 美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<td class="no">631.69</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<td class="no">680.46</td>
</tr>
<tr align="center">
<td> 新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<td class="no">471.25</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<td class="no">90.17</td>
</tr>
<tr align="center">
<td> 丹麥克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<td class="no">111.13</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<td class="no">105.37</td>
</tr>
<!--{2011-10-01 23:16:00}-->
</tbody>
</table>
</div>
<!--中行牌價 結束-->
大家可以看到這是一段很有規律,書寫非常規范的Html代碼(這只是第一部分,中行牌價,可以想像,接下來還會有並列的 相似的3部分)
大家想截取這些節點中的數據
以下代碼仍需導入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class Currencyrate {
public static void main(String[] args){
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt= getNodeList(url);
for (int i = 0; i < rt.size(); i++){
System.out.println(rt.get(i));
}
}
public static ArrayList<String> getNodeList(String url){
final ArrayList<String> result=new ArrayList<String>();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}
public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}
廢話不多說,
public static ArrayList<String> getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意,代碼編碼格式
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
}
);
nodelist是html節點的列表,現在使用NodeFilter ( 節點過濾器 )實例, 重載NodeFilter類中的accept()方法
在parser這個Parser類訪問整個html頁面的時候,每遇到一個html節點,就會訪問這個
accept()方法,返回True的話就會將這個節點 放進nodelist中,否則就不會將這個節點放進去。這個就是NodeFilter功能。
代碼段一獲取整個html頁面時候 parser.visitAllNodesWith(visitor); 就是獲取所有節點
所以現在我們要趴取網頁上的內容,只要告訴accept()這個方法,哪些節點要放進nodelist去,即 遇到哪些節點需要返回true。
於是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser類在遇到節點,就把這個節點拿過去問accept(),於是accept()方法分析,如果滿足getStringsByRegex(node.getText())就要了
接下來分析getStringsByRegex(),只剩下最後一步了,大家堅持啊!
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以發現我們索要的每一段都是
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
所以只要找到<td class="no">這個節點就行了,我們用正則表達式去比較
String regex="td class=\"no\""; 這個是比較標准(正則表達式 td class=」no」 其中兩個引號需要作為轉義字元來表示 成\「 )
變數txt是我們傳過去的需要比較的節點的node.getText(),如果符合的話m.find就是true,於是getStringsByRegex()返回true,說明這個節點就是我們所需要的哪些節點,於是
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
每一段html,6個為一組,先是962.6,然後是993.26,1001.24,992.7,100,英鎊分別被add進result這個ArrayList<String>中去,返回,這個ArrayList裝的就是我們需要抓取的數據
大家可以把我們所獲得的String數據數出來試試看,是不是我們需要的順序,main()函數獲得ArrayList<String>,就可以顯示到我們所需要的Java widget上去了
D. 電腦網站截圖怎麼截
打開所需要截取的網頁,按住鍵盤上的Ctrl+Alt+A,桌面上便會出現藍色方框,移動滑鼠可調整方框大小。待方框選中所要截取的區域後,雙擊滑鼠左鍵即可完成截屏
E. getHTTPPage(url)如何得到返回值
你以上代碼並沒有什麼問題,而你給的代碼不足,很難給你解決問題,只能作下提示:
1、請確保if url<>"" then中的url變數能夠正確賦值。
2、請檢查getHTTPPage()函數是否能正確截取URL
F. python爬取網站數據,為什麼返回值是這樣
是什麼樣的呀
要把結果發上來才知道的
這個通常是編碼的問題,換網頁編碼取到數據之後,然後再正則或者DOM方式取就可以了
G. asp.net中怎麼獲取頁面的返回值。。
class.aspx?Type=1
search.aspx
private void Page_Load(object sender, EventArgs e)
{
string s = Request.QueryString["Type"];
}
H. 如何截取完整網頁
工具/原料
360安全瀏覽器
方法/步驟
下載360安全瀏覽器
打開360安全瀏覽器
打開你想要截取的網站頁面
在瀏覽器最上邊的右邊有一個欄目選項——「文件」,左擊滑鼠,就會彈出一個菜單欄,菜單欄里有一個選項名為「保存圖片」,如圖,被紅色圈出來的部分即是。選擇這個選項即可
點擊「保存為圖片」選項後,會出現一個對話框,如圖所示,接著選擇保存選項即可
一切工作做完以後,你所要的完整的圖片就已被截了出來。
I. 怎樣截取網頁的部分
有時候要截圖,截取右鍵菜單可是非常的不容易,因為你點擊右鍵,然後再點截圖軟體,右鍵菜單就消失了。
方法一:
採用Ctrl+Print鍵全屏截圖,然後再在Photoshop軟體里處理,不過這樣相對麻煩。
方法二:
QQ截圖是擁有截取右鍵菜單的功能,不過很多人都甚少聽聞。下面給大家說說QQ截圖如何截取右鍵菜單。
方法其實很簡單:
1:打開任意一個QQ聊天窗口
2:按住shift+ctrl+Alt+A四個鍵然後點擊右鍵
3:松開shift(其它鍵不要松開)看看
方法三:
Alt+Ctrl+右鍵菜單等+A
注意:按鍵順序不能搞錯!——先按下Alt,再按下Ctrl,然後點擊右鍵或其它菜單等,最後按下A鍵。可以抓取右鍵菜單、QQ菜單等。現在是不是就是QQ截圖了,呵呵,大功告成。
J. 如何使用 Python 抓取雪球網頁
Step.1 分析頁面
要抓一個網頁,首先自然是要「研究」這個網頁。通常我會用兩種方式:
一個是 Chrome 的 Developer Tools。通過它裡面的 Network 功能可以看到頁面發出的所有網路請求,而大多數數據請求都會在 XHR 標簽下。點擊某一個請求,可以看到其具體信息,以及伺服器的返回結果。很多網站在對於某些數據會有專門的請求介面,返回一組 json 或者 XML 格式的數據,供前台處理後顯示。
Step.2 獲取頁面
分析完畢,開抓。
直接 urllib.urlopen 向目標網頁發送請求,讀出網頁。結果,失敗了……
看了下返回結果:
403 Forbidden
You don't have permission to access the URL on this server. Sorry for the inconvenience.
被拒了,所以這種赤裸裸地請求是不行的。沒關系,那就稍微包裝一下:
send_headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Connection':'keep-alive',
'Host':'xueqiu.com',
'Cookie':r'xxxxxx',
}
req = urllib2.Request(url, headers=send_headers)
resp = urllib2.urlopen(req)
html = resp.read()
header 數據都可以從 Developer Tools 里拿到。這次順利抓到頁面內容。
一般網站或多或少都會對請求來源做一些阻攔,通過加 header 可以搞定大部分情況。
Step.3 提取數據
因為這個數據比較明顯,直接用通過一些字元串查找和截取操作就可以取出來。
pos_start = html.find('SNB.cubeInfo = ') + len('SNB.cubeInfo = ')
pos_end = html.find('SNB.cubePieData')
data = html[pos_start:pos_end]
dic = json.loads(data)
dic 就是一個包含數據的字典對象。之後想干什麼就隨便你了。
對於復雜一點的情況,可以通過 BeautifulSoup 來定位 html 標簽。再不好辦的,就用正則表達式,基本都可以解決掉。
Step.4 處理數據
因為我想對數據進行持久化存儲,並且做展示和分析,所以我用了 django 里的 ORM 來處理抓下來的數據。
# add Portfolio
portfolio, c = models.Portfolio.objects.get_or_create(code=dic['symbol'])
portfolio.name = dic['name']
portfolio.earnings = dic['total_gain']
portfolio.save()
# add Stock
stocks = dic['view_rebalancing']['holdings']
for s in stocks:
stock, c = models.Stock.objects.get_or_create(code=s['stock_symbol'])
stock.name = s['stock_name']
stock.count += 1
stock.weight += s['weight']
stock.save()
Portfolio 記錄下組合及其收益,Stock則記錄每支股票的被收錄數和總收錄份額。
對於抓取到的,一般也可以存在文件中,或者直接通過 SQL 存入資料庫,視不同情況和個人喜好而定。
Step.5 批量抓取
前面的一套做下來,就完整地抓取了一組數據。要達到目的,還要設計一下批量抓取的程序。
一個要解決的問題就是如何獲得組合列表。這個可以再通過另一個抓取程序來實現。然後根據這些列表來循環抓取就可以了。
若要細究,還要考慮列表如何保存和使用,如何處理抓取失敗和重復抓取,如何控制抓取頻率防止被封,可否並行抓取等等。
Step.6 數據分析
數據有了,你要怎麼用它,這是個很大的問題。可以簡單的統計現象,也可以想辦法深入分析背後隱藏的邏輯。不多說,我也還只是在摸索之中。