㈠ 怎麼從網站上面獲取數據
IE瀏覽器有OLE對象,可以通過這個功能,提取所有元素的信息,還有就是有些軟體應該可以。。。
如果想白手起家,那就直接正則匹配文本,寫一個提取元素的小程序,也行。。。
㈡ 如何獲取自己網站的源碼!
首先你要確認網站源碼沒有加密
第二,進入自己 的ftp下載全部源碼,如果是php/mysql還要備分mysql庫
第三,把源碼上傳到空間,重新導入數據,配置庫參數
第四,解析綁定域名
㈢ 什麼叫做原始文獻怎樣獲得
一次文獻又稱原始文獻,是作者本人以科研、生產中取得的成果或有關的新理論、新方法、新見解等為依據、創作撰寫出來的文獻,如會議論文、科技報告、期刊論文、專利文獻、學位論文。是發表過的資料。
文摘類刊物已經被編輯刪節和重新排版,就有可能產生斷章取義、語焉不詳和再排錯誤等,我們閱讀、學習、引用應該以原始文章為准。現在許多論文可以在網上查閱,但我們不應該這樣,應該去圖書館翻找紙質文本的原始文獻。體現出對他人成果的尊重。
㈣ 怎麼獲取網頁源代碼中的文件
獲取網頁源代碼中的文件的具體步驟如下:
1、首先我們在瀏覽器里隨意打開一張網頁查看其源代碼。
㈤ 如何提取網頁里的文本
1、首先,我們打開瀏覽器,找到需要復制的文字。
㈥ 在網頁源碼中怎麼搜索自己想要的文本
可以用瀏覽器自帶的搜索功能在網頁源代碼中查找自己要的文字。
1、右擊需要查看源代碼的頁面,在展開的菜單中點擊「查看網頁源代碼」按鈕:
2、這時會打開網頁的源代碼界面,同時按住鍵盤上的「Ctrl」鍵+「F」鍵打開搜索窗口:
3、在搜索窗口中輸入需要搜索的文字,這時會自動查看被搜索的文字,點擊上下圖標可以跳轉到上一個或者下一個文字
㈦ 如何使用htmlparser提取網頁文本信息
HTMLParser具有小巧,快速的優點,缺點是相關文檔比較少(英文的也少),很多功能需要自己摸索。對於初學者還是要費一些功夫的,而一旦上手以後,會發現HTMLParser的結構設計很巧妙,非常實用,基本各種需求都可以滿足。比如問題中提到的提取網頁文本信息。
用以下代碼來實現提取網頁文本信息
// 提取網頁主要文本內容
public String getContent(){
content=(isHub())?getHubEntries():getTopicBlock();
System.out.println("<Content>:");
System.out.println("=========================");
System.out.println(content);
return content;
}
// 提取Hub類網頁文本內容,如yahoo,sina等門戶網
public String getHubEntries(){
StringBean bean=new StringBean();
bean.setLinks(false);
bean.setReplaceNonBreakingSpaces(true);
bean.setCollapse(true);
try {
parser.visitAllNodesWith(bean);
} catch (ParserException e) {
System.err.println("getHubEntries()-->"+e);
}
parser.reset();
return bean.getStrings();
}
// 獲取主題性(Topical)網頁文本內容:對於博客等以文字為主體的網頁效果較好
public String getTopicBlock(){
HasParentFilter acceptedFilter=new HasParentFilter(new TagNameFilter("p"));
NodeList nodes=null;
try {
nodes=parser.extractAllNodesThatMatch(acceptedFilter);
} catch (ParserException e) {
System.err.println("getTopicBlock"+e);
}
StringBuffer sb=new StringBuffer();
SimpleNodeIterator iter=nodes.elements();
while(iter.hasMoreNodes()){
Node node=iter.nextNode();
sb.append(node.getText()+"\n");
}
parser.reset();
return sb.toString();
}
另外,要知道的是
HTMLParser的核心模塊是org.htmlparser.Parser類,這個類實際完成了對於HTML頁面的分析工作。這個類有下面幾個構造函數:
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一個靜態類public static Parser createParser (String html, String charset);
提供幾個常用的
對於樹型結構進行遍歷的函數,這些函數最容易理解:
Node getParent ():取得父節點
NodeList getChildren ():取得子節點的列表
Node getFirstChild ():取得第一個子節點
Node getLastChild ():取得最後一個子節點
Node getPreviousSibling ():取得前一個兄弟(不好意思,英文是兄弟姐妹,直譯太麻煩而且不符合習慣,對不起女同胞了)
Node getNextSibling ():取得下一個兄弟節點
取得Node內容的函數:
String getText ():取得文本
String toPlainTextString():取得純文本信息。
String toHtml () :取得HTML信息(原始HTML)
String toHtml (boolean verbatim):取得HTML信息(原始HTML)
String toString ():取得字元串信息(原始HTML)
Page getPage ():取得這個Node對應的Page對象
int getStartPosition ():取得這個Node在HTML頁面中的起始位置
int getEndPosition ():取得這個Node在HTML頁面中的結束位置
用於Filter過濾的函數:
void collectInto (NodeList list, NodeFilter filter):基於filter的條件對於這個節點進行過濾,符合條件的節點放到list中。
用於Visitor遍歷的函數:
void accept (NodeVisitor visitor):對這個Node應用visitor
用於修改內容的函數,這類用得比較少:
void setPage (Page page):設置這個Node對應的Page對象
void setText (String text):設置文本
void setChildren (NodeList children):設置子節點列表
其他函數:
void doSemanticAction ():執行這個Node對應的操作(只有少數Tag有對應的操作)
Object clone ():介面Clone的抽象函數。
以上知識可以完整處理HTML頁面的所有內容
參考資料:
htmlparser官方網站下載地址
http://www.htmlparser.sourceforge.net/
㈧ 如何把網站上的文字採集成txt文本文檔
呵呵,建議你用ASP做一個,或者VB等語言。
使用xmlhttp對象讀取到整個網頁的HTML代碼,然後用一個正則表達式去除所有的html標記,得到純文本,再保存到文本文件里。
我有做這樣的ASP採集程序。要做這樣的小軟體也很快的。
當然,你還可以用純文件瀏覽器,有些瀏覽器打開網頁只顯示文本的。用它打開網頁,再另存為本地文件即可。
㈨ (比如在網頁上復制兩行文本後)如何獲取剪貼板中(包括回車符和換行符在內)的原始信息
awk 號稱「萬能過濾器」,正則表達式的表達能力很強。是專門用來執行過濾和捕獲工作的好工具。但它相對獨立,和系統的交互能力不強,因此只適合拿來處理文本。
----
我建議 LZ 拿 awk 來解決問題。命令行:
awk -f 腳本文件名.awk 數據文件名
腳本文件名.awk 中的內容:
# 腳本開始
{
# $0 表示當前行
# match() 執行完畢後,捕獲的內容由 RSTART, RLENGTH 指出
# substr 抽出 $0 中的捕獲的內容,並由 print 列印
if (match($0, /正則表達式/))
print substr($0, RSTART, RLENGTH);
}
# 腳本結束
上述腳本內容也可直接寫在命令行上:
awk '{if(match$0,/正則表達式/))print substr($0, RSTART, RLENGTH);}' 數據文件名
當然也可以採用管道方式
cat 數據文件名 | awk '{if(match$0,/正則表達式/))print substr($0, RSTART, RLENGTH);}'
希望對 LZ 有用。
㈩ 如何提取網頁里的文本
當網頁不支持復制時,提取網頁里的文本的方法如下:
我們需要的材料有:電腦
1、首先打開網頁,用滑鼠左鍵選擇要提取的文字,右鍵單擊並選擇「另存為文本」按鈕。