怎麼從網站獲取原始文本_在網頁源碼中怎麼搜索自己想要的文本

㈠怎麼從網站上面獲取數據

IE瀏覽器有OLE對象，可以通過這個功能，提取所有元素的信息，還有就是有些軟體應該可以。。。
如果想白手起家，那就直接正則匹配文本，寫一個提取元素的小程序，也行。。。

㈡如何獲取自己網站的源碼！

首先你要確認網站源碼沒有加密
第二,進入自己的ftp下載全部源碼,如果是php/mysql還要備分mysql庫
第三,把源碼上傳到空間,重新導入數據,配置庫參數
第四,解析綁定域名

㈢什麼叫做原始文獻怎樣獲得

一次文獻又稱原始文獻，是作者本人以科研、生產中取得的成果或有關的新理論、新方法、新見解等為依據、創作撰寫出來的文獻，如會議論文、科技報告、期刊論文、專利文獻、學位論文。是發表過的資料。

文摘類刊物已經被編輯刪節和重新排版，就有可能產生斷章取義、語焉不詳和再排錯誤等，我們閱讀、學習、引用應該以原始文章為准。現在許多論文可以在網上查閱，但我們不應該這樣，應該去圖書館翻找紙質文本的原始文獻。體現出對他人成果的尊重。

㈣怎麼獲取網頁源代碼中的文件

獲取網頁源代碼中的文件的具體步驟如下：

1、首先我們在瀏覽器里隨意打開一張網頁查看其源代碼。

㈤如何提取網頁里的文本

1、首先，我們打開瀏覽器，找到需要復制的文字。

㈥在網頁源碼中怎麼搜索自己想要的文本

可以用瀏覽器自帶的搜索功能在網頁源代碼中查找自己要的文字。

1、右擊需要查看源代碼的頁面，在展開的菜單中點擊「查看網頁源代碼」按鈕：

2、這時會打開網頁的源代碼界面，同時按住鍵盤上的「Ctrl」鍵+「F」鍵打開搜索窗口：

3、在搜索窗口中輸入需要搜索的文字，這時會自動查看被搜索的文字，點擊上下圖標可以跳轉到上一個或者下一個文字

㈦如何使用htmlparser提取網頁文本信息

HTMLParser具有小巧，快速的優點，缺點是相關文檔比較少（英文的也少），很多功能需要自己摸索。對於初學者還是要費一些功夫的，而一旦上手以後，會發現HTMLParser的結構設計很巧妙，非常實用，基本各種需求都可以滿足。比如問題中提到的提取網頁文本信息。
用以下代碼來實現提取網頁文本信息

// 提取網頁主要文本內容
public String getContent(){
content=(isHub())?getHubEntries():getTopicBlock();
System.out.println("<Content>:");
System.out.println("=========================");
System.out.println(content);
return content;
}
// 提取Hub類網頁文本內容,如yahoo,sina等門戶網
public String getHubEntries(){
StringBean bean=new StringBean();
bean.setLinks(false);
bean.setReplaceNonBreakingSpaces(true);
bean.setCollapse(true);
try {
parser.visitAllNodesWith(bean);
} catch (ParserException e) {
System.err.println("getHubEntries()-->"+e);
}
parser.reset();
return bean.getStrings();
}

// 獲取主題性(Topical)網頁文本內容：對於博客等以文字為主體的網頁效果較好
public String getTopicBlock(){

HasParentFilter acceptedFilter=new HasParentFilter(new TagNameFilter("p"));
NodeList nodes=null;
try {
nodes=parser.extractAllNodesThatMatch(acceptedFilter);
} catch (ParserException e) {
System.err.println("getTopicBlock"+e);
}

StringBuffer sb=new StringBuffer();
SimpleNodeIterator iter=nodes.elements();
while(iter.hasMoreNodes()){
Node node=iter.nextNode();
sb.append(node.getText()+"\n");
}
parser.reset();
return sb.toString();
}
另外，要知道的是
HTMLParser的核心模塊是org.htmlparser.Parser類，這個類實際完成了對於HTML頁面的分析工作。這個類有下面幾個構造函數：
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一個靜態類public static Parser createParser (String html, String charset);

提供幾個常用的
對於樹型結構進行遍歷的函數，這些函數最容易理解：
Node getParent ()：取得父節點
NodeList getChildren ()：取得子節點的列表
Node getFirstChild ()：取得第一個子節點
Node getLastChild ()：取得最後一個子節點
Node getPreviousSibling ()：取得前一個兄弟（不好意思，英文是兄弟姐妹，直譯太麻煩而且不符合習慣，對不起女同胞了）
Node getNextSibling ()：取得下一個兄弟節點
取得Node內容的函數：
String getText ()：取得文本
String toPlainTextString()：取得純文本信息。
String toHtml () ：取得HTML信息（原始HTML）
String toHtml (boolean verbatim)：取得HTML信息（原始HTML）
String toString ()：取得字元串信息（原始HTML）
Page getPage ()：取得這個Node對應的Page對象
int getStartPosition ()：取得這個Node在HTML頁面中的起始位置
int getEndPosition ()：取得這個Node在HTML頁面中的結束位置
用於Filter過濾的函數：
void collectInto (NodeList list, NodeFilter filter)：基於filter的條件對於這個節點進行過濾，符合條件的節點放到list中。
用於Visitor遍歷的函數：
void accept (NodeVisitor visitor)：對這個Node應用visitor
用於修改內容的函數，這類用得比較少：
void setPage (Page page)：設置這個Node對應的Page對象
void setText (String text)：設置文本
void setChildren (NodeList children)：設置子節點列表
其他函數：
void doSemanticAction ()：執行這個Node對應的操作（只有少數Tag有對應的操作）
Object clone ()：介面Clone的抽象函數。
以上知識可以完整處理HTML頁面的所有內容
參考資料：
htmlparser官方網站下載地址
http://www.htmlparser.sourceforge.net/

㈧如何把網站上的文字採集成txt文本文檔

呵呵，建議你用ASP做一個，或者VB等語言。
使用xmlhttp對象讀取到整個網頁的HTML代碼，然後用一個正則表達式去除所有的html標記，得到純文本，再保存到文本文件里。

我有做這樣的ASP採集程序。要做這樣的小軟體也很快的。

當然，你還可以用純文件瀏覽器，有些瀏覽器打開網頁只顯示文本的。用它打開網頁，再另存為本地文件即可。

㈨（比如在網頁上復制兩行文本後）如何獲取剪貼板中（包括回車符和換行符在內）的原始信息

awk 號稱「萬能過濾器」，正則表達式的表達能力很強。是專門用來執行過濾和捕獲工作的好工具。但它相對獨立，和系統的交互能力不強，因此只適合拿來處理文本。
----
我建議 LZ 拿 awk 來解決問題。命令行：

awk -f 腳本文件名.awk 數據文件名

腳本文件名.awk 中的內容：

# 腳本開始
{
# $0 表示當前行
# match() 執行完畢後，捕獲的內容由 RSTART, RLENGTH 指出
# substr 抽出 $0 中的捕獲的內容，並由 print 列印
if (match($0, /正則表達式/))
print substr($0, RSTART, RLENGTH);
}
# 腳本結束

上述腳本內容也可直接寫在命令行上：

awk '{if(match$0,/正則表達式/))print substr($0, RSTART, RLENGTH);}' 數據文件名

當然也可以採用管道方式

cat 數據文件名 | awk '{if(match$0,/正則表達式/))print substr($0, RSTART, RLENGTH);}'

希望對 LZ 有用。

㈩如何提取網頁里的文本

當網頁不支持復制時，提取網頁里的文本的方法如下：

我們需要的材料有：電腦

1、首先打開網頁，用滑鼠左鍵選擇要提取的文字，右鍵單擊並選擇「另存為文本」按鈕。

怎麼從網站獲取原始文本

與怎麼從網站獲取原始文本相關的內容