㈠ 怎么从网站上面获取数据
IE浏览器有OLE对象,可以通过这个功能,提取所有元素的信息,还有就是有些软件应该可以。。。
如果想白手起家,那就直接正则匹配文本,写一个提取元素的小程序,也行。。。
㈡ 如何获取自己网站的源码!
首先你要确认网站源码没有加密
第二,进入自己 的ftp下载全部源码,如果是php/mysql还要备分mysql库
第三,把源码上传到空间,重新导入数据,配置库参数
第四,解析绑定域名
㈢ 什么叫做原始文献怎样获得
一次文献又称原始文献,是作者本人以科研、生产中取得的成果或有关的新理论、新方法、新见解等为依据、创作撰写出来的文献,如会议论文、科技报告、期刊论文、专利文献、学位论文。是发表过的资料。
文摘类刊物已经被编辑删节和重新排版,就有可能产生断章取义、语焉不详和再排错误等,我们阅读、学习、引用应该以原始文章为准。现在许多论文可以在网上查阅,但我们不应该这样,应该去图书馆翻找纸质文本的原始文献。体现出对他人成果的尊重。
㈣ 怎么获取网页源代码中的文件
获取网页源代码中的文件的具体步骤如下:
1、首先我们在浏览器里随意打开一张网页查看其源代码。
㈤ 如何提取网页里的文本
1、首先,我们打开浏览器,找到需要复制的文字。
㈥ 在网页源码中怎么搜索自己想要的文本
可以用浏览器自带的搜索功能在网页源代码中查找自己要的文字。
1、右击需要查看源代码的页面,在展开的菜单中点击“查看网页源代码”按钮:
2、这时会打开网页的源代码界面,同时按住键盘上的“Ctrl”键+“F”键打开搜索窗口:
3、在搜索窗口中输入需要搜索的文字,这时会自动查看被搜索的文字,点击上下图标可以跳转到上一个或者下一个文字
㈦ 如何使用htmlparser提取网页文本信息
HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本各种需求都可以满足。比如问题中提到的提取网页文本信息。
用以下代码来实现提取网页文本信息
// 提取网页主要文本内容
public String getContent(){
content=(isHub())?getHubEntries():getTopicBlock();
System.out.println("<Content>:");
System.out.println("=========================");
System.out.println(content);
return content;
}
// 提取Hub类网页文本内容,如yahoo,sina等门户网
public String getHubEntries(){
StringBean bean=new StringBean();
bean.setLinks(false);
bean.setReplaceNonBreakingSpaces(true);
bean.setCollapse(true);
try {
parser.visitAllNodesWith(bean);
} catch (ParserException e) {
System.err.println("getHubEntries()-->"+e);
}
parser.reset();
return bean.getStrings();
}
// 获取主题性(Topical)网页文本内容:对于博客等以文字为主体的网页效果较好
public String getTopicBlock(){
HasParentFilter acceptedFilter=new HasParentFilter(new TagNameFilter("p"));
NodeList nodes=null;
try {
nodes=parser.extractAllNodesThatMatch(acceptedFilter);
} catch (ParserException e) {
System.err.println("getTopicBlock"+e);
}
StringBuffer sb=new StringBuffer();
SimpleNodeIterator iter=nodes.elements();
while(iter.hasMoreNodes()){
Node node=iter.nextNode();
sb.append(node.getText()+"\n");
}
parser.reset();
return sb.toString();
}
另外,要知道的是
HTMLParser的核心模块是org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数:
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一个静态类public static Parser createParser (String html, String charset);
提供几个常用的
对于树型结构进行遍历的函数,这些函数最容易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toPlainTextString():取得纯文本信息。
String toHtml () :取得HTML信息(原始HTML)
String toHtml (boolean verbatim):取得HTML信息(原始HTML)
String toString ():取得字符串信息(原始HTML)
Page getPage ():取得这个Node对应的Page对象
int getStartPosition ():取得这个Node在HTML页面中的起始位置
int getEndPosition ():取得这个Node在HTML页面中的结束位置
用于Filter过滤的函数:
void collectInto (NodeList list, NodeFilter filter):基于filter的条件对于这个节点进行过滤,符合条件的节点放到list中。
用于Visitor遍历的函数:
void accept (NodeVisitor visitor):对这个Node应用visitor
用于修改内容的函数,这类用得比较少:
void setPage (Page page):设置这个Node对应的Page对象
void setText (String text):设置文本
void setChildren (NodeList children):设置子节点列表
其他函数:
void doSemanticAction ():执行这个Node对应的操作(只有少数Tag有对应的操作)
Object clone ():接口Clone的抽象函数。
以上知识可以完整处理HTML页面的所有内容
参考资料:
htmlparser官方网站下载地址
http://www.htmlparser.sourceforge.net/
㈧ 如何把网站上的文字采集成txt文本文档
呵呵,建议你用ASP做一个,或者VB等语言。
使用xmlhttp对象读取到整个网页的HTML代码,然后用一个正则表达式去除所有的html标记,得到纯文本,再保存到文本文件里。
我有做这样的ASP采集程序。要做这样的小软件也很快的。
当然,你还可以用纯文件浏览器,有些浏览器打开网页只显示文本的。用它打开网页,再另存为本地文件即可。
㈨ (比如在网页上复制两行文本后)如何获取剪贴板中(包括回车符和换行符在内)的原始信息
awk 号称“万能过滤器”,正则表达式的表达能力很强。是专门用来执行过滤和捕获工作的好工具。但它相对独立,和系统的交互能力不强,因此只适合拿来处理文本。
----
我建议 LZ 拿 awk 来解决问题。命令行:
awk -f 脚本文件名.awk 数据文件名
脚本文件名.awk 中的内容:
# 脚本开始
{
# $0 表示当前行
# match() 执行完毕后,捕获的内容由 RSTART, RLENGTH 指出
# substr 抽出 $0 中的捕获的内容,并由 print 打印
if (match($0, /正则表达式/))
print substr($0, RSTART, RLENGTH);
}
# 脚本结束
上述脚本内容也可直接写在命令行上:
awk '{if(match$0,/正则表达式/))print substr($0, RSTART, RLENGTH);}' 数据文件名
当然也可以采用管道方式
cat 数据文件名 | awk '{if(match$0,/正则表达式/))print substr($0, RSTART, RLENGTH);}'
希望对 LZ 有用。
㈩ 如何提取网页里的文本
当网页不支持复制时,提取网页里的文本的方法如下:
我们需要的材料有:电脑
1、首先打开网页,用鼠标左键选择要提取的文字,右键单击并选择“另存为文本”按钮。