关于网友提出的“html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取”问题疑问,本网通过在网上对“html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取”有关的相关答案进行了整理,供用户进行参考,详细问题解答如下:
问题:html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取
描述:本帖最后由 stormwen 于 2011-07-27 18:14:26 编辑
抓取到的代码如下:
.....样式等代码
|
|
公司联系方式:
|
|
|
|
张三
|
234234
|
|
李四
|
345345
|
|
|
|
|
|
|
大概代码如上
这是我采集的一个html页面
现在需要将里面的三个table提取出来。(还有很多很多其他无关的table表)
这三个table客户是用word添加的,所以不同的页面,table的样式也不太一样,不过行列的格式是统一的
万幸的是,相关的table里面,都有一些相同的关键词
比如:公司信息,公司联系方式,产品目录
我想用正则表达式来获得这三个表的值。
不知道应该怎么写这个正则表达式。
解决方案1: 给你一段示例代码:取出三个table。
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(s);
HtmlNodeCollection tables=htmlDoc.DocumentNode.SelectNodes(@"//table");
foreach (HtmlNode table in tables)
Response.Write(table.OuterHtml);
以上介绍了“html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取”的问题解答,希望对有需要的网友有所帮助。
本文网址链接:http://www.codes51.com/itwd/2183002.html