您好,欢迎来到[编程问答]网站首页   源码下载   电子书籍   软件下载   专题
当前位置:首页 >> 编程问答 >> .NET >> html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取

html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取

来源:网络整理     时间:2016/7/1 15:51:21     关键词:html代码

关于网友提出的“html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取”问题疑问,本网通过在网上对“html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取”有关的相关答案进行了整理,供用户进行参考,详细问题解答如下:

问题:html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取
描述:

本帖最后由 stormwen 于 2011-07-27 18:14:26 编辑

抓取到的代码如下:



    .....样式等代码


    
        
            
        
            
        
            
        
            
    

                

        

                
                    
                        
                    
                    
                        
                    
                

                            公司信息
                        

                            公司描述公司描述公司描述公司描述
                        

                
                    
                        
                    
                

                        

                
                    
                        
                        
                        
                    
                    
                        
                        
                        
                    
                    
                        
                        
                        
                    
                

                            公司联系方式:
                        

                        

                        

                        

                            张三
                        

                            234234
                        

                        

                            李四
                        

                            345345
                        

                
                    
                        
                    
                    
                        
                    
                

                            产品目录
                        

                            
                                
                                    
                                    
                                    
                                
                                
                                    
                                    
                                    
                                
                            

                                        产品
                                    

                                        产品
                                    

                                        产品
                                    

                                        产品
                                    

                                        产品
                                    

                                        产品
                                    

                        

                

        

                

        

                

        

    
        
            
        
            
        
            
    

                

        

                

        

                

        

    
        
            
        
        
            
        
    

                其他内容
            

            




大概代码如上
这是我采集的一个html页面
现在需要将里面的三个table提取出来。(还有很多很多其他无关的table表)
这三个table客户是用word添加的,所以不同的页面,table的样式也不太一样,不过行列的格式是统一的
万幸的是,相关的table里面,都有一些相同的关键词
比如:公司信息,公司联系方式,产品目录
我想用正则表达式来获得这三个表的值。
不知道应该怎么写这个正则表达式。

解决方案1:

给你一段示例代码:取出三个table。

HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(s);
HtmlNodeCollection tables=htmlDoc.DocumentNode.SelectNodes(@"//table");
foreach (HtmlNode table in tables)
Response.Write(table.OuterHtml);

以上介绍了“html代码 想从抓取的html代码里面获取一些数据,但不知道该如何进行。或者如何用正则表达式去抓取”的问题解答,希望对有需要的网友有所帮助。
本文网址链接:http://www.codes51.com/itwd/2183002.html

html代码相关图片

html代码相关文章