Asp.net源码交流论坛 Asp.net交流讨论区Asp.ne技术问答提取HTML代码中文字的C#函数

1  /  1  页    1  跳转
发表新主题 回复该主题

标题: 提取HTML代码中文字的C#函数

身份:董事长

 
  • UID:2
  • 来自:北京
  • 精华:27
  • 积分:1696
  • 帖子:1507
  • 注册: 2007-05-17
  • 状态: 离线
  • 威望:54.00
  • 金钱:268.95 元
 
源码发布专家

提取HTML代码中文字的C#函数



/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name=&quot;strHtml&quot;>包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
  string [] aryReg ={
          @&quot;<script[^>]*?>.*?</script>&quot;,

          @&quot;<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([&quot;&quot;'])(\\[&quot;&quot;'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>&quot;,
          @&quot;([\r\n])[\s]+&quot;,
          @&quot;&amp;(quot|#34);&quot;,
          @&quot;&amp;(amp|#38);&quot;,
          @&quot;&amp;(lt|#60);&quot;,
          @&quot;&amp;(gt|#62);&quot;,
          @&quot;&amp;(nbsp|#160);&quot;,
          @&quot;&amp;(iexcl|#161);&quot;,
          @&quot;&amp;(cent|#162);&quot;,
          @&quot;&amp;(pound|#163);&quot;,
          @&quot;&amp;(copy|#169);&quot;,
          @&quot;&amp;#(\d+);&quot;,
          @&quot;-->&quot;,
          @&quot;<!--.*\n&quot;
       
        };
  string [] aryRep = {
          &quot;&quot;,
          &quot;&quot;,
          &quot;&quot;,
          &quot;\&quot;&quot;,
          &quot;&amp;&quot;,
          &quot;<&quot;,
          &quot;>&quot;,
          &quot; &quot;,
          &quot;\xa1&quot;,//chr(161),
          &quot;\xa2&quot;,//chr(162),
          &quot;\xa3&quot;,//chr(163),
          &quot;\xa9&quot;,//chr(169),
          &quot;&quot;,
          &quot;\r\n&quot;,
          &quot;&quot;
          };
  string newReg =aryReg[0];
  string strOutput=strHtml;
  for(int i = 0;i<aryReg.Length;i++)
  {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
  }
  strOutput.Replace(&quot;<&quot;,&quot;&quot;);
  strOutput.Replace(&quot;>&quot;,&quot;&quot;);
  strOutput.Replace(&quot;\r\n&quot;,&quot;&quot;);

  return strOutput;
  }


èxgŽ€çîíbbs.51aspx.comÕL2Z¿ËùË
51aspx 最后编辑于 2007-12-03 15:10:02
 
技术问题请直接发布到论坛,合作及咨询请加技术支持QQ:793095132
问题搜索请点击
引用 回复
 

身份:学员

 
  • UID:93
  • 来自:
  • 精华:0
  • 积分:8
  • 帖子:8
  • 注册: 2007-06-08
  • 状态: 离线
  • 威望:0.00
  • 金钱:1.05 元

回复:提取HTML代码中文字的C#函数

实用的功能。我喜欢。èxgŽ€çîíbbs.51aspx.comÕL2Z¿ËùË
引用 回复
 

身份:学员

 
  • UID:8168
  • 来自:
  • 精华:0
  • 积分:2
  • 帖子:2
  • 注册: 2008-02-29
  • 状态: 离线
  • 威望:0.00
  • 金钱:0.20 元

回复:提取HTML代码中文字的C#函数

好功能,收下了,呵呵èxgŽ€çîíbbs.51aspx.comÕL2Z¿ËùË
引用 回复
 

身份:学员

 
  • UID:13564
  • 来自:
  • 精华:0
  • 积分:6
  • 帖子:6
  • 注册: 2008-04-14
  • 状态: 离线
  • 威望:0.00
  • 金钱:0.90 元

回复:提取HTML代码中文字的C#函数

yong于什么功能啊 ,不懂。èxgŽ€çîíbbs.51aspx.comÕL2Z¿ËùË
引用 回复
 

身份:学员

 
  • UID:5522
  • 来自:
  • 精华:0
  • 积分:29
  • 帖子:20
  • 注册: 2008-01-17
  • 状态: 离线
  • 威望:10.00
  • 金钱:22.30 元

回复:提取HTML代码中文字的C#函数

还错,收下èxgŽ€çîíbbs.51aspx.comÕL2Z¿ËùË
引用 回复
 

身份:学员

 
  • UID:5522
  • 来自:
  • 精华:0
  • 积分:29
  • 帖子:20
  • 注册: 2008-01-17
  • 状态: 离线
  • 威望:10.00
  • 金钱:22.30 元

回复:提取HTML代码中文字的C#函数

还错,收下Ý!G3 á«Ibbs.51aspx.comúîl
引用 回复
 
1  /  1  页    1  跳转
发表新主题 回复该主题

现在时间是:2009-01-08 02:17:34 京ICP备06046876号