常春岛资源网 Design By www.syssdc.com
有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是WebClient,WebRequest等等,今天主要说一下,对于一个URI地址,采集这个页面上所有的图像资源,下面是源代码,供大家参考,学习。
/// <summary>
/// 下载指定URL下的所有图片
/// </summary>
public class WebPageImage
{
/// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网页地址</param>
/// <param name="charSet">网页编码,为空自动判断</param>
/// <returns>全部图片显示代码</returns>
public string getImages(string url, string charSet)
{
string s = getHtml(url, charSet);
return getPictures(s, url);
}
/// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网址</param>
/// <returns>全部图片代码</returns>
public string getImages(string url)
{
return getImages(url, "");
}
string doman(string url)
{
Uri u = new Uri(url);
return u.Host;
}
/// <summary>
/// 获取网页内容
/// </summary>
/// <param name="url">网站地址</param>
/// <param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
/// <returns></returns>
string getHtml(string url, string charSet)
{
WebClient myWebClient = new WebClient();
//创建WebClient实例myWebClient
// 需要注意的:
//有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
//这是就要具体问题具体分析比如在头部加入cookie
// webclient.Headers.Add("Cookie", cookie);
//这样可能需要一些重载方法。根据需要写就可以了
//获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
myWebClient.Credentials = CredentialCache.DefaultCredentials;
//如果服务器要验证用户名,密码
//NetworkCredential mycred = new NetworkCredential(struser, strpassword);
//myWebClient.Credentials = mycred;
//从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
byte[] myDataBuffer = myWebClient.DownloadData(url);
string strWebData = Encoding.Default.GetString(myDataBuffer);
//获取网页字符编码描述信息
Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
if (charSet == null || charSet == "")
charSet = webCharSet;
if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
return strWebData;
}
string getPictures(string data, string url)
{
MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*""']""'<>]*)[^<>]*");
string s = string.Empty;
for (int i = 0; i < ps.Count; i++)
{
pictures p = new pictures(ps[i].Value, url);
s += p.GetHtml + "<br />" + Environment.NewLine;
}
return s;
}
/// <summary>
/// 图片实体
/// 图片文件属性处理类
/// </summary>
public class pictures
{
public pictures(string strHtml, string baseUrl)
{
_html = strHtml;
Uri u1 = new Uri(baseUrl);
_doman = u1.Host;
_baseUrl = u1.Scheme + "://" + _doman;
setSrc();
}
private string _html = string.Empty;
private string _baseUrl = string.Empty;
private string _doman = string.Empty;
public string GetHtml
{
get { return _html; }
}
public string Alt
{
get
{
return GetAttribute("alt")[0];
}
}
public string Src
{
get
{
string s = GetAttribute("src")[0];
return s;
}
}
/// <summary>
/// 根据基路径把相对路径转换成绝对径
/// </summary>
/// <param name="baseUrl">基础路径</param>
/// <param name="u">待转换的相对路径</param>
/// <returns>绝对路径</returns>
public string absUrl(string baseUrl, string u)
{
Uri ub = new Uri(baseUrl);
Uri ua = new Uri(ub, u);
return ua.AbsoluteUri;
}
private void setSrc()
{
string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']""']";
string src = GetAttribute("src")[0].ToLower();
if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
{
src = absUrl(_baseUrl, src);
string s = "src=\"" + src + "\"";
_html = Regex.Replace(_html, strPattern, s);
}
}
/// <summary>
/// 获取HTML代码中标签属性
/// </summary>
/// <param name="strHtml">HTML代码</param>
/// <param name="strAttributeName">属性名称</param>
/// <returns>属性值集合</returns>
private string[] GetAttribute(string strAttributeName)
{
List<string> lstAttribute = new List<string>();
string strPattern = string.Format(
@"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']""']",
strAttributeName
);
MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
foreach (Match m in matchs)
{
lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
}
if (lstAttribute.Count == 0) lstAttribute.Add("");
return lstAttribute.ToArray();
}
}
}
调用:
new WebPageImage().getImages(http://www.sina.com)
结果:
以上就是本文的全部内容,希望对大家的学习有所帮助。
常春岛资源网 Design By www.syssdc.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
常春岛资源网 Design By www.syssdc.com
暂无评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
2025年11月30日
2025年11月30日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]
