看到帖子有网友问如何使用C#程序访问百度指数(网站的站长对这个指标一定不陌生)。如下图,显示了CSDN的用户关注度和媒体关注度。但很可惜的是,用户只能通过浏览的方式得到某天的指数,如果想批量检查多个关键词的百度指数,就很麻烦了。而且如果想得到具体每天的数值也不是那么容易。
正好自己也有需要,所以研究了下,写了个简单的Demo实现此功能,欢迎各位朋友指正。
由于百度指数是以Flash的形式在客户端展现出来的,不方便直接取到,开始我以为要用C#程序和Flash客户端交互。但按常理,我们需要分析发送客户度请求是发送到服务器的数据和返回的响应结果(其实基本所有的外挂都是这样做的)。
我使用的抓包工具是HTTP Analyzer,通过查看Post Data,可以看到客户端是发送了一个Post请求到http://index.baidu.com/gateway.php
发送的数据是一个AMF Message
那么我们需要研究下我们如何能让我们的程序发送出相同的请求。
再此之前我们需要了解下AMF的概念,AMF是Adobe公司开发的数据交互和远程过程调用的协议,全称为Action Message Format,很类似于WebService。但WebService传递的是XML文本数据,而AMF使用Http传输的是二进制数据。
AMF中主要使用的数据类型如下:
- public enum DataType
- {
- Number = 0,
- Boolean = 1,
- String = 2,
- UntypedObject = 3,
- MovieClip = 4,
- Null = 5,
- Undefined = 6,
- ReferencedObject = 7,
- MixedArray = 8,
- End = 9,
- Array = 10,//0x0A
- Date = 11,//0x0B
- LongString = 12,//0x0C
- TypeAsObject = 13,//0x0D
- Recordset = 14,//0x0E
- Xml = 15,//0x0F
- TypedObject = 16,//0x10
- AMF3data = 17//0x11
- }
我们看下向服务器发送的AMF Message信息,HEX显示如下
这些二进制数据的分析如下
0003 说明使用的AMF版本,目前AMF有两个版本,0000 表示 AMF0,0003表示AMF3
0000 表示AMF Header的数量0
0001 表示AMF Body的数量1
0017 表示调用的方法的长度占23个字节(17的16进制就是23)
接下来
4461 7461 4163 6365 7373 6f72 2e67 6574 496e 6465 7865 73
这23个字节表示调用服务器端的方法是DataAccessor.getIndexes(44的16进制就是68,也就是D,后面不再做类似解释)
接下来的 00 022f 31 表示target作为标识实现请求和响应的联系,一般是自增整数。00表示数据类型为Number,02表示长度为两个字节,2f 31其实就是/1
00 0000 2d Body的长度为Number类型,长度为45
0a 0000 0003 0a表示数组类型(类似于C#中的Dictionary,键值对,键总是string类型),长度为3
数组的第一部分
0200 0ce5 a881 e8bf 85e6 9599 e882 b2 02表示字符串类型,0c表示此字符串长度为12,后面的e5 a881 e8bf 85e6 9599 e882 b2
表示传递的数据,可以用下段代码查看
- byte[] buffer = new byte[] { 0xe5, 0xa8, 0x81, 0xe8, 0xbf, 0x85, 0xe6, 0x95, 0x99, 0xe8, 0x82, 0xb2 };
- string str = System.Text.Encoding.UTF8.GetString(buffer);
- Console.Write(str); //广告
数组的第二部分
02 0001 30 字符串0,不知道有什么意义
数组的第三部分
02 0012 3230 3130 2d36 2d31 7c32 3031 302d 362d 3131
长度为18的字符串,内容为2010-6-1|2010-6-11
至此,请求的数据我们已经分析完毕,再简单说下返回的数据(Response Content)
返回的AMF Message当然也包括Header和Body(数组类型)
Body的Target为/1/onResult
Body的Content包括
key String类型 就是我们传进去的关键词
area Number类型 0
areaName String类型 可以用上面的代码看到内容,就是全国
userIndexes String类型 这里都是百度指数(用户关注度),用逗号分隔开
mediaIndexes String类型 这里都是媒体指数(媒体关注度),用逗号分隔开(由于图中userIndexes 占位较多,所以未显示出来,在userIndexes数据下方)
如果想得到Z后一天的百度指数,只要找到mediaIndexes前面Z后一个逗号后跟的数字即可(当然要排除mediaIndexes本身数据类型及长度的占位字节)
前面我们已经分析了发送给服务器的数据,下面就是我们怎样把这些数据post到服务器了,我们看到对AMF的二进制数据处理(序列化及反序列化)很麻烦,有兴趣的朋友可以使
用FluroineFx
FluroineFx官方网站:http://www.fluorinefx.com/
FluroineFx下载地址:http://www.fluorinefx.com/download.html
FluroineFx在线文档:http://www.fluorinefx.com/docs/fluorine/index.html
但由于我们的应用非常简单,所以使用网上流传的一个模拟AMF Post的类,做了些修改,主要是我们现在应用的编码为UTF8
- class AMFPostData
- {
- public List<byte> Message;
- /// <summary>
- /// 初始化Message
- /// </summary>
- /// <param name="amftype"></param>
- /// <param name="headers"></param>
- /// <param name="bodies"></param>
- public AMFPostData(AMFType amftype, int headers, int bodies)
- {
- //AMF版本
- if (amftype == AMFType.AMF0)
- {
- Message = new List<byte>(new byte[] { 0x00, 0x00 });
- }
- else if (amftype == AMFType.AMF3)
- {
- Message = new List<byte>(new byte[] { 0x00, 0x03 });
- }
- //header数量
- Message.Add(BitConverter.GetBytes(headers)[1]);
- Message.Add(BitConverter.GetBytes(headers)[0]);
- //body数量
- Message.Add(BitConverter.GetBytes(bodies)[1]);
- Message.Add(BitConverter.GetBytes(bodies)[0]);
- }
- /// <summary>
- /// 添加Target
- /// </summary>
- /// <param name="target"></param>
- /// <param name="response"></param>
- public void AddTargetAndResponse(string target, string response)
- {
- //添加Target长度
- Message.Add(BitConverter.GetBytes(target.Length)[1]);
- Message.Add(BitConverter.GetBytes(target.Length)[0]);
- //添加Target内容
- Message.AddRange(Encoding.UTF8.GetBytes(target));
- //添加Response长度
- Message.Add(BitConverter.GetBytes(response.Length)[1]);
- Message.Add(BitConverter.GetBytes(response.Length)[0]);
- //添加Response内容
- Message.AddRange(Encoding.UTF8.GetBytes(response));
- }
- /// <summary>
- /// 添加Body
- /// </summary>
- /// <param name="length"></param>
- /// <param name="Content"></param>
- public void AddBody(AMFPostDataBody amfpostdatabody)
- {
- Message.AddRange(amfpostdatabody.GetLength());
- Message.AddRange(amfpostdatabody.Content.ToArray());
- }
- }
- class AMFPostDataBody
- {
- private byte[] length = new byte[4];
- public List<byte> Content = new List<byte>();
- /// <summary>
- /// 初始化Body
- /// </summary>
- /// <param name="datatype"></param>
- /// <param name="arraylength"></param>
- public AMFPostDataBody(DataType datatype, int arraylength)
- {
- //添加类型标识
- Content.Add((byte)datatype);
- //数组的话添加长度
- if (datatype == DataType.Array)
- {
- Content.Add(BitConverter.GetBytes(arraylength)[3]);
- Content.Add(BitConverter.GetBytes(arraylength)[2]);
- Content.Add(BitConverter.GetBytes(arraylength)[1]);
- Content.Add(BitConverter.GetBytes(arraylength)[0]);
- }
- }
- public void AddData(DataType datatype, string value)
- {
- //添加类型标识
- Content.Add((byte)datatype);
- switch (datatype)
- {
- case DataType.Number:
- AddData(double.Parse(value));
- break;
- case DataType.String:
- AddData(value);
- break;
- case DataType.Boolean:
- AddData(Boolean.Parse(value));
- break;
- }
- }
- #region 各种类型处理方法
- /// <summary>
- /// Boolean
- /// </summary>
- /// <param name="flag"></param>
- private void AddData(bool flag)
- {
- if (flag)
- Content.Add(0x01);
- else
- Content.Add(0x00);
- }
- /// <summary>
- /// String
- /// </summary>
- /// <param name="value"></param>
- private void AddData(string value)
- {
- //添加长度
- Content.Add(BitConverter.GetBytes(Encoding.UTF8.GetBytes(value).Length)[1]);
- Content.Add(BitConverter.GetBytes(Encoding.UTF8.GetBytes(value).Length)[0]);
- //添加内容
- Content.AddRange(Encoding.UTF8.GetBytes(value));
- }
- /// <summary>
- /// Number
- /// </summary>
- /// <param name="number"></param>
- private void AddData(double number)
- {
- byte[] b = new byte[8];
- b = BitConverter.GetBytes(number);
- for (int i = 7; i > -1; i--)
- {
- Content.Add(b[i]);
- }
- }
- #endregion
- public byte[] GetLength()
- {
- length[0] = BitConverter.GetBytes(Content.Count)[3];
- length[1] = BitConverter.GetBytes(Content.Count)[2];
- length[2] = BitConverter.GetBytes(Content.Count)[1];
- length[3] = BitConverter.GetBytes(Content.Count)[0];
- return length;
- }
- }
- public enum AMFType
- {
- AMF0,
- AMF3
- }
- public enum DataType
- {
- Number = 0,
- Boolean = 1,
- String = 2,
- UntypedObject = 3,
- MovieClip = 4,
- Null = 5,
- Undefined = 6,
- ReferencedObject = 7,
- MixedArray = 8,
- End = 9,
- Array = 10,//0x0A
- Date = 11,//0x0B
- LongString = 12,//0x0C
- TypeAsObject = 13,//0x0D
- Recordset = 14,//0x0E
- Xml = 15,//0x0F
- TypedObject = 16,//0x10
- AMF3data = 17//0x11
- }
根据前文分析结果,我们生成数据的方法如下
- private static byte [] GetData(string key, string startdate, string enddate)
- {
- AMFPostData amfpostdata = new AMFPostData(AMFType.AMF3, 0, 1);
- amfpostdata.AddTargetAndResponse("DataAccessor.getIndexes", "/1");
- AMFPostDataBody amfpostdatabody = new AMFPostDataBody(DataType.Array, 3);
- amfpostdatabody.AddData(DataType.String, key);
- amfpostdatabody.AddData(DataType.String, "0");
- amfpostdatabody.AddData(DataType.String, startdate + "|" + enddate);
- amfpostdata.AddBody(amfpostdatabody);
- byte[] data = amfpostdata.Message.ToArray();
- return data;
- }
可以使用以下方法发送数据及得到返回响应的二进制数据
- public static byte[] GetFlashData(string gateway, byte[] data)
- {
- HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(gateway);
- request.Method = "Post";
- request.ContentType = "application/x-amf";
- CookieContainer cookie = new CookieContainer();
- request.CookieContainer = cookie;
- byte[] requestData = data;
- request.ContentLength = requestData.Length;
- byte[] responseData = null;
- try
- {
- using (Stream requestStream = request.GetRequestStream())
- {
- requestStream.Write(requestData, 0, requestData.Length);
- }
- HttpWebResponse response = (HttpWebResponse)request.GetResponse();
- using (Stream responseStream = response.GetResponseStream())
- {
- //StreamToBytes是将流转换为二进制字节数组的方法,下文补上
- responseData = StreamToBytes(responseStream);
- }
- }
- catch (Exception ex)
- {
- Console.WriteLine(DateTime.Now.ToString() + "," + ex.Message);
- //Log.WriteLine(DateTime.Now.ToString() + "," + ex.Message);
- }
- return responseData;
- }
由于返回的Stream只能Read,所以转换为二进制流麻烦一些,并且考虑到AMF中流结束的标记为00 00 09,所以写了如下方法得到返回的二进制流
- /// <summary>
- /// 将 Stream 转成 byte[]
- /// </summary>
- public static byte[] StreamToBytes(Stream stream)
- {
- List<byte> bytes = new List<byte>();
- byte b = (byte)stream.ReadByte();
- byte b1 = 0, b2 = 0, b3 = 0;
- while (true)
- {
- if (b1 == 0 && b2 == 0 && b3 == 9)
- {
- break;
- }
- b1 = b2;
- b2 = b3;
- b3 = b;
- bytes.Add(b3);
- b = (byte)stream.ReadByte();
- }
- return bytes.ToArray();
- }
对返回数据的分析第一篇已经说过了,考虑到分析二进制数据比较麻烦,而实际上我们需要的数据就在userIndexes和mediaIndexes之间,所以我用了如下的方法返回Z后7天的百度指数
- private static List<int> GetIndexs(byte[] data)
- {
- if (data == null)
- {
- return null;
- }
- List<int> result = new List<int>();
- string str = Encoding.UTF8.GetString(data);
- string start = "userIndexes";
- string end = "mediaIndexes";
- int startIndex = str.IndexOf(start) + start.Length;
- int endIndex = str.IndexOf(end);
- string[] temp = str.Substring(startIndex, endIndex - startIndex).Split(',');
- result.Add(StringToInt(temp[temp.Length - 1]));
- int number = 0;
- for (int index = temp.Length - 2; index > temp.Length - 8; index--)
- {
- int.TryParse(temp[index], out number);
- result.Add(number);
- }
- return result;
- //以下为测试代码
- //int count = 0;
- //foreach (byte item in data)
- //{
- // Log.Write(item.ToString("X2"));
- // Log.Write(" ");
- // count++;
- // if (count == 16)
- // {
- // count = 0;
- // Log.Write(System.Environment.NewLine);
- // }
- //}
- }
- //Z后一天的数据由于和mediaIndexes中有包含数据类型长度的字节,特殊处理下
- public static int StringToInt(string str)
- {
- int result = 0;
- int number = 0;
- for (int i = 0; i < str.Length; i++)
- {
- number = str[i] - '0';
- if (number >= 0 && number <= 9)
- {
- result = result * 10 + number;
- }
- else
- {
- break;
- }
- }
- return result;
- }
下面是主函数的调用
- static void Main(string[] args)
- {
- string keyword = "威迅教育";
- string start = "2010-6-1";
- string end = "2010-6-11";
- List<int> result = Run(keyword, start, end);
- foreach (int item in result)
- {
- Console.Write(item + " ");
- }
- }
- public static List<int> Run(string keyword, string start, string end)
- {
- byte[] data = GetData(keyword, start, end);
- string gateway = "http://index.baidu.com/gateway.php";
- byte[] responseData = WebFunc.GetFlashData(gateway, data);
- if (responseData == null)
- {
- return null;
- }
- List<int> result = GetIndexs(responseData);
- return result;
- }
如果还是无法得到的,可以留言我会提供代码样例
Z后,实际上,以上的算法效率并不高,百度指数可以同时查询三个关键词,有兴趣的朋友可以研究下处理的方式。