摘要: 今天去参加了智立方公司stone yang的讲座,说话是很有水准的,以致于我都想弃IT从媒体行业了,他的语言的组织,提炼能力是我非常欣赏的.也给我了很多启迪,其中提到的一点我觉得很好,每天总结几句话,...  阅读全文
posted @ 2009-06-20 23:47 lexus 阅读(16) | 评论 (0)编辑

2009年3月时值本人写毕业论文的关键时刻,时不时需要通过网上书店购买相关书籍,于是逐渐对网上购书熟悉并挑剔起来,发现当当、卓越很多对用户不够友好的地方,但是最让人难以忍受的是一本书在各个网店的价格不一,能相差2-5元甚至更多。于是除了挑选需要的书籍之外,还要比较查看同一本书在各个网站的销售价格,并还要考虑加上运费的情况。本人也尝试使用了各种现存的专业图书比价搜索,但是显得并不专业,主要是对价格的描述不完整。以《小强升职记》一书为例,为了粘住用户会根据会员等级给出不同的优惠价格,如下表所示,而目前比价搜索仅给出一个价格,让人心里嘀咕这个真的是我买这本书的最低价吗?更别提用户关心的关于书籍口碑以及物流速度等高阶问题了。图书比价搜索并没有真正达到比价的作用,因此本人希望有一个能从当当、卓越、China-pub三个网站实时返回书籍各种会员价格并集成及运费、客服电话、豆瓣评论等的一站式图书比价搜索。

书名

《小强升职记》

网站

卓越

卓越

China-pub

价格

市场价:¥32.00

卓越价:¥17.50

VIP 价:¥17.00

SVIP价:¥16.70

市场价:¥32.00

当当价:¥17.60

市场价: ¥32.00

普通会员: ¥28.80

1-3星会员: ¥28.16

4-5星会员: ¥27.20

校园优惠价:¥28.16

运费

全场满49元运费全免

全场免运费

全场满48元运费全免

 

2009年4月本人开始着手设计图书比价搜索,设定了一个前提,至少自己能使用。基于这个前提进行设计开发可以砍掉很多不必要的需求,本着“一切从简”的原则来整理需求并进行设计和技术选型,采用了python+sqlite+cgi+json的架构。python语言简洁、类库丰富,在网页抓取方面有一定的优势,而sqlite作为绿色嵌入式数据库,无须特别的部署,python提供了内置的支持。如图1,整个系统由三部分组成,①前端展现系统,整个系统主要是后台程序和各购书网站之间的交互,实际前端的交互页面只有两个,因此直接使用了cgi,省去学习web框架容器的负担。利用json进行后台抓取数据的增量即时反馈(这里没有采用comet技术,降低开发和学习的成本, 使用传统的客户端定时轮询检测的方法进行模拟)②轮询监控系统,定时监控是否有新的书籍查询请求,当检测到新的请求时,调用信息采集系统进行书籍信息的抽取;③信息采集系统,根据请求从各购书网站采集具体的书籍信息入库。针对

 

clip_image002

图1

各购书网站设立专门的信息采集子系统进行具体的信息抽取工作,各采集子系统直接使用了正则进行数据的提取(后续可以进行一些模板自动化方面的工作)。如图2所示。

clip_image002[9]

图2

当用户输入书名提交请求后,后端轮询进程检测到有新的查询请求,向当当、卓越、china-pub发起请求,并从反馈的图书列表结果页中抽取详细页的链接,并逐一请求图书的详细页面,抽取图书详细的价格等信息入库。在检索执行的过程中,应用ajax用户可以即时获取已经抽取加工的数据结果,增强用户体验。如图3,图4是实际使用中的效果图。

clip_image004

图3

clip_image006

图4

2009年5月,开发的主体工作完成,基本满足了自己的使用需求,申请vps并进行一些测试和修正工作,郊仿其它的比价搜索网站,尝试洽谈当当、卓越的网站联盟,同时在思考:单纯的依靠网站联盟的返点,显然不足以支撑整个项目的运作,那是否有商业化的可能呢?我们运用SWOT分析法对项目进行简单的分析。

O机会

电子商务的未来持续被广大投资者看好,包括国美、苏宁等传统厂商都搭建了电子商务平台,主营3C产品的京东、面向母婴的红孩子以及做服装网络直销的后起之秀凡客成品等各类电子商务应用的深化和被国外验证的购物搜索成熟的赢利模式给国内依托于电子商务的购物搜索带来了极大的想象空间,纵多的投资者、创业者涉足该领域,如赢在中国的季军项目麦芽网,来自韩国的大拿网、来自美国的聪明点,但目前的影响力与流量都不甚理想。

用户确实有比价购物的需求,但是现阶段各购物搜索都还处在整合各电子商务网站商品价格、评论等信息的初级阶段,在信息之上深层挖掘加工工作几乎没有,购物搜索的结果的精准性和呈现方式上没有显明的区别,所商品价格只能作为参考,并不能作为实际购买的依据,购物搜索可用性还非常有限,普遍给人感觉是购物搜索中的通用搜索。大部分购物搜索追求大而全,整合了图书、母婴、音像等众多行业,各行业之间有一定的差异性,没有考虑用户购物时的深层次需求。

T 威胁

百度推出有啊及由自身更懂中文的优势试图抗衡淘宝,而网易推出有道购物搜索依托其后6000万门户访问量切入电子商务领域,尝试创造有用户粘度的产品,并借此练兵,Google随后也推出了中文版的购物搜索,三者拥有雄厚的财力和用户资源,均没指望短期依靠该产品赚钱,而一旦出现好的盈利模式又可以快速模仿抄袭,较之前的独立购物搜索有更强的用户粘性,但是否能建立起国内用户购物之前先比价的习惯还有待时日。擅长于书籍、音乐分享的豆瓣依托社区的优势来做相关的衍生应用更具有先天的优势。

W 劣势

没有找到区别于一般购物搜索的盈利模式,相比电子商务赚的盆满钵满,在国内购物搜索活得还是很痛苦。没有足够的资本去做品牌的推广与认知。

S 优势

能够站在用户的角度进行思考,设计符合用户诉求的购物搜索流程,改进用户体验,特别是在图书的比价搜索上有切身的实践,在技术架构上有一定的积累。但这些都极易抄袭和追赶,尚没有形成核心的竞争力。

通过运用SWOT分析方法对项目进行分析,发现购物搜索目前而言,对于一般性的公司或个人而言不能作为核心的产品来运作,它需要很长的周期来培养这个市场,需要持续不断的烧钱,还不一定开花结果,而对于有道或是Google这样有庞大现金流的公司而言确实一个培养用户的不错的选择。因此暂时还是将图书比价搜索作为一个自娱自乐的应用更合适,可以从http://code.google.com/p/cnbookcrawler获得该项目的源码。

毛凌志,就读于北京工业大学软件学院信息服务工程专业研三。致力于利用信息技术改善人类的生产生活,涉猎广泛。目前正在积极寻找工作,个人blog:http://lexus.cnblog.com。

E-mail:Frederick.mao@gmail.com

联系电话:13426444511

 

clip_image002

 

 下载本文pdf版本(排版效果好一些)

下载我的简历

posted @ 2009-06-08 15:55 lexus 阅读(2639) | 评论 (20)编辑

禁用DHCP Client服务,

ipconfig/release

ipconifg/renew

使用修改网卡mac的工具,如k-mac,

禁用网卡再启用

这样应该就万无一失了,

posted @ 2009-05-12 11:27 lexus 阅读(30) | 评论 (0)编辑

greasemonkey是个好东西,由于针对中文,请注意把userscript.js的储存格式为utf-8

javascript博大精深

posted @ 2009-05-10 22:32 lexus 阅读(23) | 评论 (0)编辑
我在使用firebug,调我的ajax程序,我会查看它的输出的json,如下图,但是你会发现,它的输出会重复三次,这个是怎么回事,我特地还做了一个简单的页面进行了测试
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
 
<HEAD>
  
<TITLE> New Document </TITLE>
  
<META NAME="Generator" CONTENT="EditPlus">
  
<META NAME="Author" CONTENT="">
  
<META NAME="Keywords" CONTENT="">
  
<META NAME="Description" CONTENT="">
  
<!--
  gtalk:frederick.mao@gmail.com
  http://lexus.cnblogs.com
  erick write at beijing
  
-->
  
<link rel="stylesheet" type="text/css" href="" />
    
<script src="jquery-1.2.6.min.js?id=200123701" type="text/javascript"></script>

  
<style type="text/css">

  
</style>
 
</HEAD>

 
<BODY>
  
 
</BODY>
</HTML><script type="text/javascript">
  $.post(
'test_ajax2.py',{
        sessionid:
'sessionid',
        queryid:
'2009425_133335269_642',
        email:
'frederick.mao@gmail.com',
        bookname:
'杜拉拉'
        },
function(data){alert(data)})

  </script>

 

 

 

 

 sorry,可能是我机子中病毒了,后来用httpAnalyalzer似乎是有程序不停在在向外post,

 

 

posted @ 2009-05-05 13:44 lexus 阅读(35) | 评论 (0)编辑
     摘要: [代码]有这样一段html,现在要进行匹配最后一个img标签里的src属性中的链接,使用下面的正则<img src='(.*?)'.*?<h2>会从第一个符合要求的<img开始匹配上面的例子可能太烦了,举个简单的,看下面我在regexbuddy中的示例, 而我只想匹配到最后一个Img标签里的src该如何处理呢,这个问题遇到很多回了 阅读全文
posted @ 2009-05-05 10:42 lexus 阅读(40) | 评论 (0)编辑

除了忙着写论文,主要弄了一个图书的比价搜索,还在处理前端的div+css这是我的弱项,其它都差不多了,另外在做的过程又做了另外一个东东用来在不同机子上同步文件,这两个程序我都放在google code上了,大家有兴趣可以看一下代码,都是用python的,

http://code.google.com/p/cnsyncfolder/

http://code.google.com/p/cnbookcrawler/

show一张比价的原始的草图吧,

 另外还看了很多关于信息抽取方面的论文,因为也做了两次爬虫了,加上同学有在做情报竞争,还有以前导师的启蒙,再加上认识了一些这方面的实践者,所以还是很想在这方面做点东西出来。

昨天去清华路过光合作用,听同学说起过,进去看了一下,果然氛围不错,买了一本韩国大师写的〈活着,就要幸福〉,里面每篇寥寥数语,很好,就喜欢字少的书。

因为前段时间,写论文狂在网上买书,所以才要做的比价.

谁有支持python的主机觅我啊,要不然只能我自己一个人用了,所谓独乐乐,不如众乐乐,呵呵 

 

'

 

 

 

 

 

 

 

 

posted @ 2009-04-30 18:51 lexus 阅读(26) | 评论 (0)编辑

vs2008+sp1之后再想装上vc相关组件,比较麻烦,得先移除sp1再加上vc再打sp1,过程烦琐,建议直接装vc6.0或是等2010吧.血泪经验大家引以为戒吧

posted @ 2009-04-28 16:21 lexus 阅读(46) | 评论 (2)编辑