主题微查制作平台简介
目录
一、概述
二、主题微查的数据流程
三、平台架构
四、对制作者的要求
五、平台使用的主要流程
六、制作定义文件
七、微查数据文件
八、通过案例了解平台
九、亲自动手操作平台
十、有关参数定义和接口说明
一、概述
主题微查是一种手机搜索主题信息的工具。这个工具主要的功能原理是将互联网上的主题信息进行下载,然后进行清洗整理,再进行人工智能分析、关键字分类,形成微查数据格式,上传到微查,形成主题微查,供用户使用,查看到主题信息。
主题微查制作采用平台开发方式,通过制作平台向制作者提供一种全新的主题微查制作方法,制作者只要通过上传制作文件、编写制作参数文件,然后进行测试,发布,由主题微查后台,根据制作者的定义,定时运行自己的主题微查程序,完成主题微查工具的制作。
平台提供了制作平台中常见的功能命令,可以大大简化制作者的编程工作量,把程序集中在爬虫和人工智能两个方面,把数据清洗、处理、分类、排序、索引、首页、与微查接口等功能交给平台去处理,可以大大加快主题微查的制作时间。
二、主题微查的数据流程
1、主题微查的数据来源于主题网站或相关网站,要编制爬虫软件进行下载到本地。
2、下载的数据要进行清洗,除掉垃圾信息、重复信息、对缺失的信息进行填补、对不同网站下载的数据格式进行格式统一
3、根据下载的数据进行人工智能分析找出主题信息的指标值
4、对主题信息进行分类、对分类信息进行排序、对指标值信息进行排序、将上述信息转换成xls格式文件
5、将xls文件上传到微查
三、平台架构
主题微查制作平台是一个开放平台,目前其位于test.iweicha.com/tms/tms10main.aspx
制作者可以访问这个网站,并制作自己的主题微查。
平台分4个部分组成:
1、用户界面
提供平台与制作者的交互界面
2、接受用户制作文件
用户的参数文件、程序DLL文件、以及制作定义文件都可以上传至平台的开发环境。
3、对制作定义文件进行解释执行
平台提供对制作定义文件进行解释执行,主要提供文本、xls的数据处理功能、与微查接口功能以及运行用户自定义DLL功能
4、对制作程序进行任务调度并执行
完成主题微查测试后,将相关制作文件和程序定义文件发布到生产环境,平台根据参数定义将其作为一个任务定时运行,并对此任务进行中断、重启、退出等管理。
四、对制作者的要求
主题微查的制作者应该在以下方面具备相关条件:
1、主题信息
1)对本主题信息有一个深度的了解
2)知道主题信息的各种来源
3)知道完整的主题信息的定义
4)知道主题信息的关键字、分类
5)知道用户对本主题信息的最感兴趣的要求
2、技术背景
1)具有程序员的经历
2)懂得项目开发流程
3)懂得程序编写流程
4)具有一定的数据处理的经验
5)掌握数据库基本操作
6)会编写程序、会产生程序的DLL
7)具有一定的学习能力,掌握新的开发方式
8)了解手机界面和手机功能一般知识
9)会编写本主题指标值的算法程序(人工智能)
3、其他
制作者如果不会编制爬虫程序、不会与编制与微查接口程序,可以专注做人工智能这块程序,上述爬虫和接口程序我们可以帮助其完成。
五、平台使用的主要流程
制作者要制作一个主题微查,实现一个主题信息在手机上集中展示,其要了解以下制作流程。
1、明确主题以及主题信息
主要是要明确制作的主题微查的主题是什么?主题信息存放在什么网站之中?查找主题的关键字是什么?主题信息如何分类?有没有要过滤掉的信息?主题的指标值什么?指标值,关键字、索引内容如何排序等。
2、注册主题微查
要制作一个主题微查,首先要注册一个微查,主题微查本质上就是一个微查。
3、登录平台
用注册时的用户名和密码,登录制作平台,然后开始制作操作。
4、上传制作文件
主题微查制作采用的是平台制作方法,制作者可以自行编制主题微查程序,将程序转变DLL,上传到制作平台,由平台负责运行,达到程序运行目的。
要完成一个主题微查制作,首先要将主题微查制作中相关的参数文件、程序文件(DLL)等上传到主题微查的测试环境,这个测试环境就是你的微查的测试环境和其他人主题微查无关。
制作文件是指要完成主题微查制作的相关文件,其可以是程序、程序相关的参数文件、以及制作定义文件文件。
1)程序文件是指完成全部或部分主题微查功能的程序,这个程序是DLL形式。
2)参数文件是指程序运行时所需要的参数文件,如果程序不需要参数文件则可以没有参数文件。另外一种情况是为了测试程序功能而手工定制的参数文件,将参数文件上传,让后让程序读入处理,然后看看处理结果。
3)制作定义文件是指完成整个主题微查制作的流程命令文件。这个文件名为tms10def.xml, 制作者可以对制作中每个流程定义其功能,并完成制作。主题微查为制作者提供了完成制作流程的各种常用的命令,一般情况下,制作者只要通过配置这个文件就可以达到将数据上传到主题微查之中。制作定义文件的说明附后。
5、测试
上传制作文件后,要对制作流程和程序做测试,看看每个环节是否达到预期的结果,最终完成整个制作流程和制作结果。
测试一般进行以下几个流程:
1)爬虫测试,主要是测试能否从互联网中的主题网站和相关网站下载主题信息
2)信息清洗,主要是对下载的主题信息进行垃圾信息的剔除、重复数据剔除、缺失数据的填补、多余无效的信息剔除,信息格式的统一。
3)产生主题信息的指标值,人工智能以及其他统计技术。
4)产生主题信息的首页、以及分类、分类索引、对索引进行排序等微查格式的数据文件
5)上传至微查,将创建相关分类,上述的xls文件上传至相关分类。
6、发布
测试无误后,则可以申请发布,将测试环境中的程序以及参数文件上传到微查的生产环境,主题微查后台程序将根据上传到生产环境的制作定义文件tms10def.xml中的发布标识和任务时间表来定时启动主题微查的功能运行。
7、管理
提供发布运行的管理功能,可以启动、暂停、移除制作程序。
六、制作定义文件
制作平台中最重要的文件是制作定义文件,tms10def.xml
它反应了整个主题微查处理流程。它是一个xml文件,其格式:
1、form 界面
form用来描述测试界面功能菜单:标记test 后面是no表示功能序号,标签内容就是功能名称。
例如<test no="1">爬虫测试</test> 表示功能1,爬虫测试
一般有5个步骤,爬虫测试、数据清洗、人工智能、数据分类排序、首页目录数据上传
2、function 功能
功能用于定义功能 其对于界面上的功能号,功能一般有三个部分组成,in 入口、op 操作、out 出口。
in 入口,一般为入口文件,表示操作需要的文件,文件一般有文本、xls、dll、xml等形式。op 操作表示功能的具体操作、out 出口,一般为结果文件是操作的结果,一般有本文、xls文件等形式。
op 操作功能是用个标签名来表示的:
1)删除文本数据中的列 delete_column
根据列号,将文本数据中的列删除。用于数据清洗。
2)合并文本文件 joint_files
将多个文本文件进行合并成一个文件,用于将多个主题网站下载的信息,合并成一个完整的主题信息库。
3) 选择文本数据中的列 select_column
根据列号,选择文本数据中的列,形成新的有用的文本文件。用于创建主题的索引、目录文件。
4)对文本数据进行排序 sort
按照列号对文本数据进行排序,用于主题的目录的索引。
5)对数据进行分组 group_by
按照列号,将数据进行分组拆分,形成分组文件,用于主题微查的分类数据。
6)将文本转换成xls txt_to_xls
将文本文件转换成xls,用于形成微查数据文件格式,微查数据文件为xls。
7)将xls文件上传到微查 upload_to_ms
将xls文件上传到微查,其中有数据文件、目录文件、首页目录文件等。
8)调用DLL
将用户上传的DLL文件进行运行。例如,爬虫程序、人工智能程序等,都可以打包成DLL在主题微查平台上运行。
fun 功能中,其最终要发布运行的功能,其属性为fun_type=publish,这个功能要完整实现网络爬虫、数据清洗、人工智能、微查数据、上传微查这全套流程。
3、publish功能
publish标签表示对发布相关功能的定义,其下schedule任务时间标签就定义了生产环境中,主题微查功能每天何时运行,可不限次数!
七、微查数据文件
主题网站的信息形式不确定,一般都是html格式,爬虫处理后,我们建议生产带分割符的文本文件。本平台支持将文本转换成xls,主题微查接受的数据文件只能为xls。主题微查数据文件有三类:
1、首页目录
首页目录是进入主题微查后用户最初看到的目录,首页目录的文件名为首页目录.xls 其共两列,一列为“标题”、列为“链接”,主题微查的目录标题一般为主题信息的名称、链接一般为主题信息的网站上的链接。
2、目录文件
目录文件同首页目录,其文件名一般为分类名+目录,例如面积分类,则文件名为面积目录,文件格式和内容同首页目录。
3、数据文件
数据文件也是xls文件,其格式没有目录文件的限制,1-n列都行,第一行为列名,从第二行开始就是一条条主题信息。我们把所有网站爬下的主题信息集中到一个主题数据文件之中,形成主题信息库,这个主题信息库就是微查的数据文件。
八、通过案例了解平台
我们以房源主题为例来说明房源主题微查的制作过程。
1、要明确什么是房源主题?什么是房源信息,房源信息存放在什么房源网站上(假定有两个房源网站,365网站和58同城网站)
2、编制爬虫信息,从房源网站上,爬下房源信息最近房源信息保存在356.txt、58.txt两个文本之中,作为全部的房源信息的原始文件。
3、对原始信息进行清洗,选取365.txt,58.txt中的名称、面积、总价、区域、具体链接5个信息项,形成365tmp.txt,38tmp.txt,将这两个文件合并成一个总房源信息文件。houseinfo.txt
4、从houseinfo.txt抽取名称、总价、具体链接三个信息项形成总价信息表,price.txt,并对此进行排序,然后再选择名称、具体链接产生一个priceindex.txt文件,表示总价索引文件。
5、将总价索引文件priceindex.txt转换成名为首页目录.xls文件
6、将首页目录.xls文件上传到主题微查中。
通过以上步骤,房源主题微查的首页就会看到以总价次序排放的房源,点击房源名称,可以看到房源网站上的房源具体内容(所以房源信息和图片等)
7、同理,我们可以产生按面积、区域的房源信息文件,上传到主题微查,可以将总房源信息文件houseinfo.txt转换成全部房源.xls上传到主题微查,这样用户就可以主题微查中的搜索功能全文搜索全部房源了。
8、要指出的是,3-7步骤都可以通过tms10def.xml来配置完成,不需要编写程序。
九、亲自动手操作平台
自己快速动手感觉一下平台制作过程:
1、注册一个微查
手机访问www.weicha.com,然后点击免费注册,按照注册要求,填写相关信息项,公司名称可以填写主题名称,完成你的注册。
2、编辑一个文本数据
文件名为:测试.txt
内容为:
名称|内容
测试|hello world
测试|主题微查制作平台
测试|主题微查制作入门
一共四行
3、编辑一个tms10def.xml
<test>
<form>
<test no="1">入门测试</test>
</form>
<function>
<fun no="1">
<fun name="txt_to_xls" fun_type="sys" flag="1">
<in>
<file type="txt" delimited="|">测试.txt</file>
</in>
<op>
<txt_to_xls></txt_to_xls>
</op>
<out>
<file type="xls">测试.xls</file>
</out>
</fun>
<fun name="upload_xls" fun_type="sys" flag="1">
<in>
<file type="xls">测试.xls</file>
</in>
<op><upload_xls data_class="关于我们"></upload_xls></op>
<out>
</out>
</fun>
</fun>
</function>
</test>
4、进入主题微查制作平台
访问www.iweicha.com/tms/tms10main.aspx,点击进入平台,输入主题微查的用户名和账号,进入制作界面
5、上传文本数据、上传tms10def.xml
点击上传制作文件,将测试.xls、tms10def.xml 上传到制作平台。
6、点击测试、运行测试
如果你的数据文件和定义文件没有错的话,运行将会很快完成。定义文件出错,请仔细查看。
7、进入手机微查、查看你的主题微查的测试结果
手机登录www.iweicha.com,或将手机界面拉到底,找到自己的主题题微查,点击进入,上方的菜单,点击关于我们,即可看到测试,点击测试看到自己编辑的文本文件内容。
至此,制作者没有编程序,只是通过制作平台上传文件就实现了手机查看数据的功能。
十、有关参数定义和接口说明
1、发布
当用户完成了主题微查全流程测试之后,就要将测试中的数据、文件、程序、功能定义等迁移到生产发布环境之中,点击发布功能,可以将测试中所以的文件拷贝到发布环境之中。其中tms10def.xml中包含publish功能和publish/schedule参数。主题微查会按照以上参数进行定时运行其功能。
2、启动
完成发布之后,要启动整个主题微查程序运行,则要在tms10def.xml文件中定义一个发布功能,这个发布功能和普通的测试功能一样,只是这个功能完成了全部主题微查的功能,并且其有属性fun_type=publish。
假定功能号为1,则tms10def.xml中1号功能定义为:
<test>
<form>
<test no="1">入门测试</test>
</form>
<function>
<fun no="1" fun_type=publish>
<fun name="txt_to_xls" fun_type="sys" flag="1">
<in>
<file type="txt" delimited="|">测试.txt</file>
</in>
<op>
<txt_to_xls></txt_to_xls>
</op>
<out>
<file type="xls">测试.xls</file>
</out>
</fun>
<fun name="upload_xls" fun_type="sys" flag="1">
<in>
<file type="xls">测试.xls</file>
</in>
<op><upload_xls data_class="关于我们"></upload_xls></op>
<out>
</out>
</fun>
</fun>
</function>
</test>
3、后台任务调度程序与主题微查的接口
主题微查提供主题微查程序的DLL,其名称为TMS10Lib.DLL
后台任务调度程序可调用一下接口程序完成调度:
1)int TMS10Lib.tms_deal(string sys_code)
运行主题微查程序,参数是sys_code,返回值0:正常;-1:出错,出错信息在PublicData.err_msg之中。
2)string TMS10Lib.get_tms_status(string sys_code)
获取主题微查发布状态,参数是sys_code,返回值为字符串:
null:出错状态或未发布状态
P:发布状态(程序已经发布到生产环境,但没有运行!)
A:启动状态
S:停止状态
D:删除状态
3)string TMS10Lib.set_tms_status(string sys_code,string status)
设置主题微查发布状态,参数是sys_code,status:返回值0:正常;-1:出错,出错信息在PublicData.err_msg之中。
status:
P:发布状态(程序已经发布到生产环境,但没有运行!)
A:启动状态
S:停止状态
D:删除状态
4)string get_tms_sys_code()
获取所有主题微查的sys_code和其发布状态。返回值:sys_code,状态|sys_code,状态。
每个主题微查用“|”进行分割,主题微查中sys_code和发布状态用逗号分割。
5)string get_publish_schedule(string sys_code)
获取主题微查的发布时间,入口参数 sys_code,返回值为:发布时间,多个发布时间用逗号分割,表明在一天内某个时间运行主题微查。其内容在tms10def.xml中的test/publish/schedule下。