————————————————————————————-
1 项目名称:ourParrot
含义:鹦鹉是自然界中对人类语言模仿的最像的动物。借此表达本引擎的目标。模仿自然语言,简单理解部分自然语言。它是机器生物。
2 ourParrot的目标:
初级目标:
(1)提取具有领域相关性质的自然语言(以下简称:领域自然元语)中的指定单元(词,句)
(2)转换领域自然元语为计算机可以理解的机器元语
(3)通过对机器元语的推理-》记忆-》回忆-》推理-》总结-》。。完成对自然领域元语的初步理解。
中级目标:
(1)快速增加领域
(2)对全领域有简单的综合处理能力
高级目标:
(1)对全领域有完备的综合处理能力
(2)自我学习能力
终极目标:
模仿自然语言,基本理解自然语言。
3 项目阶段:
整个计划按里程碑作为各个阶段的标志。这里只预定初级目标的各个里程碑
里程碑1
释出demo
预计释出时间:
2006-4-30
功能:
演示初级目标的概念化效果
里程碑2
释出1.0
预计释出时间:
2006-5-30
功能:
完成初级目标1
里程碑2
释出1.3
预计释出时间:
2006-7-30
功能:
完成初级目标2
里程碑3
释出1.6
预计释出时间:
2006-9-30
功能:
完成初级目标3
4 ourParrot用什么写
核心语言:
C,C++
粘和语言:
perl
辅助语言:
任何
5 ourParrot开发准则
(1)Demo驱动
(2)测试跟随
(3)快速释出 (一个星期为一个释出点)
(4)由小功能组件通过粘和语言搭建整体
(5)文本化接口
6 其它
————————————————————————————-
关于YouGeDi使用ourParrot的情况
ourParrot的每一个里程被都回为YouGeDi的搜索引擎增加
新的功能。在代码层次上2者是异步发展的,因为它未
来可能不止用在房产领域,我不想让它的内部充斥者特定
领域的痕迹。但在初级目标中YouGeDi要用到的一切就是
它所有的一切。
几点说明:
1 ourParrot只处理自然元语即单纯的文本,而不处理其它任何格式如HTML。
2 HTML的处理需要写插件载入到ourParrot中。插件的性质属于YouGeDi引擎的一部分,并且
时间划分到扩展YouGeDi引擎所需时间中。
ourParrot里程碑对YouGeDi搜索引擎的功能影响:
1 里程碑2:
当ourParrot完成里程碑2,YouGeDi引擎需要完成一个HTML解析器及规则处理器
所要做的工作及时间:
1 完成解析HTML,做到可以处理简单形态HTML的站点即可。提取自然元语教给ourParrot处理
2 完成简单的搜索上类站点的逻辑框架。
3 在里程碑2释出的20天左右完成即2006-6-20
YouGeDi引擎增加的能力
1 可以处理,HTML形态简单,文本较规范的各类站点
2 容易排错
3 引擎状态信息完备。
2 里程碑3:
当ourParrot完成里程碑3,YouGeDi引擎需要完成全部框架几功能
YouGeDi引擎增加的能力及时间:
1 完成主框架
2 完成可以处理包含动态脚本的HTML
3 完善的易更改的爬去逻辑
4 容易的排错
5 完备的引擎信息,爬取信息,站点信息
6 在里程碑3释出的30天左右完成即2006-10-30
其它待加