04月 12, 2006

————————————————————————————-
1 项目名称:ourParrot
含义:鹦鹉是自然界中对人类语言模仿的最像的动物。借此表达本引擎的目标。模仿自然语言,简单理解部分自然语言。它是机器生物。

2 ourParrot的目标:
初级目标:
(1)提取具有领域相关性质的自然语言(以下简称:领域自然元语)中的指定单元(词,句)
(2)转换领域自然元语为计算机可以理解的机器元语
(3)通过对机器元语的推理-》记忆-》回忆-》推理-》总结-》。。完成对自然领域元语的初步理解。

中级目标:
(1)快速增加领域
(2)对全领域有简单的综合处理能力

高级目标:
(1)对全领域有完备的综合处理能力
(2)自我学习能力

终极目标:
模仿自然语言,基本理解自然语言。

3 项目阶段:
整个计划按里程碑作为各个阶段的标志。这里只预定初级目标的各个里程碑
里程碑1
释出demo

预计释出时间:
2006-4-30

功能:
演示初级目标的概念化效果

里程碑2
释出1.0

预计释出时间:
2006-5-30

功能:
完成初级目标1

里程碑2
释出1.3

预计释出时间:
2006-7-30

功能:
完成初级目标2

里程碑3
释出1.6

预计释出时间:
2006-9-30

功能:
完成初级目标3

4 ourParrot用什么写
核心语言:
C,C++

粘和语言:
perl

辅助语言:
任何

5 ourParrot开发准则
(1)Demo驱动
(2)测试跟随
(3)快速释出 (一个星期为一个释出点)
(4)由小功能组件通过粘和语言搭建整体
(5)文本化接口

6 其它

————————————————————————————-

关于YouGeDi使用ourParrot的情况

ourParrot的每一个里程被都回为YouGeDi的搜索引擎增加
新的功能。在代码层次上2者是异步发展的,因为它未
来可能不止用在房产领域,我不想让它的内部充斥者特定
领域的痕迹。但在初级目标中YouGeDi要用到的一切就是
它所有的一切。

几点说明:
1 ourParrot只处理自然元语即单纯的文本,而不处理其它任何格式如HTML。
2 HTML的处理需要写插件载入到ourParrot中。插件的性质属于YouGeDi引擎的一部分,并且
时间划分到扩展YouGeDi引擎所需时间中。

ourParrot里程碑对YouGeDi搜索引擎的功能影响:

1 里程碑2:
当ourParrot完成里程碑2,YouGeDi引擎需要完成一个HTML解析器及规则处理器

所要做的工作及时间:
1 完成解析HTML,做到可以处理简单形态HTML的站点即可。提取自然元语教给ourParrot处理
2 完成简单的搜索上类站点的逻辑框架。
3 在里程碑2释出的20天左右完成即2006-6-20

YouGeDi引擎增加的能力
1 可以处理,HTML形态简单,文本较规范的各类站点
2 容易排错
3 引擎状态信息完备。

2 里程碑3:
当ourParrot完成里程碑3,YouGeDi引擎需要完成全部框架几功能

YouGeDi引擎增加的能力及时间:
1 完成主框架
2 完成可以处理包含动态脚本的HTML
3 完善的易更改的爬去逻辑
4 容易的排错
5 完备的引擎信息,爬取信息,站点信息
6 在里程碑3释出的30天左右完成即2006-10-30

其它待加

启动ourParrot项目

Welcome to My.donews.com. This is your first post. Edit or delete it, then start blogging!