不说废话了,以后大家如果觉得有什么我能帮上忙的就尽管找我吧,我会尽力而为的.
现在可以完成对大量网页的筛选,符合要求的就取出,并按一定数量存入一个文件,最后生成多个包含网址的文件。然后可以在这些文件中分别读出网址完成分析页面内容,并将所需内容存为xml格式,生成多个xml文件。
现在基本已经可以完成:
1.对某网站多个网页的读取并测试,如果是所需内容,则把该网址写入urllist.txt文件。
2.从urllist.txt里依次读出网址,然后调用其他程序,将存在于该网页中我们需要的内容抓出来,然后将其转化为xml格式,存入.xml文件中。
时间很紧,现学现用,如果出现什么错误我会及时改正。
现在需要找一台运行速度快的机器,完成如上所述的第一步,然后随机的在urllist.txt中抽样,察看是否符合要求,如发现不符合的网址,则修 改完善筛选网页的代码,然后重新筛选;如果正常,则进行第二步。在第二步中,为防止单个文件数据量过大,会将一定数目的网页信息存于一个文件中,最终生成 多个.xml文件。
万事开头难。
想要找一个例子看看如何用python来将一些数据生成一个.xml文件真不容易。昨天基本上是怎么也没干成,算是今天的铺垫吧。用百度我是没找到 有用的信息,只有一篇似乎有点用处,作者说他的程序可以运行,可根本不是那么回事。这样的例子找不到的原因可能是大虾没时间写,菜鸟不会写。还是 google好用,也是,外国的东西确实比较好(我很爱国的,别骂我!),他们的程序员也有闲心也有时间写这样的小程序,如果没有这样的程序,初学者真不 知道怎么入门。
Creating XML With Python
Part 1: xml.dom.minidom Basics
There are many resources out there if you’d like to consume and parse XML with Python. I was looking around the web for resources on producing XML with Python, and I wasn’t able to find much. Here is a pretty simple script and its output. It will create a WML document.
from xml.dom.minidom import Document # Create the minidom document
doc = Document()
# Create the base element
wml = doc.createElement("wml")
doc.appendChild(wml)
# Create the main element
maincard = doc.createElement("card")
maincard.setAttribute("id", "main")
wml.appendChild(maincard)
#Create aelement
paragraph1 = doc.createElement("p")
maincard.appendChild(paragraph1)
# Give theelemenet some text
ptext = doc.createTextNode("This is a test!")
paragraph1.appendChild(ptext)
# Print our newly created XML
print doc.toprettyxml(indent=" ")
(This code was highlighted by Gnu source-highlight. You can grab a text version here.) Here’s what the above code produces:
This is a test!
As an aside, this XML will probably not parse on a WAP/WML mobile device, as it doesn’t have a DOCTYPE.
You can see that creating arbitrary XML with the minidom is nearly trivial. I didn’t say intuitive, I said nearly trivial. I’m sure that there are better ways of producing XML, but right now the documentation and tutorials are weak at best. Stay tuned for more.
来自于:http://www.postneo.com/projects/pyxml/
这些信息已经足够用了。
程 序组织的思维方式与表现形式和Java没有什么大的区别,都是先生成一个个对象(Java中这么说,python没看过中文资料,不知道怎么称呼,英文的 我也不知道,是element??),再添加,和创建JavaGUI界面时的感觉一样,new完了add,一个容器装另一个容器或部件。
会了就感觉不到难度了,现在我已经可以把一个页面的信息生成为.xml了,下面马上要做的是在同一个.xml文件中生成第二个结构相同的element.然后就要写新的程序,可以自动将多个页面的信息都生成xml格式,放到一个或多个.xml文件中。
估计当这些做完了,就应该学习怎么parse xml了,这样的信息很好找, 到处都是。然后写程序将分离出来的信息分别存入数据库中的相应的字段中,然后还需要写动态页面,将数据库中的内容表现出来。时间不多了,我也不确定自己能不能完成这些,还要更努力才行。
Q: 开复老师,您认为有宿命吗?消极悲观是否会是一种天生的性格?您曾经有过这样的心境吗?如果您的父母未曾给您正确的引导,或是您成长时期周围的环境不好,您还会成功而卓越吗?
A: 来自于我的书中的回答:关于”公平”的大讨论
有位学生问我:”这个世界到底是不是公平的?”这个问题在”开复学生网”上引起过一场大讨论。有些同学认为世界很公平,一个人只要有志气就一定能克服一切障碍;也有些同学认为世界极端不公平,因为无论是财富、天赋还是运气,老天爷好像总是青睐别人。
对此,我的回答是:认为一切都靠命运(宿命论)或一切都靠自己(人定胜天)都是不合适的。
每一个人都有选择,都有机会,但是,先天和环境因素造成每个人的机会多少不同。所以,这个世界不是完全公平的。但如果你因为世界不公平而放弃了自己的机会和选择,那就是你自己的责任,就不能怪世界不公平了。
举一个例子,有些人出生时因为遗传的原因,患上某种较严重的疾病的可能性比较大。但这并不表明他一定会患病。如果他能把握机会,做正确的选择,安排好自己的锻炼和饮食,他很可能比谁都健康;但是,如果他因为”基因不好”就自暴自弃,那么他得病的机率一定会成倍增加。
所以,凡事都要想清楚,什么是自己不能改变而必须接受的,什么是自己可以选择的,什么是自己必须勇敢挑战的。当你碰到不可改变的事情时,要勇敢地接受它, 不要把时间浪费在悔恨、羡慕和嫉妒上。你应该做的事是积极主动地抓住命运中你可以选择、可以改变、可以最大化你的影响力的部分。
还有,就算在最艰苦的时候,当你感觉命运已抛弃了你的时候,你还是有选择的。就像弗兰克所说的:”在任何极端恶劣的环境里,人们还会拥有一种最后的自由,那就是选择自己的态度的自由。”
信不信宿命其实是一种态度问题,关键不是信不信,而是你想不想努力改进自己的生活。有一个叫zswlove的网友说的很好,上帝的公平体现在他给每个人的不公平是一样的!
游了一天,本想早睡的。
两点下完了《独自等待》A,想先看一点,等着B下完就去休息,结果下完了B又想着明天还有明天的事要做,办事又不喜欢拖拖拉拉,还是直接看完吧。
看出的东西有三点:
1.男人都喜欢瞎寻思,总喜欢乱猜自己喜欢的女人对自己做了什么(例如笑一下或是突然离去)一定说明她喜欢自己,或者讨厌自己,猜完后还深信不疑。 不过如果一个女生喜欢一个男生,结果那个男生却从没想过这样的问题,那么最后受伤的就是那个女的了。
2.男主角的“女哥们”一出来就可以让人猜到会是帮他追其他女人的,而且最后他肯定追不到,而且那“女哥们”还会暗恋男主角,最后大家会发现原来有这么好的一女生在他身边他竟然没发现,而且那女生还特别好,比女主角好。故事可以让人猜到就没意思了,而且我觉得也不太可能有这样的事发生。一直想找女朋友,为什么有个好女生在身边你却发现不了?为什么那男的没什么优点那女的就会一直偷偷的喜欢他,也没让他发现?火影忍者里的鸣人,无父无母,成绩最差,又有个世间最邪恶的九尾妖狐在其体内,大家都不喜欢他,可是偏偏有个内向却可爱的雏田大小姐偷偷喜欢他,因为鸣人有着从不服输的精神,每当懦弱的小雏田想要放弃时她就会想起鸣人的斗志,鸣人的精神在鼓舞她,而且故事看完大家会想学习他一直努力的精神,也很羡慕他被一个好女孩喜欢。中国的电影为什么赶不上日本的动画片啊?是因为电影那将近两个小时的时间太短?
3.结尾不明确。周润发很帅,可是我不知道他的出现意味着什么?最后谁和谁走到一起了?到底怎么做才是对的?
男主角胡思乱想那段很有意思,可是看完只会让我更迷糊了,那样是对是错?
晕了,怎么搞的,五点多了,外面天都亮了。
昨天又完成了一个小程序,是要把原来合在一起的信息分开,本来以为是会很简单的,却又用了将近一天才达到标准。前天遇到的问题是标签相同,顺序不 定,看上去真的是没办法嘛,这可怎么把各个内容分开还知道它是关于什么的内容?那只能是看里面的内容了啊!念头一想过,又不敢确定,再想想会不会有别什么 办法,又浪费了相当长的时间,还是没想到。在苹果的iTerm里输入汉字会出乱码,保存后退出再进入会串行,以为正则表达式不能匹配汉字,也没有试验一 次。在网上搜索一下看看,发现有人在VB下匹配过汉字,需要把汉字转为unicode后再匹配,又搜索在线编码转换,没找到,又找编码规则,还是没发现什 么有价值的东西。就这点事,从下午五点多一直忙到半夜。直到和学长说了想法,才证明了是只能通过匹配汉字来处理。也不知道自己正确的想法为什么要怀疑那么 久,耗费那么多精力才敢确定,又从学长那知道了汉字可以直接匹配,根本不需要那么麻烦的转换,又明确了,虽然显示不出,同样是可以匹配的。
大约用了两个小时,需要的信息都分别提取出来了, 结果还是不符合要求,我以为例如“官方网站:http://www.donews.com” 只需要保持它原有的状态,到时直接放到.html里它还是个链接就行了,同时可以给人提供足够的信息,也没动脑筋想是要把它放到数据库里,如果放数据库 里,就不能有”官方网站:“这些字了,后面的链接也需要改成文本形式,然后将这个链接文本存到数据库的officialsite就可以了。正则表达式会写 了,原理明白了,就不会感觉到困难了,只觉得改起来内容还是很多的,iTerm中不正常显示的汉字乱码要删除,再添加新的字符和汉字匹配,虽不用那么费劲 去想问题的解决方法,改起来却还需要很多时间,以后要争取少反工。
以后需要学新的知识了,Python生成XML。找到了一本电子书《Python & XML 》,Publisher: O’Reilly ,应该会很不错的,就看它了。
谢谢学长送给我GoogleT恤:)
原来社会如此黑暗,刚写的日记就会被人截去两段转载,味都变了,本来开心的事,却变成伤心的事。
原来DoNews如此有名,我两天前才开始写的blog都能被别人发现,我以为只有我自己会看,别人根本不会找到。
Donews,木秀于林,风必吹之。
我不希望自己被别人利用,制造风波。
最初的梦想是能成为一名黑客,有着超高的技术,神秘的身份,在未来的信息战中可以保卫祖国,甚至发起反击。不用太人情世故,只需有几个知心朋友,真心对人,应该会换回真心。
现在已经不敢说“应该”了,因为我说“应该”说的太多了,“应该”应该已经代表了我找各种借口、各种理由的开始。 我不想找理由,错就是错,错了马上就要改正,虽然有时还是会再犯,可我真的想做一个好人。以前只需要想着学习就行了,没对不起谁就行了,现在头一回自己跑出来这么远,离社会也越来越近了,需要注意的事情就更多了,经历的多了,一定会成长许多。
我想快速的成长,早日成功。
本文主要介绍中文字库有关的常见编码:单字节编码、GB2312-80、GB12345-90、GBK、Unicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码、方正748编码
中文字库常见编码简介
所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。
字库的编码是字库组织的依据,也是文字处理的基础。不同国家和地区有不同的编码标准,和中文字库有关的常见编码有:单字节编码、GB2312-80、 GB12345-90、GBK、Unicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码、方正748 编码,下面简要介绍一下:
■ 单字节编码
MS Windows:Windows Latin 1(ANSI)
MS-DOS:MS-DOS Latin US
Macintosh:Macintosh Roman
■ GB2312-80
全称是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡 等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉 字编码、但兼容支持GB2312。
双字节编码
范围:A1A1~FEFE
A1-A9:符号区,包含682个符号
B0-F7:汉字区,包含6763个汉字
GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
■ GB12345-90
1990 年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准 共收录6866个汉字(比GB2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有2200余个。
双字节编码
范围:A1A1~FEFE
A1-A9:符号区,增加竖排符号
B0-F9:汉字区,包含6866个汉字
■ Unicode编码(Universal Multiple Octet Coded Character Set)
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立 Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内 容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS (Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音 11172个,造字区6400个,保留20249个,共计65534个。
■ ISO10646 / Unicode字符集
全球可以共享的编码字符集。
UCS-4:组八位 平面八位 行八位 字位八位
UCS-2:00组中的00平面是基本多文种平面(BMP),4E00~9FFF 中日韩文字
Ext A(CJK):3400~4DB7,共6584字
Ext B(CJK):42,807个汉字,在第2平面的0100~A836
■ GBK编码(Chinese Internal Code Specification)
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。
Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的码表与底层字库联系。
英文名:Chinese Internal Code Specification
中文名:汉字内码扩展规范1.0版
双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容
范围:8140~FEFE(剔除xx7F)共23940个码位
包含21003个汉字,包含了ISO/IEC 10646-1中的全部中日韩汉字
■ GB18030-2000
英文名:Chinese Internal Code Specification
中文名:信息技术 信息交换用汉字编码字符集
基本集的扩充( 2000-03-17发布和实施)
单字节、双字节、四字节编码
向下与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容。
在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK统一汉字扩充A的字符。
■ BIG5编码
是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个、二级汉字7652个,共计13060个汉字。
■ 方正748编码
所谓748编码,是指方正系统在长期应用过程中实施、制定的简、繁体字库编码方式,简体兼容GB2312且有所扩展,共7156字;繁体兼容 GB12345并扩展全部BIG-5汉字,计14943字。此外,方正748编码还含有丰富的符号库。748编码仅用于方正软件和系统
今天一早,一只老鼠误入花店被一只猫追赶,老鼠发现无路可逃,就顺手拿起一朵玫瑰花准备抵抗,猫看到立马低下了头羞愧的说:“死鬼!太突然了!”