<?xml version="1.0" encoding="UTF-8"?><!-- generator="wordpress/wordpress-mu-1.1.1" -->
<rss version="0.92">
<channel>
	<title>吊车尾</title>
	<link>http://my.donews.com/lulin</link>
	<description></description>
	<lastBuildDate>Tue, 22 Aug 2006 17:31:16 +0000</lastBuildDate>
	<docs>http://backend.userland.com/rss092</docs>
	<language>en</language>
	
	<item>
		<title>DoNews实习期间最后一帖</title>
		<description>不说废话了，以后大家如果觉得有什么我能帮上忙的就尽管找我吧,我会尽力而为的. </description>
		<link>http://my.donews.com/lulin/2006/08/23/XIhBTXplqBxzymATCwXgRDAjzOwteQejPNja/</link>
			</item>
	<item>
		<title>取址，生成xml文件完成</title>
		<description>现在可以完成对大量网页的筛选，符合要求的就取出，并按一定数量存入一个文件，最后生成多个包含网址的文件。然后可以在这些文件中分别读出网址完成分析页面内容，并将所需内容存为xml格式，生成多个xml文件。 </description>
		<link>http://my.donews.com/lulin/2006/08/12/WtBwhiCvvjNOpWbtkNbPkauYfazOKDzsnikt/</link>
			</item>
	<item>
		<title>用python生成多个.xml文件</title>
		<description>现在基本已经可以完成：

1.对某网站多个网页的读取并测试，如果是所需内容，则把该网址写入urllist.txt文件。

2.从urllist.txt里依次读出网址，然后调用其他程序，将存在于该网页中我们需要的内容抓出来，然后将其转化为xml格式，存入.xml文件中。

时间很紧，现学现用，如果出现什么错误我会及时改正。

现在需要找一台运行速度快的机器，完成如上所述的第一步，然后随机的在urllist.txt中抽样，察看是否符合要求，如发现不符合的网址，则修 改完善筛选网页的代码，然后重新筛选；如果正常，则进行第二步。在第二步中，为防止单个文件数据量过大，会将一定数目的网页信息存于一个文件中，最终生成 多个.xml文件。 </description>
		<link>http://my.donews.com/lulin/2006/08/10/ofinmmjfpqsdjjrzmrhgdlnyupvzmbigjfho/</link>
			</item>
	<item>
		<title>python创建xml文件</title>
		<description>万事开头难。

想要找一个例子看看如何用python来将一些数据生成一个.xml文件真不容易。昨天基本上是怎么也没干成，算是今天的铺垫吧。用百度我是没找到 有用的信息，只有一篇似乎有点用处，作者说他的程序可以运行，可根本不是那么回事。这样的例子找不到的原因可能是大虾没时间写，菜鸟不会写。还是 google好用，也是，外国的东西确实比较好（我很爱国的，别骂我！），他们的程序员也有闲心也有时间写这样的小程序，如果没有这样的程序，初学者真不 知道怎么入门。

Creating XML With Python

Part 1: xml.dom.minidom Basics

There are many resources out there if you'd like to consume and parse XML with Python. I was looking around the web for resources on producing XML with Python, and I wasn't able to find much. Here is a pretty simple ...</description>
		<link>http://my.donews.com/lulin/2006/08/09/ltfagmknemvcaamabbojztvltbbjoqoyoumr/</link>
			</item>
	<item>
		<title>(转）李开复：一切靠命运或靠自己都是不合适的</title>
		<description>Q: 开复老师，您认为有宿命吗？消极悲观是否会是一种天生的性格？您曾经有过这样的心境吗？如果您的父母未曾给您正确的引导，或是您成长时期周围的环境不好，您还会成功而卓越吗？

A: 来自于我的书中的回答：关于"公平"的大讨论

有位学生问我："这个世界到底是不是公平的？"这个问题在"开复学生网"上引起过一场大讨论。有些同学认为世界很公平，一个人只要有志气就一定能克服一切障碍；也有些同学认为世界极端不公平，因为无论是财富、天赋还是运气，老天爷好像总是青睐别人。

对此，我的回答是：认为一切都靠命运（宿命论）或一切都靠自己（人定胜天）都是不合适的。

每一个人都有选择，都有机会，但是，先天和环境因素造成每个人的机会多少不同。所以，这个世界不是完全公平的。但如果你因为世界不公平而放弃了自己的机会和选择，那就是你自己的责任，就不能怪世界不公平了。

举一个例子，有些人出生时因为遗传的原因，患上某种较严重的疾病的可能性比较大。但这并不表明他一定会患病。如果他能把握机会，做正确的选择，安排好自己的锻炼和饮食，他很可能比谁都健康；但是，如果他因为"基因不好"就自暴自弃，那么他得病的机率一定会成倍增加。

所以，凡事都要想清楚，什么是自己不能改变而必须接受的，什么是自己可以选择的，什么是自己必须勇敢挑战的。当你碰到不可改变的事情时，要勇敢地接受它， 不要把时间浪费在悔恨、羡慕和嫉妒上。你应该做的事是积极主动地抓住命运中你可以选择、可以改变、可以最大化你的影响力的部分。

还有，就算在最艰苦的时候，当你感觉命运已抛弃了你的时候，你还是有选择的。就像弗兰克所说的："在任何极端恶劣的环境里，人们还会拥有一种最后的自由，那就是选择自己的态度的自由。"

信不信宿命其实是一种态度问题，关键不是信不信，而是你想不想努力改进自己的生活。有一个叫zswlove的网友说的很好，上帝的公平体现在他给每个人的不公平是一样的！ </description>
		<link>http://my.donews.com/lulin/2006/08/07/OVCDztOeJnzsrkfHbNAcBEgjcALIsUDBqVgA/</link>
			</item>
	<item>
		<title>独自等待</title>
		<description>游了一天，本想早睡的。

两点下完了《独自等待》A，想先看一点，等着B下完就去休息，结果下完了B又想着明天还有明天的事要做，办事又不喜欢拖拖拉拉，还是直接看完吧。

看出的东西有三点：

１.男人都喜欢瞎寻思，总喜欢乱猜自己喜欢的女人对自己做了什么（例如笑一下或是突然离去）一定说明她喜欢自己，或者讨厌自己，猜完后还深信不疑。 不过如果一个女生喜欢一个男生，结果那个男生却从没想过这样的问题，那么最后受伤的就是那个女的了。

２.男主角的“女哥们”一出来就可以让人猜到会是帮他追其他女人的，而且最后他肯定追不到，而且那“女哥们”还会暗恋男主角，最后大家会发现原来有这么好的一女生在他身边他竟然没发现，而且那女生还特别好，比女主角好。故事可以让人猜到就没意思了，而且我觉得也不太可能有这样的事发生。一直想找女朋友，为什么有个好女生在身边你却发现不了？为什么那男的没什么优点那女的就会一直偷偷的喜欢他，也没让他发现？火影忍者里的鸣人，无父无母，成绩最差，又有个世间最邪恶的九尾妖狐在其体内，大家都不喜欢他，可是偏偏有个内向却可爱的雏田大小姐偷偷喜欢他，因为鸣人有着从不服输的精神，每当懦弱的小雏田想要放弃时她就会想起鸣人的斗志，鸣人的精神在鼓舞她，而且故事看完大家会想学习他一直努力的精神，也很羡慕他被一个好女孩喜欢。中国的电影为什么赶不上日本的动画片啊？是因为电影那将近两个小时的时间太短？

3.结尾不明确。周润发很帅，可是我不知道他的出现意味着什么？最后谁和谁走到一起了？到底怎么做才是对的？

男主角胡思乱想那段很有意思，可是看完只会让我更迷糊了，那样是对是错？

晕了，怎么搞的，五点多了，外面天都亮了。 </description>
		<link>http://my.donews.com/lulin/2006/08/07/pUOJKRkSjIkZGDcsMREmDuPZHqmmyVdZFaZf/</link>
			</item>
	<item>
		<title>有了成果</title>
		<description>昨天又完成了一个小程序，是要把原来合在一起的信息分开，本来以为是会很简单的，却又用了将近一天才达到标准。前天遇到的问题是标签相同，顺序不 定，看上去真的是没办法嘛，这可怎么把各个内容分开还知道它是关于什么的内容？那只能是看里面的内容了啊！念头一想过，又不敢确定，再想想会不会有别什么 办法，又浪费了相当长的时间，还是没想到。在苹果的iTerm里输入汉字会出乱码，保存后退出再进入会串行，以为正则表达式不能匹配汉字，也没有试验一 次。在网上搜索一下看看，发现有人在VB下匹配过汉字，需要把汉字转为unicode后再匹配，又搜索在线编码转换，没找到，又找编码规则，还是没发现什 么有价值的东西。就这点事，从下午五点多一直忙到半夜。直到和学长说了想法，才证明了是只能通过匹配汉字来处理。也不知道自己正确的想法为什么要怀疑那么 久，耗费那么多精力才敢确定，又从学长那知道了汉字可以直接匹配，根本不需要那么麻烦的转换，又明确了，虽然显示不出，同样是可以匹配的。

大约用了两个小时，需要的信息都分别提取出来了， 结果还是不符合要求，我以为例如“官方网站：http://www.donews.com" 只需要保持它原有的状态，到时直接放到.html里它还是个链接就行了，同时可以给人提供足够的信息，也没动脑筋想是要把它放到数据库里，如果放数据库 里，就不能有”官方网站：“这些字了，后面的链接也需要改成文本形式，然后将这个链接文本存到数据库的officialsite就可以了。正则表达式会写 了，原理明白了，就不会感觉到困难了，只觉得改起来内容还是很多的，iTerm中不正常显示的汉字乱码要删除，再添加新的字符和汉字匹配，虽不用那么费劲 去想问题的解决方法，改起来却还需要很多时间，以后要争取少反工。
以后需要学新的知识了，Python生成XML。找到了一本电子书《Python &#38; XML 》，Publisher: O'Reilly ，应该会很不错的，就看它了。

谢谢学长送给我GoogleT恤：） </description>
		<link>http://my.donews.com/lulin/2006/08/05/iubcfphtlllcawlbzypxtknllxnmteuywbfg/</link>
			</item>
	<item>
		<title>原来</title>
		<description>原来社会如此黑暗，刚写的日记就会被人截去两段转载，味都变了，本来开心的事，却变成伤心的事。

原来DoNews如此有名，我两天前才开始写的blog都能被别人发现，我以为只有我自己会看，别人根本不会找到。

Donews,木秀于林，风必吹之。

我不希望自己被别人利用，制造风波。

最初的梦想是能成为一名黑客，有着超高的技术，神秘的身份，在未来的信息战中可以保卫祖国，甚至发起反击。不用太人情世故，只需有几个知心朋友，真心对人，应该会换回真心。

现在已经不敢说“应该”了，因为我说“应该”说的太多了，“应该”应该已经代表了我找各种借口、各种理由的开始。 我不想找理由，错就是错，错了马上就要改正，虽然有时还是会再犯，可我真的想做一个好人。以前只需要想着学习就行了，没对不起谁就行了，现在头一回自己跑出来这么远，离社会也越来越近了，需要注意的事情就更多了，经历的多了，一定会成长许多。

我想快速的成长，早日成功。 </description>
		<link>http://my.donews.com/lulin/2006/08/04/nacsjujdniuuuczelxcmyhigublqbatkjwqk/</link>
			</item>
	<item>
		<title>中文字库常见编码简介</title>
		<description>本文主要介绍中文字库有关的常见编码：单字节编码、GB2312-80、GB12345-90、GBK、Unicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码、方正748编码
中文字库常见编码简介

所谓编码，是以固定的顺序排列字符，并以此做为记录、存贮、传递、交换的统一内部特征，这个字符排列顺序被称为“编码”。
字库的编码是字库组织的依据，也是文字处理的基础。不同国家和地区有不同的编码标准，和中文字库有关的常见编码有：单字节编码、GB2312-80、 GB12345-90、GBK、Unicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码、方正748 编码，下面简要介绍一下：
■ 单字节编码
MS Windows：Windows Latin 1（ANSI）
MS-DOS：MS-DOS Latin US
Macintosh：Macintosh Roman
■ GB2312-80
全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡 等）是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则以GBK为基本汉 字编码、但兼容支持GB2312。
双字节编码
范围：A1A1~FEFE
A1-A9：符号区，包含682个符号
B0-F7：汉字区，包含6763个汉字
GB码共收录6763个简体汉字、682个符号，其中汉字部分：一级字3755，以拼音排序，二级字3008，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
■ GB12345-90
1990 年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》，目的在于规范必须使用繁体字的各种场合，以及古籍整理等。该标准 共收录6866个汉字（比GB2312多103个字，其它厂商的字库大多不包括这些字），纯繁体的字大概有2200余个。
双字节编码
范围：A1A1~FEFE
A1-A9：符号区，增加竖排符号
B0-F9：汉字区，包含6866个汉字
■ Unicode编码(Universal Multiple Octet Coded Character Set)
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立 Unicode Consortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内 容与ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS （Draf International Standard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音 11172个，造字区6400个，保留20249个，共计65534个。
■ ISO10646 / Unicode字符集
全球可以共享的编码字符集。
UCS-4：组八位 平面八位 行八位 字位八位
UCS-2：00组中的00平面是基本多文种平面（BMP），4E00~9FFF 中日韩文字
Ext A（CJK）：3400~4DB7，共6584字
Ext B（CJK）：42，807个汉字，在第2平面的0100~A836
■ GBK编码(Chinese Internal Code Specification)
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。
Windows95/98简体中文版的字库表层编码就采用的是GBK，通过GBK与UCS之间一一对应的码表与底层字库联系。
英文名：Chinese Internal Code Specification
中文名：汉字内码扩展规范1.0版
双字节编码，GB2312-80的扩充，在码位上和GB2312-80兼容
范围：8140~FEFE（剔除xx7F）共23940个码位
包含21003个汉字，包含了ISO/IEC 10646-1中的全部中日韩汉字
■ GB18030-2000
英文名：Chinese Internal Code Specification
中文名：信息技术 信息交换用汉字编码字符集
基本集的扩充（ 2000-03-17发布和实施）
单字节、双字节、四字节编码
向下与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容。
在字汇上支持GB 13000.1的全部中、日、韩（CJK）统一汉字字符和全部CJK统一汉字扩充A的字符。
■ BIG5编码
是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准，包括440个符号，一级汉字5401个、二级汉字7652个，共计13060个汉字。
■ 方正748编码
所谓748编码，是指方正系统在长期应用过程中实施、制定的简、繁体字库编码方式，简体兼容GB2312且有所扩展，共7156字；繁体兼容 GB12345并扩展全部BIG-5汉字，计14943字。此外，方正748编码还含有丰富的符号库。748编码仅用于方正软件和系统 </description>
		<link>http://my.donews.com/lulin/2006/08/03/pnvUSVrUbPcDKGOqsMWdtIFrRCDaYFAThJKQ/</link>
			</item>
	<item>
		<title>农历七夕，快乐七夕</title>
		<description>今天一早，一只老鼠误入花店被一只猫追赶，老鼠发现无路可逃，就顺手拿起一朵玫瑰花准备抵抗，猫看到立马低下了头羞愧的说：“死鬼！太突然了！” </description>
		<link>http://my.donews.com/lulin/2006/07/31/dOhqPMwxhUMAJkSDSpZFFKKpupwHQhYUwLrp/</link>
			</item>
</channel>
</rss>
