昨天又完成了一个小程序,是要把原来合在一起的信息分开,本来以为是会很简单的,却又用了将近一天才达到标准。前天遇到的问题是标签相同,顺序不 定,看上去真的是没办法嘛,这可怎么把各个内容分开还知道它是关于什么的内容?那只能是看里面的内容了啊!念头一想过,又不敢确定,再想想会不会有别什么 办法,又浪费了相当长的时间,还是没想到。在苹果的iTerm里输入汉字会出乱码,保存后退出再进入会串行,以为正则表达式不能匹配汉字,也没有试验一 次。在网上搜索一下看看,发现有人在VB下匹配过汉字,需要把汉字转为unicode后再匹配,又搜索在线编码转换,没找到,又找编码规则,还是没发现什 么有价值的东西。就这点事,从下午五点多一直忙到半夜。直到和学长说了想法,才证明了是只能通过匹配汉字来处理。也不知道自己正确的想法为什么要怀疑那么 久,耗费那么多精力才敢确定,又从学长那知道了汉字可以直接匹配,根本不需要那么麻烦的转换,又明确了,虽然显示不出,同样是可以匹配的。
大约用了两个小时,需要的信息都分别提取出来了, 结果还是不符合要求,我以为例如“官方网站:http://www.donews.com” 只需要保持它原有的状态,到时直接放到.html里它还是个链接就行了,同时可以给人提供足够的信息,也没动脑筋想是要把它放到数据库里,如果放数据库 里,就不能有”官方网站:“这些字了,后面的链接也需要改成文本形式,然后将这个链接文本存到数据库的officialsite就可以了。正则表达式会写 了,原理明白了,就不会感觉到困难了,只觉得改起来内容还是很多的,iTerm中不正常显示的汉字乱码要删除,再添加新的字符和汉字匹配,虽不用那么费劲 去想问题的解决方法,改起来却还需要很多时间,以后要争取少反工。
以后需要学新的知识了,Python生成XML。找到了一本电子书《Python & XML 》,Publisher: O’Reilly ,应该会很不错的,就看它了。
谢谢学长送给我GoogleT恤:)