提取txt文本中的章节
在络上的小说,一般是txt格式的,并且往往是没有目录的。
那么有没办法提取出小说的目录呢?
下面是一个示例代码,用于提取txt文本中的章节作为目录:
import re
定义章节标题的正则表达式
将【正则表达式的字符串形式】编译为一个【正则表达式对象】
pattern = re.compile(r第[一二三四五六七八九十百千万壹贰叁肆伍陆柒捌玖拾佰仟]{1,6}章)
读取txt文件内容
with open(book.txt, r, encoding=utf-8) as f:
content = f.read()
查找所有匹配的章节标题
for match inpattern.finditer(): content为需要查找的内容
print(match.group()) 打印找到的str
这段代码使用正则表达式来查找文本中所有章节标题,并将它们输出到控制台。
在这个例子中,章节标题的格式为 “第X章”,其中X表示章节数,可能是中文数字。
如果您的文本中的章节格式不同,请修改正则表达式以匹配您的格式。
re.compile()
re.compile() 是 Python 中正则表达式库 re 中的一个函数。
它的作用是将【正则表达式的字符串形式】编译为一个【正则表达式对象】,这样可以提高正则匹配的效率。
使用 re.compile() 后,可以使用该对象的方法进行匹配和替换操作。
语法:
re.compile(pattern[, flags])
参数说明:
pattern:要编译的正则表达式字符串flags:正则表达式的标志位,可选参数,如IGNORECASE,DOTALL,MULTILINE等
返回值:返回编译后的正则表达式对象
示例:
import re
pattern = re.compile(rd+)
可以看出,re.compile() 函数是将正则表达式的字符串形式转化为正则表达式对象,以便使用其方法(match,search,findall…)更的进行正则匹配。
re.finditer()
re.finditer() 是 Python 中正则表达式模块 re中的一个函数,它可以在字符串中查找所有与模式匹配的部分,并返回一个迭代器。
这个迭代器返回每个匹配项作为一个 match 对象,它有一些有用的属性,如 start() 和 end(),可以用来确定匹配的文本的位置。
语法:
re.finditer(pattern, string, flags=0)
参数:
pattern : 正则表达式模式字符串。string : 要查找的字符串。flags : 可选,正则表达式的标志参数,如 re.IGNORECASE, re.MULTILINE 等。
示例:
import re
string = “The rain in Spain”
x = re.finditer(“ai”, string)for match in x:
print(match.start(), match.group())
输出:
4 ai
说明:上面程序中,在字符串中查找所有 “ai” 的所有匹配项,并使用迭代器输出每个匹配项的开始位置。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至957126978@qq.com举报,一经查实,本站将立刻删除。