千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  技术干货  > python如何提取文本信息?

python如何提取文本信息?

来源:千锋教育
发布人:xqq
时间: 2023-11-13 15:00:52 1699858852

python如何提取文本信息?

1、信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):

#nltk默认的句子分段器

sentences=nltk.sent_tokenize(document)

#nltk默认分词器

sentences=[nltk.word_tokenize(sent)forsentinsentences]

#nltk默认词性标记

sentences=[nltk.pos_tag(sent)forsentinsentences]

2、词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如NounPhraseChunking(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。

classUnigramChunker(nltk.ChunkParserI):

#constructor

def__init__(self,train_sents):

#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表

train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]

forsentintrain_sents]

#训练一元分块器

#self.tagger=nltk.UnigramTagger(train_data)

#训练二元分块器

self.tagger=nltk.BigramTagger(train_data)

#sentence为一个已标注的句子

defparse(self,sentence):

#提取词性标记

pos_tags=[posfor(word,pos)insentence]

#使用标注器为词性标记标注IOB词块

tagged_pos_tags=self.tagger.tag(pos_tags)

#提取词块标记

chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]

#将词块标记与原句组合

conlltags=[(word,pos,chunktag)for((word,pos),chunktag)

inzip(sentence,chunktags)]

#转换成词块树

returnnltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法,希望能对大家有所帮助,更多Python学习教程请关注IT培训机构:千锋教育。

tags: python培训
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT