千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  技术干货  > Python实现文章自动生成

Python实现文章自动生成

来源:千锋教育
发布人:xqq
时间: 2023-11-06 23:13:31 1699283611

下面的Python程序实现了通过从网页抓取一篇文章,然后根据这篇文章来生成新的文章,这其中的原理就是基于概率统计的文本分析。

过程大概就是网页抓取数据->统计分析->生成新文章。网页抓取数据是通过BeautifulSoup库来抓取网页上的文本内容。统计分析这个首先需要使用ngram模型来把文章进行分词并统计频率。因为文章生成主要依据马尔可夫模型,所以使用了2-gram,这样可以统计出一个单词出现在另一个单词后的概率。生成新文章是基于分析大量随机事件的马尔可夫模型。随机事件的特点是在一个离散事件发生之后,另一个离散事件将在前一个事件的条件下以一定的概率发生。

fromurllib.requestimporturlopen

fromrandomimportrandint

frombs4importBeautifulSoup

importre

defwordListSum(wordList):

sum=0

forword,valueinwordList.items():

sum=sum+value

returnsum

defretrieveRandomWord(wordList):

randomIndex=randint(1,wordListSum(wordList))

forword,valueinwordList.items():

randomIndex-=value

ifrandomIndex<=0:

returnword

defbuildWordDict(text):

text=re.sub('(\n|\r|\t)+',"",text)

text=re.sub('\"',"",text)

punctuation=[',','.',';',':']

forsymbolinpunctuation:

text=text.replace(symbol,""+symbol+"")

words=text.split('')

words=[wordforwordinwordsifword!=""]

wordDict={}

foriinrange(1,len(words)):

ifwords[i-1]notinwordDict:

wordDict[words[i-1]]={}

ifwords[i]notinwordDict[words[i-1]]:

wordDict[words[i-1]][words[i]]=0

wordDict[words[i-1]][words[i]]=wordDict[words[i-1]][words[i]]+1

returnwordDict

defrandomFirstWord(wordDict):

randomIndex=randint(0,len(wordDict))

returnlist(wordDict.keys())[randomIndex]

html=urlopen("http://www.guancha.cn/america/2017_01_21_390488_s.shtml")

bsObj=BeautifulSoup(html,"lxml")

ps=bsObj.find("div",{"id":"cmtdiv3523349"}).find_next_siblings("p");

content=""

forpinps:

content=content+p.get_text()

text=bytes(content,"UTF-8")

text=text.decode("ascii","ignore")

wordDict=buildWordDict(text)

length=100

chain=""

currentWord=randomFirstWord(wordDict)

foriinrange(0,length):

chain+=currentWord+""

currentWord=retrieveRandomWord(wordDict[currentWord])

print(chain)

buildWordDict(text)函数接收文本内容,生成的内容如下

{‘itself’:{‘,’:1},‘night’:{‘sky’:1},‘You’:{‘came’:1,‘will’:1},‘railways’:{‘all’:1},‘government’:{‘while’:1,‘,’:1,‘is’:1},‘you’:{‘now’:1,‘open’:1,‘down’:1,‘with’:1,‘.’:6,‘,’:1,‘that’:1},

主要就是生成一个字典,键是文章中所有出现的词语,值其实也是一个字典,这个字典是所有直接出现在键后边的词语及其出现的频率。这个函数就是ngram模型思想的运用。

retrieveRandomWord(wordList)函数的wordList代表的是出现在上一个词语后的词语列表及其频率组成的字典,然后根据统计的概率随机生成一个词。这个函数是马尔可夫模型的思想运用。

然后运行这个程序会生成一个长度为100的文章,如下面所示

fail.Wewillstirourselves,butwewillneverbefore.Donotshareoneheartandpleasantitbackourjobs.Weareinfusedwiththeorderlyandrailwaysallofthegangsandrobbedourjobsfortheirsuccesswilldeterminethecivilizedworld.Wewilltheirsuccesswillbeagreatmenandhighwaysandmillionstoallbleedtheworld.Itbelongstogreatnationalefforttodefendourproducts,constantlycomplaining,D.Wewillbeignoredagain.ItbelongstoharnesstheexpenseofAmerica.

生成的文章看起来语法混乱,这也难怪,因为只是抓取分析统计了一篇的文章。我想如果可以抓取足够多的英文文章,数据集足够大那么语法准确度会大大提高。

以上内容为大家介绍了Python实现文章自动生成,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注IT培训机构:千锋教育。http://www.mobiletrain.org/

tags: python培训
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT