河源新聞網由河源晚報社主辦!新聞網旗下: 在線數字報 | 新少年
          當前位置:河源新聞網 >> 資訊 > 財經 > 閱讀新聞

          R語言批量文本處理并生成詞云聚信立

          針對某一個事件或者人物或者實體,會有很多相關文本對其描述,他們可能來自不同的媒介,例如:關于金融的報道會有很多不同媒體寫了不同的文章,當我們分析這些數據的時候,它們經常是多個文件。如下圖1所示一個文本文件對應一篇報道文章。

           

           

          圖1 每個文本代表一篇針對金融的報道文章

          本文使用R語言批量處理這樣的文本數據,對他們進行分詞及詞頻統計,最后我們根據聚信立logo生成了詞云聚信立,這種方式在ppt演講、會場布置及公司宣傳等場景下有很好的應用性。

          下面我們先上效果圖,再貼上R語言的相關程序代碼。圖2 是聚信立的文字logo,圖3相關報道的詞云聚信立logo。

           

           

          圖2 聚信立文字logo

           

           

          圖3 由詞云生成的聚信立logo(應用在ppt報告、公司宣傳、會場布置等很多場景)

           

          最后是R源代碼:

          library(rJava)

          library(Rwordseg)

          library(RColorBrewer)

          library(wordcloud)

          library(wordcloud2)

          #路徑

          dir <- "D:/C000007"

          #路徑下文件名

          names <- list.files(dir)

          dirname <- paste(dir,names,sep="/")

          #文件數量

          n <- length(dirname)

          #finaldata = read.csv(file = dirname[1],stringsAsFactors=F,header=F,encoding = 'UTF-8')

          finaldata = read.csv(file = dirname[1],stringsAsFactors=F,header=F)

          finaldata

           

          #循環組裝到一個data.frame中

          for (i in 2:n)

          {

          #new.data = read.csv(file = dirname[i],stringsAsFactors=F,header=F,encoding = 'UTF-8')

          new.data = read.csv(file = dirname[i],stringsAsFactors=F,header=F)

          flen=length(new.data)

          if(flen==1) finaldata = rbind(finaldata,new.data)

          if(flen>1)

          {

          newstr=''

          for(j in 1:flen)

          {

          newstr=paste(newstr,new.data[,j])

          }

          newdataframe=data.frame(V1=newstr)

          finaldata = rbind(finaldata,newdataframe)

          }

           

          }

          #可使用write.table  將finaldata寫出

          #分詞并統計詞頻

          words=unlist(lapply(X=finaldata$V1, FUN=segmentCN))

          word=lapply(X=words, FUN=strsplit, " ")

          v=table(unlist(word))

          #降序排列

          v=rev(sort(v))

           

          #組裝成詞云數據框

          d=data.frame(v,row.names = names(v))

           

          #繪制詞云

          mydata=d

          wordcloud2(mydata,size = 1.2,figPath='D:/juxinli.jpg') 



          相關熱詞搜索:文本 語言 云聚信


          上一篇:廣發行傾力澆灌實體經濟 跨境托管業務位居股份制銀行第一位
          下一篇:中行與國家開發銀行簽署全面合作協議 提升服務實體經濟能力

          熱點圖片

          • 頭條新聞
          • 新聞推薦

          最新專題

          更多 >>

          熱度排行

          關于我們 | 廣告服務 | 友情鏈接 | 案例展示 | 聯系我們 | 版權聲明
          欧美一区二区激情三区| 青青草a国产免费观看| 亚洲国产精品无码久久青草| 国产精品免费无遮挡无码永久视频| 免费网站看av片| 久久99精品久久久久久水蜜桃| 色综合久久久久久久久久| 日韩精品无码一本二本三本色| 国产美女视频网站| 亚洲精品自产拍在线观看动漫| 一区在线免费观看| 爱做久久久久久| 国精品在亚洲_欧美| 亚洲福利秒拍一区二区| 91麻豆国产自产| 国精品在亚洲_欧美| 亚洲欧洲精品成人久久曰| 91午夜精品亚洲一区二区三区| 最近的2019中文字幕hd| 国产成人精品无码一区二区老年人| 亚洲三级黄色片| 蜜芽国产尤物AV尤物在线看 | 黄瓜视频免费看| 日本高清乱码中文字幕| av片在线观看| 欧美在线精品永久免费播放| 国产欧美另类久久精品蜜芽| 久久精品国产色蜜蜜麻豆| 被夫上司持续侵犯7天| 日本精品高清一区二区| 国产一区二区三区美女| 一级特黄性色生活片| 精品无人区麻豆乱码1区2区| 妇乱子伦精品小说588| 亚洲系列第一页| 被cao的合不拢腿的皇后| 妖精色AV无码国产在线看| 亚洲成年人影院| 老司机免费福利午夜入口ae58| 天天5g天天爽永久免费看欧美| 亚洲国产美女精品久久久久 |