在Python中创建文字云或标签云
介绍从开始从事数据可视化工作的那一天起 , 我就爱上它了 。 我总是喜欢从数据中获得有用的见解 。
在此之前 , 我只了解基本图表 , 例如条形图 , 散点图 , 直方图等 , 这些基本图表内置在tableau中 , 而Power BI则用于数据可视化 。 通过每天完成此任务 , 我遇到了许多新图表 , 例如径向仪表盘 , 华夫图等 。
因此 , 出于好奇 , 最近我正在搜索数据可视化中使用的所有图表类型 , 这些词云引起了我的注意 , 我发现它非常有趣 。 直到现在 , 看到这个词云图像迫使我认为这些只是随机排列的图像 , 这些单词是随机排列的 , 但是我错了 , 而且一切都从这里开始 。 之后 , 我尝试使用Tableau和Power BI中的少量数据制作词云 。 在成功尝试之后 , 我想通过编写条形图 , 饼图和其他图表的代码来尝试使用它 。
词云是什么?定义:词云是一个简单但功能强大的可视化表示对象 , 用于文本处理 , 它以更大 , 更粗的字母和不同的颜色显示最常用的词 。 单词的大小越小 , 重要性就越小 。
文章插图
标签云的用途1)社交媒体上的热门标签(Instagram , Twitter): 全世界 , 社交媒体都在寻找最新更新的趋势 , 因此 , 我们可以获取人们在其帖子中使用最多的标签 。
2)媒体中的热门话题: 分析新闻报道 , 我们可以在头条新闻中找到关键字 , 并提取出前n个需求较高的主题 , 并获得所需的结果 , 即前n个热门媒体主题 。
3)电子商务中的搜索词: 在电子商务购物网站中 , 网站所有者可以制作被搜索次数最多的购物商品的词云 。 这样 , 他就可以了解在特定时期内哪些商品需求量很大 。
让我们开始在python中编码以实现这种词云首先 , 我们需要在jupyter notebook中安装所有库 。
在python中 , 我们将安装一个内置库wordcloud 。 在Anaconda命令提示符下 , 输入以下代码:
pip install wordcloud
如果你的anaconda环境支持conda , 请输入:
conda install wordcloud
虽然 , 这可以直接在notebook本身中实现 , 只需在代码的开头添加“!”即可 。
像这样:
!pip install wordcloud
现在 , 在这里 , 我将生成拥有任何主题的维基百科文本的词云 。 因此 , 我将需要一个Wikipedia库来访问Wikipedia API , 可以通过在anaconda命令提示符下安装Wikipedia来完成 , 如下所示:
pip install wikipedia
现在我们还需要其他一些库 , 它们是numpy , matplotlib和pandas 。
截至目前 , 我们需要的库就安装好了
import wikipedia
【在Python中创建文字云或标签云】result= wikipedia.page("MachineLearning")final_result = result.contentprint(final_result)
机器学习维基百科页面的输出:
文章插图
上图是我们通过检索Wikipedia的机器学习页面获得的输出的图像 。 在那里 , 我们还可以看到它可以向下滚动 , 这表示将检索整个页面 。
在这里 , 我们还可以通过摘要方法得到页面的摘要 , 如:
result= wikipedia.summary("MachineLearning", sentences=5)print(result)
这里我们有句子的参数 , 因此我们可以用它来检索特定的行数 。
文章插图
输出5个句子
让我们一起创建wordcloudfrom wordcloud import WordCloud, StopWordsimport matplotlib.pyplot as plt def plot_cloud(wordcloud):plt.figure(figsize=(10, 10))plt.imshow(wordcloud)plt.axis("off");wordcloud = WordCloud(width = 500, height = 500, background_color='pink', random_state=10).generate(final_result)plot_cloud(wordcloud)
停用词是没有任何含义的单词 , 例如‘is’, ‘are’, ‘an’, ‘I’ 等 。
Wordcloud带有内置停用词库 , 该库将自动从文本中删除停用词 。
有趣的是 , 我们可以通过stopwords.add()函数在python中添加停用词的选择 。
Wordcloud方法将设置宽度和高度 , 我将它们都设置为500 , 背景色设置为粉红色 。 如果不添加随机状态 , 则每次运行代码时 , 词云都会看起来不同 。 应该将其设置为任何int值 。
从上面的代码中 , 我们将获得这样的词云:
文章插图
通过查看上图 , 我们可以看到机器学习是最常用的词 , 还有一些其他经常使用的词是模型 , 任务 , 训练和数据 。 因此 , 我们可以得出结论 , 机器学习是训练数据模型的任务 。
- 麒麟|荣耀新款,麒麟810+4800万超清像素,你还在犹豫什么呢?
- 智能手机市场|华为再拿第一!27%的份额领跑全行业,苹果8%排在第四名!
- 空调|让格力、海尔都担忧,中国取暖“新潮物”强势来袭,空调将成闲置品?
- 行业|现在行业内客服托管费用是怎么算的
- 国外|坐拥77件专利,打破国外的垄断,造出中国最先进的家电芯片
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 手机基带|为了5G降低4G网速?中国移动回应来了:罪魁祸首不是运营商
- 通气会|12月4~6日,2020中国信息通信大会将在成都举行
- 中国|浅谈5G移动通信技术的前世和今生
- 俄罗斯手机市场|被三星、小米击败,华为手机在俄罗斯排名跌至第三!