首页 > 技术 > Mindfulness中西方思想观念对比

Mindfulness中西方思想观念对比

并没有弃掉机器学习,只是在忙这个

update2

update

最终Report在这里:Common and Difference of Mindfulness Interpretation in China and the United States

用英文写的,因为要给professor看看。。

这里有词云:China
US

配色都是随机的,可以多刷新几下试试

原文:

选了一门心理学,主要学mindfulness和ACT。。。教授人真的好,就做个小项目看看有没有bonus吧

基本思想:分别Google mindfulness和正念,爬虫扒下所有网页,词频分析下

首先Google的搜索结果肉身墙外的可以用这个,奈何我校v-n-p无法全局使用。。。就用了个特别特别蠢的方法:将Google的搜索结果调到100个,保存网页+正则匹配,搞出来网址。正则表达式为:re.findall(r"<a href=\"https*://www.(?!google|youtube).*?\" ping", s)过滤了Google自己的各种服务和YouTube的

然后问题就是google的中文网页检索样本量过小,遂又搞了百度的,正则为href=\"(.*?)target=\"_blank\" rel="noopener noreferrer"><em>

然后就是要搞到网页内容,还是用了个轮子。建议还是requests,有些网页不仿造header扒不下来。程序大概这样

放在图书馆跑了一下午。。。

跑完了内容都在几百个文本里面,先写了个把文档搞在一起,然后就是分词了。

英文的分词很简单,中文的我用的jieba,最后懒得改英文也用了这个。这个程序用了下pandas,感觉不大方便以后就换了

分词需要有stopword,比较好找,在gayhub一搜就行了。

然后就是恶心的翻译了。。。。中文要翻译成英文,英文还要翻回来。。每个都1w多词。我感觉我让DKU的IP至少被5个翻译网址给封IP了。Google给了个API,说着free无限制,最后还是封了。百度和金山词霸都被封掉了。我仅剩的就是有道翻译,它还是比较人性化的,好像只封几小时,会恢复。

我要想个折中的方案,比较好的选择就是词典,但是大部分的词典库都是给出一坨解释,根本没法用。最后我到一个很小的网址(不封爬虫!!!万岁!!!)爬了每个单词的最前的释义,代码写得奇丑无比。。。(比上面的都丑)我就不放了。反正最后扒了大概2w词,我以为差不多了,但是一翻译还是很多没有,于是我就本地+云端结合翻译,这样有道的服务器应该不会压力太大。而且我加上了学习,每次防止封IP被搞下来就每次学习查下来的翻译。超丑代码如下:(看看意思就行了,很多意义不明的东西都没来得及删掉

翻译完了还有一些问题,英语单词的时态会导致一些诡异的问题,而且翻译完了还会出现重叠的词汇,需要集合一下。

时态问题可以用词干化处理解决。用nltk的wordnet库
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
stem = lemmatizer.lemmatize(word)

于是就把stem后的单词记一下翻译,假如不一样就麻烦有道搞一波。flag表示是否翻译过

词云用R语言的wordcloud2化的,虽然python很简单,但既然学了统计。。。

首先database里面要有两个数组,word和freq,代码为

saveWidget(wordcloud2(database), file = "path", selfcontained = FALSE)

path要具体到文件,比如/Volumes/data/!!homework/test.html

可以加蒙版,改颜色背景啥的直接?wordcould2看吧。。比较简单

最后说一句:人生苦短,我用python。

python真的爽。。。。


如果你觉的这篇文章不错,分享给朋友吧!

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

×