Publish: December 8, 2020
Category: 数据分析
No Comments
conda安装:
首先是安装conda,anaconda是一个全的,Miniconda只包含python和conda,在下面的链接中找到对应的linux发行版的下载链接。
wget https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh
然后执行
bash Anaconda3-2020.11-Linux-x86_64.sh
其中会让你阅读license和配置安装路径,默认是PREFIX=/root/anaconda3
。之后等待一段时间以后就是
conda基本使用:
创建一个python3.9的环境
# 创建一个名为python39的环境,指定Python版本是3.9(不用管是3.9.x,conda会为我们自动寻找3.9.x中的最新版本
# 如果提示 `-bash: conda: command not found` 刷新下当前环境执行如下命令 `source /root/.bashrc`
conda create --name py39 python=3.9
阅读剩余部分...
Publish: October 29, 2020
Category: 编程,数据分析
No Comments
基本概念:
连续查询(Continuous Query)简称CQ,是influxdb中的一种查询类型,其会按照用户指定的查询规则,自动的、周期性的查询实时数据并执行指定运算,然后将结果保存到指定的表(Measurement)。
持续查询中用户可以指定的查询规则包括:查询时间间隔、单次查询时间范围、查询规则。InlfuxDB会根据用户指定的规则,定期的将过去一段时间内的原始数据以用户所期望的方式保存至用户新的结果表(Measurement)中,极大的减少了新表中的数据量。并且,新数据表中数据是跟用户业务高度贴近的方式存储,在新表中查询数据会提升查询速度,降低复杂度。
创建连续查询语法:
创建连续查询的基础语法如下
CREWATE CONTINUOUS QUERY <cq_name> ON <database_name>
BEGIN
<cq_query>
END
- cq_name: 连续查询名称
- database_name: 连续查询所在数据库的名字
cq_query: 连续查询规则语句,该块的语法是 InfluxQL格式具体格式如下
SELECT <functions[s]>
INTO <destination_measurement>
FROM <source_measurement>
[WHERE <stuff>]
GROUP BY time(<interval>)[,<tag_key[s]>]
其中SELECT、INTO、FROM、GROUP BY time()字句是必选设置项,具体参数如下
- <functions[s]>: 要查询的字段以及数据处理的内置函数
- <destinaion_measurement>: 用于保存查询结果的目标数据表,如果表不存在InfluxDB会自动创建。
- <source_measurement>: 连续查询语句所要查询的数据表
- <stuff>: 具体的查询条件,可选
- <interval>: 连续查询语句执行的时间间隔和查询的时间范围,实际使用中要注意,不应在where条件中指定时间范围,即使指定也会被系统忽略。
- <tag_key[s]>: 归类的标签字段,可选参数
阅读剩余部分...
Publish: May 16, 2019
Category: 数据分析
No Comments
概念理解
词性标注:
给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。这样说比较抽象,我们用一个简单的例子来说明
这儿是个非常漂亮的公园
对其词性标注结果如下
这儿/代词 是/动词 个/量词 非常/副词 漂亮/形容词 的/结构助词 公园/名词
给已经分好的词做词性标注,中文里多义的,也就是不同场景下表示的语法属性完全不同。好在大多数的词,尤其是“实词”一般只有一到两个词性,并且其中一个词性使用频次远远高于另外一个。
词性标注最简单的方法是从”语料库“中统计每个词所对应的高频词性,将其作为默认词性。同时使用”隐含马尔可夫模型“、”条件随机场模型”能提高标记准确性。
阅读剩余部分...
Publish: April 28, 2019
Category: 代码分享,数据分析
No Comments
自然语言处理的首要任务是分词,将一段文本分割成独立的词语。
中文分词介绍
已经归纳的三种分词如下:
规则分词、统计分词、混合分词
- 规则分词:
通过设立人工词库,按照一定方式进行切分匹配。
正向最大匹配法(Maximum Match Method MM法)
的基本思路,假定分词词典中最最长词为 i 个汉字字符,则首先切分待处理文档的前 i 个字符作为匹配子串,在分词词典中查找。如果找到则表示匹配成功,匹配子串作为一个词切分出来。如果在字典中找不到这个词,则匹配失败,然后将匹配字段中的最后一个字去掉对剩下的子串重新匹配。按照这个方法直到匹配成功。
逆向最大匹配算法(Reverse Maximum Match Method, RMM法)
:其算法描述和MM法基本一致,唯一的不同在于RMM法是从文本的后面开始匹配。
双向最大匹配法 (Bi-directction method)
:是将MM法和RMM法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。
- 统计分词
把每个词看做由单个字组成的,如果相连的两个字在不同的文本中出现词数越多,那么这两个词大概率是一个词,当出现的概率高于设定的阈值时我们认为这个”字组“可能会构成一个词。
基于统计的分词一般有两部分内容:
- 建立统计语言模型
- 对句子进行单词划分,对划分结果进行概率统计,获得概率最大分词方式。
Jieba中文分词工具
Jieba分词结合了基于规则和基于统计这两类方法实现中文分词。通过前缀词典构建可能的有向无环图,通过在该图中的多条分词路径找到最优路线,也就确定了具体分词。对于未记录在词典的词,其使用HMM模型,采用Viterbi算法进行推导(表示我也不知道这个是什么意思)。
阅读剩余部分...
Publish: September 10, 2018
Category: 数据分析
No Comments
寻找相近的用户
我们有如下数据,列出了每个人对每部电影的喜好评分,数字越大表示越喜欢。要做推荐算法首先要做的是寻找相似爱好的用户,然后根据这些相似用户中最喜欢的一些电影推荐给该用户。
数据说明
首先第一步就是寻找相近用户,这里有两种相似用户寻找方式。
项目 | Lisa Rose | Gene Seymour | Michael Phillips | Claudia Puig | Mick LaSalle | Jack Matthews | Toby |
---|
Lady in the Water | 2.5 | 3.0 | 2.5 | | 3.0 | 3.0 | |
Snakes on a Plane | 3.5 | 3.5 | 3.0 | 3.5 | 4.0 | 4.0 | 4.5 |
Just My Luck | 3.0 | 1.5 | | 3.0 | 2.0 | |
Superman Returns | 3.5 | 5.0 | 3.5 | 4.0 | 5.0 | 5.0 | 4.0 |
You, Me and Dupree | 2.5 | 3.5 | | 2.5 | 3.5 | 3.5 | 1.0 |
The Night Listener | 3.0 | 3.0 | 4.0 | 4.5 | 3.0 | 3.0 | |
阅读剩余部分...
- 1
- 2
- NEXT »