通信行业数据分析师岗位职能要求
1、简单说说以前我在联通做大数据分析时用到的工具吧
首先是要登录一个4A的平台,用内部员工号才能登录的,否则是提取不到数据的,而且这个账号每次都是想要哦动态认证码的,每次都得找上级要认证码。
接着就是用MySQL语句去Hadoop平台去提取需要用到的数据,往往提出来的数据都是超过几万条的,可能这就是所谓的大数据吧,数据量还是蛮大的,有时候提取的数据是一整月的时候,数据量就会破百万条了,所以这就是大数据了,而且字段还是比较多的,基本都是30个字段以上。
在这里我就是要提醒大家要多学习下MySQL和Hadoop这两个了,如何这几个基础的查询,创建语句都不会的话,那还是不要来做大数据了,虽然目前有些数据分析师用的还是Excel表格,但是随着市场的发展,在大数据面前还是需要用到相关的程序去解决才是比较快的。
2、在查询中一般会用到哪些简单的查询语句呢?
简单的举例说明一下
1、查询全省的视频业务
SELECT app_sub_type,count(*),
sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay >0,1,0)) as 响应成功次数,(count(*) - 响应成功次数 ) as 失败次数,
响应成功次数/count(*) as 响应成功率,失败次数/Sum(失败次数) as失败占比
FROM s1u_http_20170918
WHERE
transaction_type in (5,6)
and Cityname in (‘GZ’)
group by app_sub_type
order by 失败占比 DESC limit 20;(尽量全部取出数据再TOP)
2、Host维度查询语句
SELECT
host,count(*),
sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay > 0,1,0)),
sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay > 0,1,0))/count(*)
(dl_data/sum(dl_data))-(http_lastpacket_1streq_delay/sum(http_lastpacket_1streq_delay)) (不用)
FROM mlte_s1u_http
WHERE
cityname = ‘GZ’
And dl_data > 0
And ul_data > 0
And http_lastpacket_1streq_delay >0 (不用)
And transaction_type in (5,6)
And app_type = 5
And app_sub_type =6
And slicetime like ‘20170827%’
Group by host
Order by count(*) DESC limit 10;(尽量全部取出数据再TOP)
3、IP维度查询语句
SELECT
app_server_ip_ipv4,count(*),
sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay > 0,1,0)),
sum(if((http_wap_affair_status between 1 and 399)
and http_1stack_1streq_delay > 0,1,0))/count(*)
FROM mlte_s1u_http
WHERE
cityname = ‘GZ’
And transaction_type in (5,6)
And slicetime like ‘20170827%’
And host = ‘hls71-o.kascend.com’
Group by app_server_ip_ipv4
Order by count(*) DESC ;
3、具体要学会的主要关键词在于下面几个用法
01、SELECT
02、DISTINCT
03、WHERE
04、AND OR
05、IN
06、BETWEEN
07、LIKE
08、ORDER BY
09、函数
10、COUNT
11、Group By
12、HAVING
13、ALIAS
14、连接
15、外部连接
16、Subquery
17、UNION
18、UNION ALL
这些是必须要懂的SQL语法
4、其次高深点的大数据分析,就是要会R语言和Python了,用于数据爬虫和建模分析等,只有在学会这两个的基础上才能更好的去做深层次的大数据分析。
最后还要会统计学的公式,不会这些公式的话,在建模和分析的时候,就会造成很大的偏差,所以必须要有一定的数学功底,这样才好写出合理的建模算法程序出来。