通信行业数据分析师岗位职能要求

2025-10-16 13:04:21

1、简单说说以前我在联通做大数据分析时用到的工具吧

首先是要登录一个4A的平台,用内部员工号才能登录的,否则是提取不到数据的,而且这个账号每次都是想要哦动态认证码的,每次都得找上级要认证码。

接着就是用MySQL语句去Hadoop平台去提取需要用到的数据,往往提出来的数据都是超过几万条的,可能这就是所谓的大数据吧,数据量还是蛮大的,有时候提取的数据是一整月的时候,数据量就会破百万条了,所以这就是大数据了,而且字段还是比较多的,基本都是30个字段以上。

在这里我就是要提醒大家要多学习下MySQL和Hadoop这两个了,如何这几个基础的查询,创建语句都不会的话,那还是不要来做大数据了,虽然目前有些数据分析师用的还是Excel表格,但是随着市场的发展,在大数据面前还是需要用到相关的程序去解决才是比较快的。

2、在查询中一般会用到哪些简单的查询语句呢?

简单的举例说明一下

1、查询全省的视频业务

SELECT app_sub_type,count(*),

sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay >0,1,0)) as 响应成功次数,(count(*) - 响应成功次数 ) as 失败次数,

响应成功次数/count(*) as 响应成功率,失败次数/Sum(失败次数) as失败占比

FROM s1u_http_20170918

WHERE

transaction_type in (5,6)

and Cityname in (‘GZ’)

group by app_sub_type

order by 失败占比 DESC limit 20;(尽量全部取出数据再TOP)

2、Host维度查询语句

SELECT

host,count(*),

sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay > 0,1,0)),

sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay > 0,1,0))/count(*)

(dl_data/sum(dl_data))-(http_lastpacket_1streq_delay/sum(http_lastpacket_1streq_delay))   (不用)

FROM mlte_s1u_http

WHERE

cityname = ‘GZ’

And dl_data > 0

And ul_data > 0

And http_lastpacket_1streq_delay >0 (不用)

And transaction_type  in (5,6)

And app_type = 5

And app_sub_type =6

And slicetime like ‘20170827%’

Group by host

Order by count(*) DESC limit 10;(尽量全部取出数据再TOP)

3、IP维度查询语句

SELECT

app_server_ip_ipv4,count(*),

sum(if((http_wap_affair_status between 1 and 399) and http_1stack_1streq_delay > 0,1,0)),

sum(if((http_wap_affair_status between 1 and 399)

and http_1stack_1streq_delay > 0,1,0))/count(*)

FROM mlte_s1u_http

WHERE

cityname = ‘GZ’

And transaction_type in (5,6)

And slicetime like ‘20170827%’

And host = ‘hls71-o.kascend.com’

Group by app_server_ip_ipv4

Order by count(*) DESC ;

通信行业数据分析师岗位职能要求

通信行业数据分析师岗位职能要求

通信行业数据分析师岗位职能要求

3、具体要学会的主要关键词在于下面几个用法

01、SELECT                                         

02、DISTINCT                   

03、WHERE                       

04、AND OR 

05、IN 

06、BETWEEN 

07、LIKE 

08、ORDER BY

09、函数

10、COUNT

11、Group By

12、HAVING

13、ALIAS

14、连接                                          

15、外部连接                   

16、Subquery                       

17、UNION

18、UNION ALL

这些是必须要懂的SQL语法

4、其次高深点的大数据分析,就是要会R语言和Python了,用于数据爬虫和建模分析等,只有在学会这两个的基础上才能更好的去做深层次的大数据分析。

最后还要会统计学的公式,不会这些公式的话,在建模和分析的时候,就会造成很大的偏差,所以必须要有一定的数学功底,这样才好写出合理的建模算法程序出来。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢