- 博客(53)
- 资源 (8)
- 收藏
- 关注
原创 Impala(一):Impala+Kudu+HDFS教程
本文部分引用其它博客,部分原创,如有不妥之处,欢迎随时留言沟通交流,谢谢~1、Impala语法增删改查2、Impala常用函数2.1 、字符串函数参考链接: https://blog.csdn.net/qq_24699959/article/details/798636642.2 、 数值函数参考链接: https://blog.csdn.net/qq_24699959...
2018-07-25 15:46:40 5967
原创 Pyspark-RDD不能嵌套
df = sqlContext.createDataFrame( [(0,1, "a", 23.0), (1,3, "C", -23.0), (2,3, "A", -21.0), (3,2, "B", -19.0) ], ('sec_code','dt','minute') )df.show()a = [(1,rdd)]rdd = sc.parallelize(a)Tracebac...
2018-07-23 16:54:20 1617
转载 SPARK-Submit调参(转)
文章出处:https://blog.csdn.net/chenjieit619/article/details/53421080如有不妥之处,欢迎随时留言沟通交流,谢谢~在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡...
2018-07-23 16:17:55 3569
原创 Pyspark can't pickle method_descriptor
如有不妥之处,欢迎随时留言沟通交流,谢谢~其实错误背后的理论原因没理解很清楚,麻烦大神帮忙解答下?错误代码:from impala.dbapi import connectis_test = Falsehost = '192.168.0.1' if is_test else '192.168.0.1'conn = connect(host=host, port=25001, t...
2018-07-23 15:22:43 1864 1
原创 Pyspark连接Kudu
如有不妥之处,欢迎随时留言沟通交流,谢谢~1、 Pyspark读Kudu(linux下提交任务ok)import pysparkpyspark --jars /home/zwshi/kudu-spark2_2.11-1.6.0.jar # 启动 sqlContext = pyspark.sql.SQLContext(spark) # 创建sql连接 df = sqlContex...
2018-07-23 11:56:10 2610
转载 Hadoop分布式环境下的抽样技术
1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便有了
2013-09-14 16:36:27 815
转载 如何评价《Big Data:大数据时代》这本书?
出处:http://www.zhihu.com/question/20666694花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打三分。
2013-09-14 16:11:19 3656 1
转载 Java正则表达式应用总结
Java正则表达式应用总结 一、概述 正则表达式是Java处理字符串、文本的重要工具。 Java对正则表达式的处理集中在以下两个两个类:java.util.regex.Matcher 模式类:用来表示一个编译过的正则表达式。java.util.regex.Pattern 匹配类:用模式匹配一个字符串所表达的抽象结果。(
2013-06-22 13:25:51 545
转载 R与JAVA的整合
文章转自http://jliblog.com/archives/10 R是统计计算的强大工具,而JAVA是做应用系统的主流语言,两者天然具有整合的需要。关于整合,一方面,R中可以创建JAVA对象调用JAVA方法,另一方面,JAVA中可以转换R的数据类型调用R的函数,互相取长补短。现在也有一个项目JGR,用JAVA做R的图形界面,可以实现高亮显示自动补全等,还能让JAVA和R互相调用。
2013-05-26 11:24:14 1792
转载 从Java里调用R – 使用Rserve
文章来自:http://shao-fan.com/blog/use-rserve-in-java.htmljava中设置调用R语言-使用JRI方法,有一些弊端:R需要与JVM运行在同一台机器上,当R需要运行大型计算时,会耗用大量CPU与内存,因此会影响到JVM的性能 JRI的设置需要本地库的支持,运行的时候还是有些麻烦的Rserve可以解决这两个问题,同时也有JRI一样的易用性。它
2013-05-26 11:20:12 5869 2
转载 从Java里调用R – JRI的设置方法
文章来自:http://shao-fan.com/blog/eclipse-jri.htmlJRI允许用户从Java里面调用R的功能,而Eclipse是目前最常用的Java开发环境。本文介绍在Eclipse里设置JRI的方法。环境:Windows 7 32bitEclipse 3.6R 2.13.1rJava 0.9-11.在R里安装rJava扩展包。JRI已经被包含在
2013-05-26 11:17:25 2709
转载 RWeka用法
转载地址http://blog.sina.com.cn/s/blog_551d7bff01016qa1.html今天在找关联规则相关的资料时候,无意发现R语言中文论坛,虽然里面的资料有限,但是很有价值,譬如RWeka,一种开源的机器学习工具,在此予以介绍:1)Weka:Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for
2013-05-25 12:36:13 2154
转载 R语言与数据挖掘学习笔记(1):数据挖掘相关包的介绍
摘要: 今天发现一个很不错的博客(http://www.RDataMining.com),博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天开始 ...今天发现一个很不错的博客(http://www.RDataMining.com),博主致力于研究R语言在数据挖掘方面的
2013-05-25 10:48:11 1974 1
hbase_py3.zip
2019-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人