搜索
您的当前位置:首页正文

使用Talend Open Studio将数据从oracle导入到hive中

2023-11-09 来源:哗拓教育
file.zip jobInfo.properties join lib[hive@h1 work]$ cd join/[hive@h1 join]$ lsbigdatademo items join_0_1.jar join_run.bat join_run.sh src user_activity2[hive@h1 join]$ pwd/home/work/join[hive@h1 join]$ lsbigdatademo items join_0_1.jar join_run.bat join_run.sh src user_activity2[hive@h1 join]$ pwd/home/work/join[hive@h1 join]$ ./join_run.sh > user_activity2 2>&1 &

这样就得到了SQL语句执行的结果,存放在user_activity2中。

hive建表语句:

技术分享

 

hive> show create table user_activity2;OKCREATE TABLE `user_activity2`( `user_id` string, `user_name` string, `sex` string, `age` string, `reg_hosp` string, `reg_community` string, `type` string, `disease_code` string, `disease` string, `doctor` string, `hosp_name` string, `service_id` string, `drug_id` string, `drug_name` string, `antibiotic` string, `hormone` string, `source` string, `base_drug` string, `community` string, `date` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘|‘ STORED AS INPUTFORMAT ‘org.apache.hadoop.mapred.TextInputFormat‘ OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat‘LOCATION ‘hdfs://h1:8020/apps/hive/warehouse/cyw.db/user_activity2‘TBLPROPERTIES ( ‘transient_lastDdlTime‘=‘1435547544‘)Time taken: 0.288 seconds, Fetched: 31 row(s)

将数据导入到hive表中:load data local inpath ‘./user_activity2‘ into table user_activity2;

hive> show tables; OKTime taken: 0.794 secondshive> use cyw;OKTime taken: 0.256 secondshive> show tables;OKuser_activityuser_activity2Time taken: 0.136 seconds, Fetched: 2 row(s)hive> load data local inpath ‘./user_activity2‘ into table user_activity2;Loading data to table cyw.user_activity2Table cyw.user_activity2 stats: [numFiles=1, totalSize=216927483]OKTime taken: 10.898 secondshive> select * from user_activity2;OKF805418B-335F-4CA3-A209-7C9655148146 余泽英 2 47 成都高新区合作社区卫生服务中心 合作 1 急性支气管炎 谭万龙 成都高新区合作社区卫生服务中心 1E972231-C65A-4CE3-9233-8EA1B18058DE 灭菌注射用水 d875aacf-4723-4777-91ec-12d63732b58f 0 0 其他 合作 2014-02-27F805418B-335F-4CA3-A209-7C9655148146 余泽英 2 47 成都高新区合作社区卫生服务中心 合作

查询语句:

select a.个人id, b.姓名, b.性别, round((sysdate - b.出生日期) / 365) as fage, b.建档单位, replace(replace(replace(b.建档单位, ‘高新区‘), ‘社区卫生服务中心‘), ‘成都‘) 建档社区, 1 as ftype, a.问题编码, a.问题名称, a.处理医生, c.机构名, a.服务记录id, f.名称, f.id 药品ID , f.抗生素, f.激素类药, case when f.药品来源 is null then ‘其他‘ else f.药品来源 end 药品来源, f.基药分类, replace(replace(replace(c.机构名, ‘高新区‘), ‘社区卫生服务中心‘),‘成都‘) 诊疗社区, to_char(a.发现日期, ‘yyyy-mm-dd‘) 诊疗日期 from ZLCHS.个人问题列表 a, ZLCHS.个人信息 b, ZLCHS.服务活动记录 c, (select d.事件id, e.名称, e.id, h.药品来源, h.基药分类, g.抗生素, g.激素类药 from ZLCHS.个人费用记录 d, ZLCHS.收费项目目录 e, ZLCHS.药品规格 h, ZLCHS.药品特性 g where d.收费项目id = e.id and d.收据费目 in (‘西药费‘, ‘中草药费‘, ‘中成药费‘) and h.药品id(+) = e.id and h.药名id = g.药名id) f where a.个人id = b.id(+) and a.服务记录id = c.id(+) and a.服务记录id = f.事件id(+)

 

 

 

 

 

 

使用Talend Open Studio将数据从oracle导入到hive中

标签:

小编还为您整理了以下内容,可能对您也有帮助:

HIVE中导入不同数据的比较?

以下是一些常见的数据导入方法的比较:

1. 通过HiveQL加载数据:Hive可以通过HiveQL语句来加载数据,无论是结构化数据(如CSV、JSON)还是非结构化数据(如文本文件)。使用HiveQL加载数据相对简单,适用于较小规模的数据集。例如,使用`LOAD DATA INPATH`命令可以将数据从HDFS中导入到Hive表中。

2. 使用Sqoop导入关系型数据库数据:如果需要将关系型数据库中的数据导入到Hive中,可以使用Sqoop工具。Sqoop提供了简单易用的命令行接口,用于在关系型数据库(如MySQL、Oracle)和Hive之间传输数据。使用Sqoop可以处理大规模、高吞吐量的数据导入,并支持增量导入和并行导入。

3. 使用Flume实时导入数据:如果需要实时导入日志数据或流式数据到Hive中,可以使用Apache Flume。Flume是一个分布式、可靠的、高可扩展的日志收集工具,可以将数据源(如日志文件、消息队列)中的数据实时导入到Hive表中。

4. 使用Hadoop MapRece导入数据:对于大规模的非结构化数据集,可以使用Hadoop MapRece来处理数据并将结果导入到Hive中。MapRece提供了灵活的编程框架,可以自定义数据处理逻辑。使用MapRece导入数据需要编写Map和Rece任务,并定义输入和输出格式。

需要根据数据类型、规模和实时性等因素选择合适的导入方法。对于较小规模和非实时需求的数据,使用HiveQL加载数据是一种简单而直接的方法。对于大规模、高吞吐量或实时数据导入的需求,使用Sqoop、Flume或MapRece等工具可能更合适。根据具体情况,可以选择最适合您的数据导入方法。

如何将Oracle的大宽表(8000w条数据,每条记录280多个字段)导入到hbase...

使用sqoop工具。
1、在行键选择那里,通过用“”,将需要做行键的多个列写在一起就可以了。
2、例如要将a和b列同时做行键,那么--hbase-row-key "a,b"就可以了。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

如何将Oracle的大宽表(8000w条数据,每条记录280多个字段)导入到hbase...

使用sqoop工具。
1、在行键选择那里,通过用“”,将需要做行键的多个列写在一起就可以了。
2、例如要将a和b列同时做行键,那么--hbase-row-key "a,b"就可以了。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

大数据分析一般用什么工具分析

今天就我们用过的几款大数据分析工具简单总结一下,与大家分享。

1、Tableau

这个号称敏捷BI的扛把子,魔力象限常年位于领导者象限,界面清爽、功能确实很强大,实至名归。将数据拖入相关区域,自动出图,图形展示丰富,交互性较好。图形自定义功能强大,各种图形参数配置、自定义设置可以灵活设置,具备较强的数据处理和计算能力,可视化分析、交互式分析体验良好。确实是一款功能强大、全面的数据可视化分析工具。新版本也集成了很多高级分析功能,分析更强大。但是基于图表、仪表板、故事报告的逻辑,完成一个复杂的业务汇报,大量的图表、仪表板组合很费事。给领导汇报的PPT需要先一个个截图,然后再放到PPT里面。作为一个数据分析工具是合格的,但是在企业级这种应用汇报中有点局限。

2、PowerBI

PowerBI是盖茨大佬推出的工具,我们也兴奋的开始试用,确实完全不同于Tableau的操作逻辑,更符合我们普通数据分析小白的需求,操作和Excel、PPT类似,功能模块划分清晰,上手真的超级快,图形丰富度和灵活性也是很不错。但是说实话,毕竟刚推出,系统BUG很多,可视化分析的功能也比较简单。虽然有很多复杂的数据处理功能,但是那是需要有对Excel函数深入理解应用的基础的,所以要支持复杂的业务分析还需要一定基础。不过版本更新倒是很快,可以等等新版本。

3、Qlik

和Tableau齐名的数据可视化分析工具,QlikView在业界也享有很高的声誉。不过Qlik Seanse产品系列才在市场有比较大的推广和应用。真的是一股清流,界面简洁、流程清晰、操作简单,交互性较好,真的是一款简单易用的BI工具。但是不支持深度的数据分析,图形计算和深度计算功能缺失,不能满足复杂的业务分析需求。

最后将视线聚焦国内,目前搜索排名和市场宣传比较好的也很多,永洪BI、帆软BI、BDP等。不过经过个人感觉整体宣传大于实际。

4、永洪BI

永洪BI功能方面应该是相对比较完善的,也是拖拽出图,有点类似Tableau的逻辑,不过功能与Tableau相比还是差的不是一点半点,但是操作难度居然比Tableau还难。预定义的分析功能比较丰富,图表功能和灵活性较大,但是操作的友好性不足。宣传拥有高级分析的数据挖掘功能,后来发现就集成了开源的几个算法,功能非常简单。而操作过程中大量的弹出框、难以理解含义的配置项,真的让人很晕。一个简单的堆积柱图,就研究了好久,看帮助、看视频才搞定。哎,只感叹功能藏得太深,不想给人用啊。

5、帆软BI

再说号称FBI的帆软BI,帆软报表很多国人都很熟悉,功能确实很不错,但是BI工具就真的一般般了。只能简单出图,配合报表工具使用,能让页面更好看,但是比起其他的可视化分析、BI工具,功能还是比较简单,分析的能力不足,功能还是比较简单。帆软名气确实很大,号称行业第一,但是主要在报表层面,而数据可视化分析方面就比较欠缺了。

6、Tempo

另一款工具,全名叫“Tempo大数据分析平台”,宣传比较少,2017年Gartner报告发布后无意中看到的。是一款BS的工具,申请试用也是费尽了波折啊,永洪是不想让人用,他直接不想卖的节奏。

第一次试用也是一脸懵,不知道该点那!不过抱着破罐子破摔的心态稍微点了几下之后,操作居然越来越流畅。也是拖拽式操作,数据可视化效果比较丰富,支持很多便捷计算,能满足常用的业务分析。最最惊喜的是它还支持可视化报告导出PPT,彻底解决了分析结果输出的问题。深入了解后,才发现他们的核心居然是“数据挖掘”,算法十分丰富,也是拖拽式操作,我一个文科的分析小白,居然跟着指导和说明做出了一个数据预测的挖掘流,简直不要太惊喜。掌握了Tempo的基本操作逻辑后,居然发现他的易用性真的很不错,功能完整性和丰富性也很好。

常见的大数据分析工具有哪些?

大数据分析的前瞻性使得很多公司以及企业都开始使用大数据分析对公司的决策做出帮助,而大数据分析是去分析海量的数据,所以就不得不借助一些工具去分析大数据,。一般来说,数据分析工作中都是有很多层次的,这些层次分别是数据存储层、数据报表层、数据分析层、数据展现层。对于不同的层次是有不同的工具进行工作的。下面小编就对大数据分析工具给大家好好介绍一下。

首先我们从数据存储来讲数据分析的工具。我们在分析数据的时候首先需要存储数据,数据的存储是一个非常重要的事情,如果懂得数据库技术,并且能够操作好数据库技术,这就能够提高数据分析的效率。而数据存储的工具主要是以下的工具。

1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。

2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。

3、DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;

接着说数据报表层。一般来说,当企业存储了数据后,首先要解决报表的问题。解决报表的问题才能够正确的分析好数据库。关于数据报表所用到的数据分析工具就是以下的工具。

1、Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。

2、Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为很多人经常用它来从数据库中进行报表和可视化分析。

第三说的是数据分析层。这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;

1、Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;

2、SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。

最后说表现层的软件。一般来说表现层的软件都是很实用的工具。表现层的软件就是下面提到的内容。

1、PowerPoint软件:大部分人都是用PPT写报告。

2、Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;

3、Swiff Chart软件:制作图表的软件,生成的是Flash

Top