반응형

1. 서론

이번 포스팅에서는 Hbase가 제공하는 클라이언트 API : 관리 기능에 대해 알아보겠습니다.

 

Hbase는 데이터를 조작하는 API 뿐 만이 아닌 데이터 정의를 위한 클라이언트 API도 제공하고 있습니다.

 

2. 스키마 정의

Hbase에서는 테이블 생성 시 테이블 및 컬럼패밀리의 스키마를 정의해야 합니다.

 

1) 테이블

 

Hbase는 데이터를 저장하는 가장 상위의 개념으로 테이블을 사용합니다.

이런, 테이블의 특성을 클라이언트에서는 아래와 같은 지시자 클래스로 제공합니다.

 

TableDescriptorBuilder.newBuilder(TableName tableName).build();
TableDescriptorBuilder.newBuilder(TableDescriptor tableDescriptor).build();

TableName tableName = TableName.valueOf("tableName");
TableDescriptor tableDescriptor = new ModifyableTableDescriptor(tableName);

 

Hbase 의 테이블 명은 hdfs의 실제 디렉터리로 생성이되기 때문에 파일명 규칙에 따라 만들어야 합니다.

 

Hbase의 테이블은 논리적인 개념이며, 물리적으로는 여러개의 리전으로 분리가 되며 각 리전은 Hbase Region Server에 존재하게 됩니다.

 

아래는 위 설명을 간략하게 나타낸 그림입니다.

 

 

2) 테이블 속성

 

테이블 지시자 클래스에는 속성 설정을 위한 Getter, Setter를 제공합니다.

 

이름

 

아래와 같이 테이블 이름을 가져올 수 있습니다.

 

byte[] tableName1 = tableDescriptor.getTableName().getName();
String tableName2 = tableDescriptor.getTableName().getNameAsString();

 

수정의 경우 마이너 버전에서는 setName으로 가능했으나 현재는 테이블을 새로 생성하여 migration하는 방법을 권장하고 있습니다.

 

컬럼패밀리

 

테이블 정의 시 가장 중요한 부분은 컬럼패밀리입니다.

 

컬럼패밀리의 경우 아래와 같은 API를 통해 조작이 가능합니다.

 

tableDescriptor.getColumnFamilies();
tableDescriptor.getColumnFamily(byte[] column);
tableDescriptor.hasColumnFamily(byte[] column);
Admin admin = connection.getAdmin();
admin.addColumnFamily();
admin.deleteColumnFamily();

 

파일 최대 크기

 

테이블내의 리전이 커질 수 있는 최대 파일 크기 또한 조작이 가능합니다.

 

API 명세는 아래와 같습니다.

 

tableDescriptor.getMaxFileSize();
((ModifyableTableDescriptor) tableDescriptor).setMaxFileSize(1024000);

 

최대 크기 설정은 리전 크기가 해당 값에 도달했을때 시스템이 리전을 분할하는 기준이 됩니다.

 

 

읽기 전용

 

쓰기가 아닌 일기 전용 테이블을 만들어야 하는 경우 아래와 같은 API를 사용하면 됩니다.

 

tableDescriptor.isReadOnly();
((ModifyableTableDescriptor) tableDescriptor).setReadOnly(true);

 

 

 

멤스토어 플러시 크기

 

아래는 멤스토어에 있는 데이터를 HFile로 write하는 트리거링을 바이트 단위로 조작하고 싶은 경우 사용하는 API 입니다.

 

tableDescriptor.getMemStoreFlushSize();
((ModifyableTableDescriptor) tableDescriptor).setMemStoreFlushSize(102400);

 

 

3) 컬럼패밀리

 

TableDescriptor 와 같이 컬럼패밀리에 대한 설정을 담고 있는 클래스는 ColumnFamilyDescriptor 입니다.

 

컬럼패밀리 또한 저장소 계층의 디렉터리 이름으로 사용되기 때문에 파일명 규칙을 따라 생성해야 합니다.

 

아래는 컬럼패밀리 지시자 클래스 정의입니다.

 

ColumnFamilyDescriptor columnFamilyDescriptor1 = 
	ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes("")).build();
ColumnFamilyDescriptor columnFamilyDescriptor2 = 
	ColumnFamilyDescriptorBuilder.newBuilder(new ColumnFamilyDescriptorBuilder.ModifyableColumnFamilyDescriptor(Bytes.toBytes(""))).build();

 

이름

 

아래와 같이 이름을 읽을 수 있습니다.

 

byte[] name1 = columnFamilyDescriptor.getName();
String name2 = columnFamilyDescriptor.getNameAsString();

 

Setter를 통해 이름을 설정할 수 는 없습니다.

 

최대 버전 갯수

 

컬럼패밀리 별로 값의 버전을 몇 개까지 보유할 지 지정할 수 있습니다.

 

columnFamilyDescriptor.getMaxVersions();
((ModifyableColumnFamilyDescriptor)columnFamilyDescriptor).setMaxVersions(100);

 

압축

 

컬럼패밀리에 저장된 데이터에 특정 압축기법을 적용할 수 있습니다.

 

Algorithm algorithm1 = columnFamilyDescriptor.getCompactionCompressionType();
Algorithm algorithm2 = columnFamilyDescriptor.getCompressionType();
((ModifyableColumnFamilyDescriptor)columnFamilyDescriptor).setCompactionCompressionType(Algorithm.GZ);
((ModifyableColumnFamilyDescriptor)columnFamilyDescriptor).setCompressionType(Algorithm.GZ);

 

Algorithm 은 Hbase 클라이언트에서 제공하는 enum으로 아래 값들이 있습니다.

 

  • LZO
  • GZ
  • NONE
  • SNAPPY
  • LZ4
  • BZIP2
  • ZSTD
기본은 NONE으로 압축하지 않습니다.

 

블록크기

 

Hbase는 컬럼패밀리별로 HFile을 저장하게 됩니다.

그렇기 때문에, HFile의 블록 크기를 컬럼패밀리 지시자를 통해 조작이 가능합니다.

 

columnFamilyDescriptor.getBlocksize();
((ModifyableColumnFamilyDescriptor)columnFamilyDescriptor).setBlocksize(1024);

 

기본 HFile의 블록크기는 64KB로 기본 HDFS의 블록 크기인 64MB에 비교하여 1/1024 의 크기입니다.

 

블록 캐시

 

Hbase는 I/O 자원을 효율적으로 사용하기 위해 scan 연산 시 모든 블록을 읽어 메모리에 상주시켜놓고 재사용하게 합니다.

메모리에 올렸기 때문에 디스크에는 다시 접근하지 않아 I/O를 절약합니다.

 

columnFamilyDescriptor.isBlockCacheEnabled();
((ModifyableColumnFamilyDescriptor) columnFamilyDescriptor).setBlockCacheEnabled(false);

 

유효기간

 

Hbase 에서는 컬럼패밀리에 속한 데이터의 버전 뿐만이 아닌 유효기간도 설정도 가능합니다.

 

기본은 영원히 저장하도록 되어 있으며, 유효기간을 지정하게 되면 주 컴팩션시  유효기간이 지난 데이터들을 찾아 삭제합니다.

 

columnFamilyDescriptor.getTimeToLive();
((ModifyableColumnFamilyDescriptor) columnFamilyDescriptor).setTimeToLive(1000);

 

인메모리

 

위 블록캐시에서 말한 메모리에 대한 설정도 가능합니다.

 

columnFamilyDescriptor.isInMemory();
((ModifyableColumnFamilyDescriptor) columnFamilyDescriptor).setInMemory(true);

 

 

반응형

 

 

3. HBaseAdmin

Hbase에는 RDBMS의 DDL과 흡사한 기능을 제공하는 HBaseAdmin 클래스를 제공합니다.

 

HBaseAdmin 인스턴스는 아래와 같이 가져올 수 있습니다.

 

Configuration conf = HBaseConfiguration.create();
conf.set("hbase.zookeeper.quorum", "");

Connection connection = ConnectionFactory.createConnection(conf);
HBaseAdmin hBaseAdmin = (HBaseAdmin) connection.getAdmin();

 

1) 기본 기능

 

HBaseAdmin은 아래와 같은 기본 기능을 제공합니다.

 

1. getConnection()

 

연결 인스턴스를 반환하는 메소드입니다.

 

2. getConfiguration()

 

HBaseAdmin 인스턴스를 생성할 때 사용된 설정 인스턴스를 반환합니다.

 

3. close()

 

HBaseAdmin 인스턴스가 점유하고 있는 모든 자원을 해제합니다.

 

 

2) 테이블 관련 기능

 

HBaseAdmin은 DDL과 같이 테이블 생성을 위한 메서드를 제공합니다.

 

1. 생성

 

void createTable(TableDescriptor desc) throws IOException;
void createTable(TableDescriptor desc, byte[] startKey, byte[] endKey, int numRegions) throws IOException;
void createTable(final TableDescriptor desc, byte [][] splitKeys);

 

메서드 2번째를 보시면 테이블 생성 시 row key의 시작키와 끝키를 지정하여 특정 리전에 존재하는 테이블을 생성시킬 수 있습니다.

이때, 시작키는 끝키보다 작아야하며, 기본적으로 Hbase 의 리전은 시작키를 포함하고 끝키는 포함하지 않습니다.

numResions는 테이블이 확보해야하는 최소 리전 수를 의미하며
최소 3 이상이어야 합니다. 

 

아래는 테이블 생성하는 간단한 예제입니다.

 

Connection connection = ConnectionFactory.createConnection(HBaseConfiguration.create());
HBaseAdmin hBaseAdmin = (HBaseAdmin) connection.getAdmin();
TableDescriptor desc = TableDescriptorBuilder.newBuilder(TableName.valueOf("testTable")).build();
hBaseAdmin.createTable(desc);

 

 

2. 조회

 

테이블이 존재하는지, 혹은 지정한 테이블의 스키마 정의를 아래와 같은 메서드를 통해 가져올 수 있습니다.

 

boolean tableExists(final TableName tableName) throws IOException;
HTableDescriptor[] listTables() throws IOException;
HTableDescriptor[] listTables(Pattern pattern) throws IOException;
HTableDescriptor[] listTables(String regex) throws IOException;
HTableDescriptor getTableDescriptor(final TableName tableName) throws IOException;

 

3. 삭제

 

테이블 삭제는 아래 메서드를 사용하시면 됩니다.

 

void deleteTable(final TableName tableName) throws IOException;

 

4. 비활성

 

HBase에서는 테이블 삭제 전 필수로 비활성을 시켜야 합니다.

 

비활성 메서드는 아래와 같습니다.

 

void disableTable(final TableName tableName) throws IOException;

 

비활성화 메서드는 아래와 같은 동작을 HBase에게 수행하도록 합니다.

 

  1. 모든 리전 서버에서 아직 적용하지 않은 변경사항 처리
  2. 모든 리전 닫음
  3. 해당 테이블의 모든 리전이 어떤 서버에도 배치되어 있지 않다는 정보를 메타( .META. ) 테이블에 기록

 

5. 활성화

 

HBaseAdmin은 테이블의 활성화 메서드도 제공하고 있습니다.

 

void enableTable(final TableName tableName) throws IOException;

 

6. 확인

 

지정 테이블이 활성화되어 있는지, 비활성화 되어 있는지 등의 상태를 확인하는 메서드는 아래와 같습니다.

 

boolean isTableEnabled(final TableName tableName) throws IOException;
boolean isTableDisabled(TableName tableName) throws IOException;
boolean isTableAvailable(TableName tableName) throws IOException;

 

isTableAvailable 메서드의 경우에는 테이블의 활성화 상태가 아닌 단지 존재하는지를 체크하는 메서드입니다.

 

7. 변경

 

테이블에 대한 정의를 변경도 가능합니다.

 

void modifyTable(TableDescriptor td) throws IOException;

 

단, 변경도 삭제와 동일하게 먼저 테이블을 비활성화 시킨 후 수행하여야 합니다.

 

 

3) 스키마 관련 기능

 

HBaseAdmin은 테이블의 컬럼 패밀리에 대한 정의도 변경 가능합니다.

 

void addColumnFamily(final TableName tableName, final ColumnFamilyDescriptor columnFamily) throws IOException;
void deleteColumnFamily(final TableName tableName, final byte[] columnFamily) throws IOException;
void modifyColumnFamily(final TableName tableName, final ColumnFamilyDescriptor columnFamily) throws IOException;

 

4) 클러스터 관련 기능

 

HBaseAdmin 클래스는 클러스터에 관련된 정보를 확인 및 조작할 수 있는 메서드를 제공합니다.

 

1. void flush(final TableName tableName) throws IOException

 

멤스토어에 있는 정보들을 강제로 disk write 하도록 수행하는 메서드입니다.

 

2. void compact(final TableName tableName) throws IOException

 

지정한 테이블을 컴팩션 대기열에 넣는 메서드입니다.

 

3. void majorCompact(final TableName tableName) throws IOException

 

지정 테이블에 대해 주 컴팩션이 일어나도록 트리거링하는 메서드입니다.

 

4. void split(final TableName tableName) throws IOException

 

지정 테이블에 대해 분할 작업을 수행시키는 메서드입니다.

지정 테이블의 모든 리전을 이터레이트하여 분할 작업을 자동적으로 호출합니다.

 

5. void assign(final byte [] regionName) throws

MasterNotRunningException, ZooKeeperConnectionException, IOException

 

리전을 할당할 때 사용하는 메서드입니다.

 

6. void unassign(final byte [] regionName, final boolean force) throws IOException

 

assign과 반대로 리전을 해제할 때 사용하는 메서드입니다.

 

7. void move(final byte[] encodedRegionName, ServerName destServerName) throws IOException

 

지정 리전을 특정 서버로 이동시키는 메서드입니다.

 

즉, 클라이언트는 능동적으로 특정 리전을 현재 배치된 서버가 아닌 다른 서버로 옮길 수 있습니다.

 

8. boolean balancerSwitch(final boolean on, final boolean synchronous) throws IOException

 

리전 밸런서를 키거나 끄는 메서드 입니다.

리번 밸런서랑 해당 리전이 지정 크기보다 커지는 경우 분할 시켜 다른 리전 서버로 보내는 역할을 합니다.

 

9. synchronized void shutdown() throws IOException

 

클러스터를 중단할 때 사용합니다.

 

10. synchronized void stopMaster() throws IOException

 

마스터 서버를 중단할 때 사용합니다.

 

11. synchronized void stopRegionServer(final String hostnamePort) throws IOException

 

특정 리전 서버만을 중단 할 때 사용합니다.

 

4. 마무리

이번 포스팅에서는 클라이언트 API : 관리 기능에 대해 진행하였습니다.

 

다음 포스팅에서는 챕터 6장인 클라이언트 종류에 대해 진행하겠습니다.

 

반응형

'BigData > Hbase' 카테고리의 다른 글

(4) 클라이언트 API : 고급 기능  (0) 2020.04.19
(3) 클라이언트 API : 기본 기능  (0) 2020.04.09
(2) 설치  (0) 2020.04.08
(1) 소개  (0) 2020.04.07
반응형

1. 서론

 

이번 포스팅에서는 Hbase가 제공하는 클라이언트 API 중 고급 기능에 대해 알아보겠습니다.

 

2. 필터

Hbase에서는 Get 말고도 필터를 이용하여 데이터를 조회하여 가져올 수 있습니다.

 

1) 필터 소개

 

Hbase 클라이언트는 Filter라는 추상클래스와 여러가지 구현클래스를 제공하고 있습니다.

 

또한, 개발자는 직접 Filter 추상 클래스를 구현하여 사용할 수 있습니다.

 

모든 필터는 실제로 서버측에 적용이 되어 수행되어 집니다.

클라이언트에서 적용되는 경우에는 많은 데이터를 가져와 필터링해야 하기 때문에 대규모 환경에서는 적합하지 않습니다.

 

아래는 필터가 실제로 어떻게 적용되는지 보여줍니다.

 

 

클라이언트에서 필터 생성 -> RPC로 직렬화한 필터 서버로 전송 -> 서버에서 역직렬화하여 사용

 

 

2) 필터의 계층 구조

 

Filter 추상클래스가 최상단이며 추상클래스를 상속받아 뼈대를 제공하는 추상클래스로 FilterBase가 있습니다.

Hbase에서 제공하는 구현 클래스들은 FilterBase를 상속하고 있는 형태입니다.

 

 

3) 비교 필터

 

Hbase가 제공하는 필터 중 비교연산을 지원하는 CompareFilter가 있습니다.

 

생성자 형식은 아래와 같습니다.

 

CompareFilter(final CompareOperator op, final ByteArrayComparable comparator)

 

 

CompareOperator 에는 [LESS, LESS_OR_EQUAL, EQUAL, NOT_EQUAL, GREATER_OR_EQUAL, GREATER, NO_OP] 가 있습니다.

ByteArrayComparable 는 추상 클래스로 compareTo 추상 메서드를 가지고 있습니다.

 

 

4) 로우 필터 - RowFilter

 

로우 필터는 로우 키 기반으로 데이터를 필터링 할 수 있도록 제공하고 있습니다.

 

아래는 예제 코드입니다.

 

Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Table hTable = connection.getTable(TableName.valueOf("testtable"));

Scan scan = new Scan();
scan.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("col-0"));

Filter filter1 = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes.toBytes("row-22")));
scan.setFilter(filter1);
ResultScanner scanner1 = hTable.getScanner(scan);
scanner1.forEach(System.out::println);
scanner1.close();

Filter filter2 = new RowFilter(CompareFilter.CompareOp.EQUAL, new RegexStringComparator(".*-.5"));
scan.setFilter(filter2);
ResultScanner scanner2 = hTable.getScanner(scan);
scanner2.forEach(System.out::println);
scanner2.close();

Filter filter3 = new RowFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator("-5"));
scan.setFilter(filter3);
ResultScanner scanner3 = hTable.getScanner(scan);
scanner3.forEach(System.out::println);
scanner3.close();

 

위 예제에서는 아래 필터들을 사용하는 것을 볼 수 있습니다.

 

  • filter1 : 지정한 로우키에 대해서 사전편찬식으로 저장되는 로우들을 이용하여 필터
  • filter2 : 정규표현식을 이용하여 필터
  • filter3 : 부분 문자열을 이용하여 필터.

 

5) 패밀리 필터 - FamilyFilter

 

패밀리 필터의 경우 로우 필터와 동작방식이 비슷하지만 로우 키가 아닌 로우 안의 컬럼패밀리를 대상으로 비교합니다.

 

아래는 예제 코드입니다.

 

Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Table hTable = connection.getTable(TableName.valueOf("testtable"));

Filter filter1 = new FamilyFilter(CompareFilter.CompareOp.LESS, new BinaryComparator(Bytes.toBytes("colfam3")));

Scan scan = new Scan();
scan.setFilter(filter1);
ResultScanner scanner = hTable.getScanner(scan);
scanner.forEach(System.out::println);
scanner.close();

Get get1 = new Get(Bytes.toBytes("row-5"));
get1.setFilter(filter1);
Result result1 = hTable.get(get1);
System.out.println("Result of get(): " + result1);

Filter filter2 = new FamilyFilter(CompareFilter.CompareOp.EQUAL, new BinaryComparator(Bytes.toBytes("colfam3")));
Get get2 = new Get(Bytes.toBytes("row-5"));
get2.addFamily(Bytes.toBytes("colfam1"));
get2.setFilter(filter2);
Result result2 = hTable.get(get2);
System.out.println("Result of get(): " + result2);

 

위 예제 볼 수 있듯이 Filter는 Get, Scan 두개에 setFilter 메서드를 통해 적용 가능합니다.

 

또한, 컬럼 패밀리도 사전 편찬식으로 저장되는것을 이용하는것을 볼 수 있습니다.

 

 

6) 퀄리파이어 필터 - QualifierFilter

 

퀄리파이어 필터는 말 그대로 퀄리파이어를 대상으로 비교하는 필터입니다.

 

아래는 예제 코드입니다.

 

Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Table hTable = connection.getTable(TableName.valueOf("testtable"));

Filter filter = new QualifierFilter(CompareFilter.CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes.toBytes("col-2")));
        
Scan scan = new Scan();
scan.setFilter(filter);
ResultScanner scanner = hTable.getScanner(scan);
scanner.forEach(System.out::println);
scanner.close();
        
Get get = new Get(Bytes.toBytes("row-5"));
get.setFilter(filter);
Result result = hTable.get(get);
System.out.println("Result of get() : " + result);

 

7) 값 필터

 

이번에는 값을 대상으로 비교하는 필터입니다.

 

아래는 예제입니다.

 

Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Table hTable = connection.getTable(TableName.valueOf("testtable"));

Filter filter = new ValueFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator(".4"));
        
Scan scan = new Scan();
scan.setFilter(filter);
ResultScanner scanner = hTable.getScanner(scan);
scanner.forEach(result -> {
    Arrays.asList(result.rawCells()).forEach(System.out::println);
});
scanner.close();
        
Get get = new Get(Bytes.toBytes("row-5"));
get.setFilter(filter);
Result result = hTable.get(get);
Arrays.asList(result.rawCells()).forEach(System.out::println);

 

 

8) 의존 컬럼 필터 - DependentColumnFilter

 

의존 컬럼 필터의 경우 단순 필터링이 아닌 더 복잡한 필터 기능을 제공합니다.

이 필터는 다른 컬럼이 필터링될지 여부를 결정하는 의존 컬럼을 지정합니다.

 

아래는 의존 컬럼 필터의 생성자 입니다.

 

DependentColumnFilter(
    final byte [] family, 
    final byte[] qualifier,
    final boolean dropDependentColumn, 
    final CompareOperator op,
    final ByteArrayComparable valueComparator
)

 

9) 단일 컬럼값 필터 - SingleColumnValueFilter

 

단일 컬럼값 필터는 특정 컬럼과 값에 대해 비교 필터로 사용합니다.

 

생성자는 아래와 같습니다.

 

SingleColumnValueFilter(
  final byte [] family, 
  final byte [] qualifier,
  final CompareOperator op, 
  final byte[] value
)

SingleColumnValueFilter(
  final byte [] family, 
  final byte [] qualifier,
  final CompareOperator op,
  final ByteArrayComparable comparator
)

 

또한 추가로 아래와 같은 메소드를 통해 미세 조정이 가능합니다.

 

boolean getFilterIfMissing()
void setFilterIfMissing(boolean filterIfMissing)
boolean getLatestVersionOnly()
void setLatestVersionOnly(boolean latestVersionOnly)

 

10) 단일 컬럼값 제외 필터 - SingleColumnValueExcludeFilter

 

이 필터는 위의 단일 컬럼값 필터의 반대 기능의 필터로 보시면 됩니다.

 

즉, 생성자에 전달한 참조 컬럼이 결과값에서 제외 되어집니다.

 

 

11) 접두어 필터 = PrefixFilter

 

접두어 필터의 경우 이름 그대로 인스턴스화 할때 지정한 접두어와 일치하는 모든 로우를 반환합니다.

 

아래는 생성자 코드입니다.

 

PrefixFilter(final byte [] prefix)

 

이 필터의 경우 scan에 setting하여 사용할때 유의미하며, 지정한 접두어보다 큰 로우키를 만났을때는 알아서 종료되어

불필요한 탐색작업이 일어나지 않도록 되어 있습니다.

 

이 또한 Hbase의 사전 편찬식으로 정렬되어 있기 때문에 가능한 동작입니다.

 

 

12) 페이지 필터 - PageFilter

 

이 필터를 이용하면 로우 단위로 페이징 기능을 제공합니다.

 

인스턴스를 생성할 때 pageSize 파라미터를 지정하여 페이지당 몇 개의 로우를 반환할지 지정할 수 있습니다.

 

클라이언트 코드에서는 반환 받은 마지막 로우를 기억하고 있다가, 다음 이터레이션을 시작할때 시작 로우로 설정하여 사용할 수 있습니다.

 

이 필터는 시작 로우를 포함하므로 다음 페이징을 할때는 마지막 로우에 0byte를 추가하여 시작 로우로 설정하면 됩니다.

0byte는 증가시킬수 있는 최소한의 값이므로 안전하게 스캔 범위를 재설정할 수 있습니다.
또한 0byte 추가된 로우가 실제로 있더라도 페이지 필터는 시작 로우를 포함하므로 문제가 되지 않습니다.

 

아래는 예제 코드입니다.

 

Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Table hTable = connection.getTable(TableName.valueOf("testtable"));
        
Filter filte = new PageFilter(15);
final byte[] POSTFIX = Bytes.toBytes(0);
        
int totalRows = 0;
byte[] lastRow = null;
while(true) {
    Scan scan = new Scan();
    scan.setFilter(filte);
    
    if(lastRow != null) {
        byte[] startRow = Bytes.add(lastRow, POSTFIX);
        System.out.println("start row : " + Bytes.toStringBinary(startRow));
        scan.setStartRow(startRow);
    }

    ResultScanner scanner = hTable.getScanner(scan);
    int localRows = 0;
    Result result;
    while((result = scanner.next()) != null) {
        System.out.println(localRows++ + ":" + result);
        totalRows++;
        lastRow = result.getRow();
    }
    scanner.close();
    
    if(localRows == 0) break;
}
System.out.println("total rows : " + totalRows);

 

책에는 나와 있지 않지만, 물리주소가 아닌 로우키를 기준으로 페이징을 하여 시점에 따라 페이징 결과값은 달라질 수 있을 것으로 예상되어 집니다.
실제 서비스에서는 이 부분을 고려하여  적용해야 합니다.

 

13) 키 전용 필터 

 

이 필터는 데이터의 키 정보에만 접근하고 값 정보는 사용하지 않는 경우 사용합니다.

 

 

14) 최초 키 전용 필터

 

각 로우에서 Hbase 내부적으로 정렬된 첫번째 컬럼에 접근하는 기능을 제공합니다.

 

이러한 필터는 대체적으로 로우의 갯수를 셀 때 사용하곤 합니다.

 

 

15) 종료 로우 포함 필터 - InclusiveStopFilter

 

보통 필터들의 경우 시작 로우는 포함하나 종료 로우는 포함하지 않습니다.

하지만, 종료로우도 포함하기를 원할때는 이 필터를 사용하면 됩니다.

 

 

16) 타임스탬프 필터 - TimestampsFilter

 

스캔 결과에 버전 단위까지 미세조정하려면 타임스탬프 필터를 사용하면 됩니다.

 

아래는 생성자 코드입니다.

 

TimestampsFilter(List<Long> timestamps)

 

인자로 타임스탬프 리스트를 받는것을 볼 수 있습니다.

 

이 리스트에 포함된 타임스탬프와 동일한 결과만 반환받게 됩니다.

또한 scan의 경우 자체적으로 setTimeRange 메서드를 통해 범위를 지정할 수 있는데 타임스탬프 필터도 적용하게 되면

지정한 범위 안에서 필터에 지정한 버전과 동일한 값들만을 반환하게 됩니다.

 

 

17) 컬럼 개수 제한 필터 - ColumnCountGetFilter

 

로우 당 지정한 최대 개수만큼의 컬럼만 반환받는 필터입니다.

 

생성자는 아래와 같습니다.

 

ColumnCountGetFilter(final int n)

 

로우에서 설정된 최대 갯수만큼의 컬럼이 발견되면 전체 스캔을 중단하기 때문에 그다지 유용한 필터는 아닙니다.

 

 

18) 컬럼 페이지 필터 - ColumnPaginationFilter

 

페이지 필터와 비슷하지만, 이 필터는 한 로우 안의 컬럼을 대상으로 페이징을 제공합니다.

 

아래는 생성자 입니다.

 

ColumnPaginationFilter(final int limit, final int offset)

 

 

19) 컬럼 접두어 필터 - ColumnPrefixFilter

 

이 필터는 컬럼을 대상으로 지정한 접두어가 있는 값들을 필터링합니다.

 

생성자는 아래와 같습니다.

 

ColumnPrefixFilter(final byte [] prefix)

 

20) 스킵 필터 - SkipFilter

 

스킵 필터는 보조 필터로서 다른 필터를 감싼 형태로 동작합니다.

감싸진 필터가 건너뛸 인스턴스에 대한 단서를 제공하면 그 전체 로우를 제외하게 됩니다.

 

 

21) 스캔 중단 필터 - WhileMatchFilter

 

스캔 중단 필터도 보조 필터로서 하나라도 필터링되는 순간 전체 스캔을 중단하도록 합니다.

 

 

22) 필터 리스트 - FilterList

 

위에서 살펴본 필터들을 중첩하여 사용하고 싶을 수 있습니다.

이를 위해, 사용하는것이 필터 리스트입니다.

 

생성자는 아래와 같습니다.

 

FilterList(final List<Filter> filters)
FilterList(final Operator operator)
FilterList(final Operator operator, final List<Filter> filters)

 

filters에는 적용할 필터의 리스트를 의미합니다.

operator는 필터 결과를 어떻게 만들지 지정합니다.

 

아래는 Operator 값 입니다.

 

연산자 설명
MUST_PASS_ALL 모든 필터를 통과한 값만이 결과에 추가 ( = AND)
MUST_PASS_ONE 필터 중 하나라도 통과 한 값은 결과에 추가 ( = OR)

 

생성자 말고도 필터를 추가해야 할때는 아래 메소드를 사용하면 됩니다.

 

void addFilter(Filter filter)
void addFilter(List<Filter> filters)

 

또한, List 의 구현체에 따라 필터의 순서를 정할 수 있습니다.

ArrayList의 경우 담긴 순서대로 필터가 적용되는것을 보장합니다.

 

 

23) 사용자 정의 필터

 

지금까지는 Hbase 클라이언트가 제공하는 필터 종류에 대해 알아보았습니다.

 

하지만, 제공하는 필터가 아닌 사용자가 만든 Custom 한 필터가 필요한 경우가 있습니다.

 

이런경우에는 Filter 혹은 FilterBase 추상 클래스를 상속받아 만들 수 있습니다.

 

 

 

 

 

반응형

 

 

 

 

3. 카운터

Hbase에서는 고급 기능인 카운터 기능도 제공하고 있습니다.

 

1) 카운터 소개

 

카운터 기능이 없다면 개발자는 수동으로 아래와 같은 절차를 만들어야 합니다.

 

  1. 로우 lock
  2. 값 조회
  3. 값 증가 후 write
  4. lock 해제

 

하지만 이러한  절차는 과도한 경합상황을 야기하며,

lock이 잠긴상태로 어플리케이션이 죽게되면 lock 정책에 따른 타임아웃이 끝나기 전까지는 다른 어플리케이션인 접근할 수 없게 됩니다.

 

Hbase에서는 클라이언트 측 호출을 통해서 이러한 절차를 원자적으로 처리할 수 있도록 제공하고 있습니다.

더불어, 한 호출로 여러개의 카운터 갱신 기능도 제공하고 있습니다.

 

아래는 hbase shell 에서 카운터 예제를 수행한 사진입니다.

 

 

incr 은 주어진 인자 만큼 카운터의 값을 증가 시킨 후 반환 받습니다.

get_counter는 현재 카운터 값을 반환합니다.

 

아래는 카운터도 보통의 컬럼 중에 하나라는것을 증명하는 사진입니다.

 

 

추가로 incr의 경우 음수를 인자로 주어 카운터를 감소시킬수도 있습니다.

 

 

2) 단일 카운터

 

Hbase 클라이언트는 단일 카운터만을 대상으로 처리할 수 있도록 제공하고 있습니다.

이때, 정확한 카운터 컬럼을 지정해야 합니다.

 

아래는 HTable 클래스에서 제공하는 메서드입니다.

 

long incrementColumnValue(byte[] row, byte[] family, byte[] qualifier, long amount)
long incrementColumnValue(byte[] row, byte[] family, byte[] qualifier, long amount, Durability durability)

 

카운터를 수행할 좌표값(row, family, qualifier) 와 카운터 증감 값을 인자로 받는것을 알 수 있습니다.

단, Durability 인자로 오버로딩이 되어 있습니다.

이 Durability 는 WAL에 반영을 어떻게 할건지에 대한 설정입니다.

 

Durability 는 enum으로 아래와 같은 값들이 정의되어 있습니다.

 

public enum Durability {
  USE_DEFAULT,
  SKIP_WAL,
  ASYNC_WAL,
  SYNC_WAL,
  FSYNC_WAL
}

 

 

3) 복수 카운터

 

카운터를 증가시키는 방법으로는 HTable의 increment 메서드가 있습니다.

 

아래는 increment 메서드 명세입니다.

 

Result increment(final Increment increment)

 

이 메서드를 사용하기 위해서는 Increment 인스턴스를 만들어야 합니다.

Increment 인스턴스에는 카운터 컬럼의 좌표값과 적절한 세부 사항을 넣어야 합니다.

 

아래는 Increment의 생성자입니다.

 

Increment(byte [] row)

 

생성자로 로우키를 먼저 필수로 지정한 뒤 범위를 줄이고 싶을때는 아래와 같은 메서드로 가능합니다.

 

Increment addColumn(byte [] family, byte [] qualifier, long amount)

 

카운터의 경우 버전은 내부적으로 처리하기 때문에 인자에 timestamp를 받는 부분이 없습니다.

또한, addFamily 메서드도 없는데 그 이유는 카운터는 특정 컬럼이기 때문입니다.

 

추가로 시간 범위를 지정하여 읽기 연산의 이점을 얻는 메서드도 제공하고 있습니다.

 

Increment setTimeRange(long minStamp, long maxStamp)

 

아래는 다중 컬럼의 카운터 연산을 하는 예제 입니다.

 

Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Table hTable = connection.getTable(TableName.valueOf("testtable"));

Increment increment1 = new Increment(Bytes.toBytes("young!!"));
increment1.addColumn(Bytes.toBytes("daily"), Bytes.toBytes("clicks"), 1);
increment1.addColumn(Bytes.toBytes("daily"), Bytes.toBytes("hits"), 1);
increment1.addColumn(Bytes.toBytes("weekly"), Bytes.toBytes("clicks"), 10);
increment1.addColumn(Bytes.toBytes("weekly"), Bytes.toBytes("hits"), 10);

Result result1 = hTable.increment(increment1);
result1.listCells().forEach(System.out::println);

Increment increment2 = new Increment(Bytes.toBytes("young!!"));
increment2.addColumn(Bytes.toBytes("daily"), Bytes.toBytes("clicks"), 5);
increment2.addColumn(Bytes.toBytes("daily"), Bytes.toBytes("hits"), 1);
increment2.addColumn(Bytes.toBytes("weekly"), Bytes.toBytes("clicks"), 0);
increment2.addColumn(Bytes.toBytes("weekly"), Bytes.toBytes("hits"), -5);

Result result2 = hTable.increment(increment2);
result2.listCells().forEach(System.out::println);

 

Increment를 통해서 복수개의 컬럼에 카운터를 처리하는 것을 볼 수 있습니다.

 

4. 보조 처리기

Hbase에서는 보조 처리기라는 것을 이용하여 계산 작업의 일부를 리전 서버에 전가시키는 방법을 제공하고 있습니다.

앞절까지는 조회하는 데이터를 제한한 후 클라이언트에서 비즈니스 로직을 통해 계산했었습니다.

 

1) 보조 처리기 소개

 

Hbase에서 제공하는 보조 처리기는 임의의 코드를 각 리전 서버에서 직접 실행하게 해줍니다.

 

이 보조처리기의 경우 필터처럼 인터페이스를 구현하여 사용자 정의 보조 처리기를 만들 수 있습니다.

구현한 코드는 컴파일하여 jar 형태로 Hbase에 전달하면 됩니다.

이 보조 처리기는 필터와는 달리 동적으로 로드할 수 있어 Hbase ㅋ,ㄹ러스터의 기능성을 쉽게 확장할 수 있습니다.

 

보조 처리기를 구현하여 사용할 시 아래 두 클래스를 사용하면 됩니다.

 

1. 옵저버

 

특정 이벤트가 발생 시 콜백메서드를 수행하는 클래스입니다.

 

Hbase에서 제공하는 옵저버 인터페이스 종류는 아래와 같습니다.

org.apache.hbase:hbase-endpoint 를 추가해야 합니다.

 

  • RegionObserver = 데이터 조작 이벤트를 처리하는 옵저버, 테이블이 위치한 리전과 밀접하게 연관
  • MasterObserver = 관리 또는 DDL 유형의 동작에 반응하는 옵저버, 클러스터 전반에 걸친 이벤트를 처리
  • WALObserver = WAL 처리에 대한 콜백을 제공합니다.

 

2. 엔드포인트

 

엔드포인트는 RPC를 동적으로 확장하여 콜백 원격 절차를 추가한 것으로, RDBMS에서 프로시져로 이해하면 됩니다.

 

이 엔드포인트는 옵저버와 결합하여 사용할 수 있으며 모두 Coprocessor 인터페이스를 상속하고 있습니다.

 

 

2) Coprocessor 인터페이스

 

모든 보조 처리기는 이 인터페이스를 구현해야 합니다.

 

이 인터페이스에는 enum으로 Pritority, State를 제공하고 있습니다.

 

아래는 Pritority 값에 대한 설명입니다.

 

설명
SYSTEM 우선 순위가 가장 높으며 가장 먼저 실행되어야 하는 보조 처리기
USER SYSTEM 우선순위 값을 가진 보조처리기가 실행된 다음에 실행

 

보조 처리기는 각자 생명주기가 있고, 프레임워크에서 관리하게 됩니다.

 

Coprocessor 는 생명주기에 대해 상요자 정의를 제공하기 위해 아래와 같은 두 메서드를 제공합니다.

 

void start(CoprocessorEnvironment env) throws IOException
void stop(CoprocessorEnvironment env) throws IOException

 

이 메서드들은 보조처리기가 시작할때와 끝날때 호출되어집니다.

인자로 받는 CoprocessorEnvironment는 인스턴스의 생명주기 전체에 걸쳐 상태를 저장하는데 사용되어 집니다.

 

이제 두번째 enum State는 바로 이런 보조처리기의 생명주기의 상태값을 의미합니다.

 

설명
UNINSTALLED 보조 처리기가 최초 상태에 있음. 아직 환경을 갖지 않았고 초기화 되지 않음.
INSTALLED 인스턴스가 환경안에 설치되었음
STARTING 보조 처리기 시작 직전 상태, 즉 보조 치리기의 start 메서드가 실행되기 직전 상태 
ACTIVE start 메서드 호출에 대한 응답이 반환된 상태
STOPPING stop 메서드가 실행되기 직전 상태
STOPPED stop 메서드가 호출에 대한 응답이 반환된 상태

 

마지막으로 CoprocessorHost 클래스가 있습니다.

이 클래스는 보조 처리기의 호스트가 어디에서 사용되는지에 따라 하위 클래스가 구분됩니다.

호스트의 경우 마스터 서버, 리전 서버를 의미합니다.

 

아래는 클라이언트에서 요청한 연산이 어떻게 보조처리기에 적용되는지를 보여주는 그림입니다.

 

 

 

3) 보조 처리기 로드

 

보조 처리기는 정적, 동적 모두 로드 되도록 할 수 있습니다.

 

1. 설정 파일에 의한 로드

 

Hbase가 시작할 때 로드할 보조 처리기를 전역적으로 설정 할 수 있습니다.

 

방법은 아래와 같이 hbase-site.xml 을 수정하면 됩니다.

 

<property>
    <name>hbase.coprocessor.region.classes</name>
    <value>coprocessor.RegionObserverExample, coprocessor.AnotherCoprocessor</value>
</property>
<property>
    <name>hbase.coprocessor.master.classes</name>
    <value>coprocessor.MasterObserverExalple</value>
</property>
<property>
    <name>hbase.coprocessor.wal.classes</name>
    <value>coprocessorWALObserverExample, bar.foo.MyWALObserver</value>
</property>

 

각 속성에 있는 처리기 순서가 실행 순서가 됩니다.

또한, 여기에 정의된 보조처리기는 모두 시스템 수준 우선순위를 가지고 로드 됩니다.

 

 

2. 테이블 지시자에 의한 로드

 

테이블 지시자로도 로드할 수 있습니다.

테이블 지시자의 경우 테이블 단위로 할당 되는것으로 이곳에 정의된 보조 처리기는 해당 테이블이 속한 리전 및 리전 서버에서만 로드됩니다.

 

리전에서만 로드 되는것으로 Master, WAL 처리기는 사용할 수 없습니다.

 

테이블 지시자는 setValue를 통해 아래와 같이 보조 처리기의 정의를 추가해야 합니다.

key는 COPROCESSOR로 시작해야하며, value는 <jar_파일_경로>|<클래스_이름>|<우선순위> 의 포맷이여야 합니다.

 

jar 파일 경로의 경우 hdfs의 경로를 사용할 수 있습니다.

 

아래는 쉘을 통해 처리기를 추가하는 예제입니다.

'COPROCESSOR$1' => '/Users/laura/test2.jar|coprocessor.AnotherTest|USER'

 

마지막 우선순위에는 위에서 언급한 SYSTEM, USER 중에 하나를 지정합니다.

 

위에서 $를 사용하여 처리기가 로드되는 순서를 지정할 수 있습니다.

 

 

4) RegionObserver 클래스

 

RegionObserver 클래스는 리전 수준에서 사용되는 클래스로서, 리전 안에서 발생하는 특정 동작에 따라 발동하는 hook 이 있습니다.

 

hook을 발동시키는 동작은 두개로 아래와 같이 나눌 수 있습니다.

 

  • 리전 생명 주기 변경
  • 클라이언트 API 호출

1. 리전 생명 주기 변경

 

옵저버는 아래 그림과 같이 [열리기 전, 열림, 닫히기 전] 상태 변경에 반응할 수 있습니다.

 

 

열리기 전 상태

 

리전이 열리기 직전에 이 상태가 됩니다.

옵저버는 아래 메서드를 통해 리전을 열기 직전과 열린 직후에 프로세스에 영향을 줄 수 있습니다.

 

void preOpen()
void postOpen()

 

추가로 리전이 열리기 전 상태가 지나고 열림 상태 직전에 WAL에 있는 정보를 사용할 수도 있습니다.

이런경우를 위해 아래와 같은 메서드 hook 이 있습니다.

 

void preWALRestore()
void postWALRestore()

 

열림 상태

 

리전이 리전 서버에 배치되고 완전히 동작 가능한 상태입니다.

 

아래는 각 flush, compact, split 에 대한 동작에 대한 hook을 제공하는 메서드입니다.

 

void preFlush()
void postFlush()
void preCompact()
void postCompact()
void preSplit()
void postSplit()

 

닫히기 전 상태

 

리전 닫기가 임박한 상태입니다.

 

아래와 같은 메서드로 리전이 닫히기 직전과 직후에 대해서 핸들링할 수 있습니다.

 

void preClose(..., boolean abortRequested)
void postClose(..., boolean abortRequested)

 

abortRequested 인자는 리전이 닫히는 이유입니다.

일반적으로는 로드밸런싱을 위해 리전이 분할할 때 닫히게 되지만 일부 오작동으로 인해 닫히는 경우가 있기 때문입니다.

 

 

2. 클라이언트 API 이벤트 처리

 

클라이언트 API는 모두 명시적으로 리전 서버로 전달됩니다.

보조 처리기는 이 API 메서드가 실행되기 직전과 직후에 대한 hook을 제공합니다.

 

아래는 제공 hook 입니다.

 

  • void preGet / void postGet
  • void prePut /  void postPut
  • void preDelete / void postDelete
  • boolean preCheckAndPut / boolean postCheckAndPut
  • boolean preCheckAndDelete / boolean postCheckAndDelete
  • void preGetClosestRowBefore / void postGetClosestRowBefore
  • boolean preExists / boolean postExists
  • long preIncrementColumnValue / long postIncrementColumnValue
  • void preIncrement / void postIncrement
  • InternalScanner preScannerOpen / InternalScanner postScannerOpen
  • boolean preScannerNext / boolean postScannerNext
  • void preScannerClose / void postScannerClose

 

3. ResionCoprocessorEnvironment 클래스

 

RegionObserver 인터페이스를 구현하는 인스턴스는 RegionCoprocessorEnvironment 클래스를 상속하게 됩니다.

 

RegionCoprocessorEnvironment  클래스는 이름 그대로 리전에 환경 정보를 담당하는 클래스로 아래와 같은 메서드가 지원됩니다.

 

  • getRegion() = 현재 옵저버가 연관된 리전에 대한 참조 반환
  • getRegionserverServices() = 공유자원인 RegionServerServices 인스턴스에 대한 접근 제공

 

4. ObserverContext 클래스

 

ObserverContext는 옵저버 인스턴스의 현재 환경에 대한 접근을 제공하며,

콜백 메서드의 수행이 완료한 뒤에 보조 처리기 프레임워크가 무엇을 할지 지정할 수 있는 기능을 제공합니다.

 

아래는 제공하는 기능 중 중요한 두가지입니다.

 

  • bypass = 보조 처리기의 연쇄적 실행 흐름에 영향 -> 다음 보조 처리기를 타지 않게 합니다.
  • complete = 서버 측 프로세스를 중지

 

5) MasterObserver 클래스

 

MasterObserver 클래스는 마스터 서버가 호출 할 수 있는 콜백 메서드를 처리하는 기능을 제공합니다.

 

아래는 MasterObserver hook 종류입니다.

 

  • void preCreateTable / void postCreateTable
  • void preDeleteTable / void postDeleteTable
  • void preModifyTable / void postModifyTable 
  • void preAddColumn / void postAddColumn
  • void preModifyColumn / void postModifyColumn
  • void preDeleteColumn / void postDeleteColumn
  • void preEnableTable / void postEnableTable
  • void preDisableTable / void postDisableTable
  • void preMove / void postMove
  • void preAssign / void postAssign
  • void preUnassign / void postUnassign
  • void preBalance / void postBalance
  • boolean preBalanceSwitch / void postBalanceSwitch
  • void preShutdown
  • void preStopMaster

 

6) 엔드포인트 보조 처리기

 

하나의 리전에서만이 아닌 모든 리전에서 각자 어떠한 동작을 수행 후 취합하기를 원하는 경우가 있습니다.

하지만 지금까지 알아본 가능으로는 위와같이 할 수 없습니다.

할 수 있더라도 아마 모든 테이블을 스캔하는 동작이기에 성능상 안좋습니다.

 

HBase에서는 이러한 문제를 위해 엔드포인트 보조 처리기를 제공합니다.

 

1. CoprocessorProtocol

 

클라이언트에게 사용자 정의 RPC 프로토콜을 제공하려면 CoprocessorProtocol을 상속하는 인터페이스를 정의해야 합니다.

 

이 프로토콜을 사용하면 HTable이 제공하는 아래 메서드를 통해 보조 처리기 인스턴스와 통신할 수 있습니다.

 

<T extends CoprocessorProtocol> T coprocessorProxy(Class<T> protocol, byte[] row)
<T extends CoprocessorProtocol, R> Map<byte[], R> coprocessorExec(Class<T> protocol, byte[] startKey, byte[] endKey, Batch.Call<T, R> callable)
<T extends CoprocessorProtocol, R> void coprocessorExec(Class<T> protocol, byte[] startKey, byte[] endKey, Batch.Call<T, R> callable, Batch.Call<T, R> callback)

 

위의 메서드에서 알 수 있듯이 CoprocessorProtocol 인스턴스는 리전과 연동되기 때문에, 클라이언트에서는 미리 어떤 리전에서 실행되어야 하는지 알아야하는 단점이 있습니다.

 

 

2. BaseEndPointCoprocessor 클래스

 

엔드포인트 보조 처리기를 구현하기 위해서는 위의 CoprocessorProtocol 뿐만이 아니라 BaseEndPointCoprocessor 클래스도 확장해야 합니다.

 

CoprocessorProtocol는 클라이언트와 서버의 RPC 프로토콜을 정의한거라면 BaseEndPointCoprocessor 는 실제 처리를 정의하는 구현체입니다.

 

아래는 엔드포인트 보조 처리기를 통해 호출되는 과정을 그림으로 나타낸 것입니다.

 

 

 

출처: 라스조지 [Hbase 완벽가이드] 한빛미디어 2013년 297p

 

5. HTablePool

HTable을 계속 생성하는것은 큰 오버헤드를 줄 수 있습니다.

그 이유는 HTable 인스턴스를 생성하는데 비용이 생각보다 크기 때문입니다.

 

HTable을 여러 쓰레드가 공유해서 쓰는것도 불가능 합니다. 이유는 HTable은 thread-safe 하지 않기 때문입니다.

 

때문에 HTablePool 클래스를 통해 해결해야 합니다.

 

HTablePool 클래스는 오직 클라이언트 API 인스턴스를 풀링하는 목적으로 만들어 졌으며,

생성자 명세는 아래와 같습니다.

 

HTablePool()
HTablePool(Configuration config, int maxSize)
HTablePool(Configuration config, int maxSize, HTableInterfaceFactoey tableFactory)

 

maxSize는 관리할 인스턴스 수 이고 tableFactory는 인스턴스를 생성할 팩토리 클래스입니다.

 

HTablePool은 테이블 단위로 풀을 관리하며 사용시에는 아래와 같은 메서드를 이용하면 됩니다.

 

HTableInterface getTable(String tableName)
HTableInterface getTable(byte[] tableName)
void putTable(HTableInterface table)

 

 

아래는 풀을 닫을 때 사용하는 메서드입니다.

 

void closeTablePool(String tableName)
void closeTablePool(byte[] tableName)

 

 

6. 연결처리

HBase 클라이언트는 인스턴스 생성 시 리전 정보를 가져오기 위해 주키퍼와 연결을 맺고, 클라이언트 쪽에 캐싱을 해두고 사용합니다.

내부적으로 캐싱된 정보로 요청시 리전을 못찾는 오류의 경우에는 주키퍼에 다시 한번 콜하여 캐시정보를 갱신합니다.

 

주키퍼에 대한 연결은 사용자가 관리해야하며 무작위로 연결을 증가하다보면, 가능한 연결 갯수를 넘어 IOException이 발생 할 수 있습니다.

 

때문에, 사용자는 작업이 끝나면 HTable의 close메서드를 호출해야합니다.

 

7. 마무리

 

이번 포스팅에서는 클라이언트 API : 고급 기능에 대해 진행하였습니다.

 

다음 포스팅에서는 챕터 5장인 클라이언트 API : 관리 기능에 대해 진행하겠습니다.

반응형

'BigData > Hbase' 카테고리의 다른 글

(5) 클라이언트 API : 관리 기능  (0) 2020.06.02
(3) 클라이언트 API : 기본 기능  (0) 2020.04.09
(2) 설치  (0) 2020.04.08
(1) 소개  (0) 2020.04.07
반응형

1. 서론

이번 포스팅에서는 Hbase가 제공하는 클라이언트 API 중 기본적인 기능에 대해 알아보겠습니다.

 

2. 일반 정보

Hbase에 접근하는 주요 클라이언트 인터페이스는 org.apache.hadoop.hbase.client 패키지에 있는 HTable 입니다.

 

HTable은 Hbase에 데이터를 저장, 삭제의 일을 할 수 있도록 제공합니다.

 

단, HTable을 사용할 시 주의할 점이 있습니다.

 

HTable은 인스턴스화될 시 메타(.META.) 테이블을 스캔하여 테이블이 있는지, 있다면 활성화 되있는지를 확인하고

그 외에도 부수적인 작업들을 수행하기 때문에 인스턴스화 작업은 느립니다.

 

따라서, HTable 인스턴스화는 되도록 한번만 수행하며 스레드당 하나씩만 생성하도록 하는것이 좋습니다.

그리고, 한번 생성된 HTable는 어플리케이션이 끝날때까지 재사용하는 편이 성능상 이점을 볼 수 있습니다.

 

3. CRUD 기능

HTable의 CRUD 역할에 대해 소개하겠습니다.

 

1) Put 메소드

 

데이터를 적재할 때 사용하는 API입니다.

단일로우와 멀티로우를 적재할 수 있도록 모두 제공하고 있습니다.

 

 

1. 단일 Put

 

put 메서드의 명세는 아래와 같습니다.

 

void put(Put put) throws IOException

 

인자로 받는 Put은 하나 또는 리스트 형태로 받을 수 있습니다.

 

아래는 Put의 생성자 메서드 명세입니다.

 

Put(byte[] row)
Put(byte[] row, RowLock rowLock)
Put(byte[] row, long ts)
Put(byte[] row, long ts, RowLock rowLock)

 

Hbase의 로우는 고유한 키입니다.

 

이 키는 타입이 자바의 바이트 배열로 어떠한 값이 들어와도 상관이 없습니다.

단, 로우 키는 사전편찬식으로 정렬된다는 것을 명심하고 키설계를 하여 사용해야 합니다.

 

아래는 어떠한 타입이든 바이트 배열로 만들어주는 헬퍼 클래스인 Bytes의 메서드입니다.

 

static byte[] toBytes(ByteBuffer bb)
static byte[] toBytes(String s)
static byte[] toBytes(boolean b)
static byte[] toBytes(long val)
static byte[] toBytes(float f)
static byte[] toBytes(int val)

 

Put 인스턴스를 생성 한 다음에는 컬럼패밀리, 퀄리파이어, 값, 타임스탬프 등을 추가할 수 있습니다.

 

아래는 Put의 데이터 추가 메서드입니다.

 

Put add(byte[] family, byte[] qualifier, byte[] value)
Put add(byte[] family, byte[] qualifier, long ts, byte[] value)
Put add(KeyValue kv) throws IOException

 

add 메서드를 한번 수행할 때마다 하나의 컬럼이 추가됩니다.

 

KeyValue 클래스의 경우에는 하나의 고유한 셀을 나타내는 고급 클래스입니다.

 

이 클래스를 얻기 위해서는 get 메서드를 통해 얻을 수 있습니다.

 

아래는 KeyValue를 가져오는 get 메서드입니다.

 

List<KeyValue> get(byte[] family, byte[] qualifier)
Map<byte[], List<KeyValue>> getFamilyMap()

 

특정 셀이 존재하는지 알아볼때에는 아래와 같이 get이 아닌 has 메서드를 제공합니다.

 

boolean has(byte[] family, byte[] qualifier)
boolean has(byte[] family, byte[] qualifier, long ts)
boolean has(byte[] family, byte[] qualifier, byte[] value)
boolean has(byte[] family, byte[] qualifier, long ts, byte[] value)

 

아래는 put을 통해 데이터를 적재하는 간단한 예제입니다.

 

public class PutExample {

    public static void main(String[] args) {
        Configuration conf = HBaseConfiguration.create();

        HTable hTable = new HTable(conf, "testtable");

        Put put = new Put(Bytes.toBytes("row1"));
        
        put.add(Bytes.toBytes("colfam1"), Bytes.toBytes("qual1"), Bytes.toBytes("val1"));
        put.add(Bytes.toBytes("colfam1"), Bytes.toBytes("qual2"), Bytes.toBytes("val2"));

        hTable.put(put);
    }
}

 

위의 Configuration은 org.apache.hadoop.conf 패키지에 존재하며 설정 정보를 주입하는 역할입니다.

 

기존 설정정보는 hbase-site.xml에 기입해야하지만, 동적으로 변경해야 할때는  Configuration를 사용하면 됩니다.

 

아래는 주키퍼 쿼럼 정보를 동적으로  Configuration를 사용하여 세팅하는 예제입니다.

 

Configuration conf = HBaseConfiguration.create();
conf.set("hbase.zookeeper.quorum", "zk1.foo.com,zk2.foo.com,");

 

put의 경우 타임스탬프를 부여하여 각 셀에 대하여 버저닝을 할 수도 있습니다.

부여하지 않을 시에는 로우가 저장소에 추가되는 순간에 해당 리전서버의 시각으로 자동 부여가 됩니다.

 

Hbase의 경우, 셀은 타임스탬프값을 기준으로 정렬되어져 저장됩니다.

 

 

2. KeyValue 클래스

 

코드상에서 KeyValue 인스턴스를 처리해야 하는 경우가 종종 있습니다.

때문에, KeyValue 클래스에 대해 간단히 살펴보겠습니다.

 

우선, KeyValue 클래스는 특정 셀의 정보를 가지고 있습니다.

특정 셀의 정보는 로우 키, 컬럼패밀리, 컬럼 퀄리파이어, 타임스탬프를 의미합니다.

 

메서드로는 아래와 같이 있습니다.

 

// 아래 3개는 KeyValue 인스턴스에 저장되어 있는 전체 바이트 배열에 관한 메서드입니다.
byte[] getBuffer()
int getOffset()
int getLength()

// 아래 2개는 로우키와 데이터가 저장된 워시 좌표 정보의 바이트 배열을 반환하는 메서드입니다.
byte[] getRow()
byte[] getKey()

 

또한, KeyValue 클래스는 내부적으로 Comparator를 통해 값에 대해서 커스텀하게 정렬을 할 수 있도록 제공합니다.

 

아래는 KeyValue 클래스에서 제공하는 Comparator 종류입니다.

 

비교 연산자 설명
KeyComparator KeyValue 2개의 키를 비교합니다.
즉, getKey 메서드를 통해 원시 바이트 배열을 비교합니다.
KVComparator 원시 형태의 KeyComparator를 감싼 형으로서,
KeyValue 2개를 비교할 때 사용합니다.
RowComparator getRow 로 얻은 값으로 비교합니다.

 

KeyValue 클래스는 type이라는 필드를 가지고 있습니다.

이 type은 KeyValue에 하나의 차원이 더 추가되는것과 같습니다.

 

type 에 사용가능한 값은 아래와 같습니다.

 

유형 설명
Put 해당 KeyValue 인스턴스가 일반적인 Put 연산임을 의미합니다.
Delete 해당 KeyValue 인스턴스가 일반적인 Delete 연산임을 의미합니다.
DeleteColumn Delete와 같지만, 더 광범위하게 전체 컬럼을 삭제한다는 의미입니다.
DeleteFamily Delete와 같지만, 더 광범위하게 전체 컬럼패밀리 및 그에 속한 모든 컬럼을 삭제한다는 의미입니다.

 

마지막으로 KeyValue에 정보를 출력하고 싶으실때는 아래 메서드를 사용하시면 됩니다.

 

String toString()

 

아래는 toString 메서드의 결과 형식을 나타냅니다.

 

<row-key>/<family>:<qualifier>/<version>/<type>/<value-length>

 

 

3. 클라이언트 측 쓰기 버퍼

 

Hbase의 경우 쓰기 연산은 RPC를 통해 이루어 집니다.

 

이 RPC는 remote procedure call로서 갯수가 적을때는 괜찮지만 초당 수천개의 값을 테이블에 저장하는 데에는 적합하지 않습니다.

 

그로인해 Hbase 클라이언트는 내부적으로 쓰기 버퍼를 두어 한번의 RPC로 서버에 데이터를 전송하도록 제공하고 있습니다.

 

쓰기버퍼의 사용여부는 아래와 같이 설정할 수 있습니다.

현재 포스팅을 작성하는 때에는 아래와 같이 버퍼 관련은 deprecated 되었습니다. -> 최신 버전에서는 아예 메서드에서 제외되었습니다.
대신, BufferedMutator 클래스를 별도로 제공하여 아래와 같은 기능을 제공하고 있습니다.

지금은 책내용을 기반으로 진행하도록 하겠습니다.

 

void setAutoFlush(boolean autoFlush)
boolean isAutoFlush()

 

디폴트는 비활성 상태입니다.

활성으로 하기 위해서는 아래와 같이 setAutoFlush를 false로 설정합니다.

 

table.setAutoFlush(false)

 

위와 같이 false로 설정된 후부터는 put 메서드를 호출하더라도 클라이언트측 메모리 버퍼에 저장되고 서버로는 실제 전송이 이루어 지지 않습니다.

 

서버로 RPC를 날리기 위해서는 아래와 같은 메서드를 호출하면 됩니다.

 

void flushCommits() throws IOException

 

쓰기 버퍼의 경우 클라이언트에서 내부적으로 알아서 비워주기 때문에 크게 고려하지 않아도 됩니다.

 

추가로, 쓰기 버퍼의 크기도 조정이 가능한데 방법은 아래와 같습니다.

 

long getWriteBufferSize()
long setWriteBufferSize(long writeBufferSize) throws IOException

 

물론, 명시적으로 버퍼를 비울수도 있습니다.

 

개발자가 작성한 코드로 인해서 버퍼가 비워지는 경우는 아래와 같습니다.

 

  • flushCommits 호출 시
  • autoFlush가 true의 경우 put 메서드 호출 시
  • setWriteBufferSize 호출 시

 

아래는 쓰기 버퍼를 사용한 예제 입니다.

 

    public static void main(String[] args) {
        Configuration conf = HBaseConfiguration.create();
        HTable hTable = new HTable(conf, "testtable");
        
        System.out.println("Auto flush: " + hTable.isAutoFlush());

        hTable.setAutoFlush(false);
        
        
        Put put1 = new Put(Bytes.toBytes("row1"));
        put1.add(Bytes.toBytes("colfam1"), Bytes.toBytes("qual1"), Bytes.toBytes("val1"));
        hTable.put(put1);

        Put put2 = new Put(Bytes.toBytes("row2"));
        put2.add(Bytes.toBytes("colfam1"), Bytes.toBytes("qual1"), Bytes.toBytes("val2"));
        hTable.put(put2);

        Put put3 = new Put(Bytes.toBytes("row3"));
        put2.add(Bytes.toBytes("colfam1"), Bytes.toBytes("qual1"), Bytes.toBytes("val3"));
        hTable.put(put3);

        Get get = new Get(Bytes.toBytes("row1"));
        Result res1 = hTable.get(get);
        System.out.println("Result: " + res1);
        
        hTable.flushCommits();
        
        Result res2 = hTable.get(get);

        System.out.println("Result: " + res2);
    }

 

위 결과 출력은 아래와 같습니다.

 

Auto flush: true
Result: keyvalues=None
Result: keyvalues={ro1/colfam1/qual1/123412358/Put/vlen=4}

 

위에서 설명한것과 같이 버퍼에 쓰기만 하고 서버로 PRC를 하지 않았기 때문에

첫번째 Get에서는 None이 나온것을 볼 수 있습니다.

 

만약 버퍼에 있는 데이터를 보기 위해서는 아래 메서드를 사용하면 됩니다.

 

ArrayList<Put> getWriteBuffer()

 

하지만 이 방법은 멀티쓰레드 환경에서 조심해야 합니다.

이유로는 List에 접근 시 힙 크기를 확인하지 않고 접근하며, 또 버퍼 비우기가 진행되는 도중 다른 쓰레드가 값을 변경할 수 있기 때문입니다.

 

 

4. Put 리스트

 

클라이언트 API는 단일 put이 아닌 List<put>도 처리 가능하도록 제공합니다.

 

void put(List<Put> puts) throws IOException

 

위 메서드를 사용하면 List<Put>으로 데이터 적재가 가능합니다.

 

다만, List에 있는 모든 Put이 성공하지 않을 수 있습니다.

성공하지않은 Put이 있다면 클라이언트는 IOException을 받게됩니다.

 

하지만, Hbase는 List에 있는 put을 이터레이트돌며 적용하기 때문에 하나가 실패한다고 안에 있는것이 모두 실패하지는 않습니다.

 

실패한 Put은 쓰기버퍼에 남아있게 되고 다음 flush 작업에서 재수행하게 됩니다.

만약 데이터가 잘못되어 실패되는 케이스라면 계속 버퍼에 남게되어 재수행을 반복하게 될 것입니다.

 

이를 방지하기 위해서는 수동을 버퍼를 비워줘야 합니다.

 

아래는 일괄 put을 날린 후 try-catch를 통해 실패가 발생하게 있다면 명시적으로 버퍼를 비우는 예제 코드입니다.

 

List<Put> puts = new ArrayList<>();
Put put1 = new Put(Bytes.toBytes("row1"));
put1.add(Bytes.toBytes("colfam1"), Bytes.toBytes("qual1"), Bytes.toBytes("val1"));
puts.add(put1)

Put put2 = new Put(Bytes.toBytes("row2"));
put2.add(Bytes.toBytes("BOGUS"), Bytes.toBytes("qual1"), Bytes.toBytes("val2"));
puts.add(put2)

Put put3 = new Put(Bytes.toBytes("row2"));
put2.add(Bytes.toBytes("colfam1"), Bytes.toBytes("qual2"), Bytes.toBytes("val3"));
puts.add(put3)

Put put4 = new Put(Bytes.toBytes("row2"));
puts.add(put4)
try {
    hTable.put(puts);
} catch (Exception e) {
    hTable.flushCommits();    
}

 

추가로, 리스트 기반의 입력시에는 Hbase 서버에서 입력 연산의 순서가 보장되지 않습니다.

 

 

5. 원자적 확인 후 입력 연산

 

Hbase에서는 원자적 확인 후 입력이라는 특별한 기능을 제공합니다.

 

이 기능은 특정한 조건에 만족하는 경우 put 연산을 수행할 수 있도록합니다.

반환값으로는 boolean 값으로 put 연산이 수행되었는지의 여부를 의미합니다.

 

사용법으로는 아래와 같습니다.

최신 버전에서는 deprecated 되어 있습니다.

 

boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) throws IOException 
boolean checkAndPut(final byte [] row, final byte [] family, final byte [] qualifier, final CompareOp compareOp, final byte [] value, final Put put) throws IOException
boolean checkAndPut(final byte [] row, final byte [] family, final byte [] qualifier, final CompareOp compareOp, final byte [] value, final Put put) throws IOException

 

 

2) Get 메서드

 

Hbase 클라이언트는 데이터를 읽어오는 Get 메서드를 제공합니다.

 

 

1. 단일 Get

 

특정 값을 반환받는데 사용하는 메서드입니다.

 

Result get(Get get) throws IOException

 

put과 유사하게 get 메서드도 전용 Get 클래스를 인자로 받고 있습니다.

 

Get 클래스의 생성자 메서드는 아래와 같습니다.

 

Get(byte[] row)
Get(byte[] row, RowLock rowLock)

 

아래는 한 로우에대해서 읽는 데이터 범위를 줄이기위해 필요한 보조적인 메서드들입니다.

 

Get addFamily(byte[] family)
Get addColumn(byte[] family, byte[] qualifier)
Get setTimeRange(long minStamp, long maxStamp) throws IOException
Get setTimeStamp(long timestamp)
Get setMaxVersions()
Get setMaxVersions(int maxVersions) throws IOException

 

읽어올때는 위에서 소개한 Bytes 헬퍼 클래스를 통해 byte[]을 원하는 데이터 타입으로 변환이 가능합니다.

 

static String toString(byte[] b)
static boolean toBoolean(byte[] b)
static long toLong(byte[] b)
static float toFloat(byte[] b)
static int toInt(byte[] b)

 

 

 

 

반응형

 

 

 

 

 

2. Result 클래스

 

get 메서드의 반환 타입은 Result 클래스입니다.

 

Result 클래스는 Hbase 데이터인 컬럼패밀리, 퀄리파이어, 타임스탬프, 값 등을 모두 가지고 있으며 내부 메서드로 제공하고 있습니다.

 

byte[] getValue(byte[] family, byte[] qualifier) // 특정 셀 값
byte[] value() // 사전 편찬식으로 정렬된 KeyValue 중에 첫번째 값
byte[] getRow() // 로우키
int size() // KeyValue 갯수
boolean isEmpty() // KeyValue 존재 여부
KeyValue[] raw() // KeyValue 접근을 위한 메서드
List<KeyValue> list() // raw에서 반환되는 KeyValue 배열을 단순히 list 형식으로 바꿔서 반환하는 메서드

 

아래는 부가적으로 컬럼단위로 제공하는 메서드입니다.

 

List<KeyValue> getColumn(byte[] family, byte[] qualifier)
KeyValue getColumnLatest(byte[] family, byte[] qualifier)
boolean containsColumn(byte[] family, byte[] qualifier)

 

아래는 Result의 데이터에 접근을 용이하게 제공하는 Map 지향적인 메서드입니다.

 

NavigableMap<byte[], NavigableMap<byte[], NavigableMap<Long, byte[]>>> getMap()
NavigableMap<byte[], NavigableMap<byte[], byte[]>> getNoVersionMap() // 최근 값만을 반환
NavigableMap<byte[], byte[]> getFamilyMap(byte [] family)

 

위와 같은 메서드는 상황에 따라 적절히 선택하여 사용하면 되며,

이미 Result 인스턴스는 서버에서 클라이언트로 데이터를 받았기 때문에 어떤 메서드를 선택하든지 성능에 이슈는 없습니다.

 

 

3. Get 리스트

 

get은 단일 결과가 아닌 멀티개의 결과도 읽을 수 있도록 제공합니다.

 

Result[] get(List<Get> gets) throws IOException

 

put 리스트와 차이점으로는 예외 발생시 입니다.

get의 경우에는 List<Get>의 동일한 크기의 배열을 반환받는것과 아예 예외를 반환받는 둘 중에 한가지로 동작이 됩니다.

 

 

4. Get 관련 기타 메서드

 

단순히 데이터를 읽어오는 메서드말고도 제공하는 메서드에 대해서 알아 보겠습니다.

 

boolean exists(Get get) throws IOException
Result getRowOrBefore(byte[] row, byte[] family)

 

exists 의 경우에는 메서드명 그대로 지정한 로우가 있는지 확인하기 위한 메서드입니다.

 

getRowOrBefore의 경우에는 지정한 로우가 있으면 반환하지만 없으면 바로 그 이전 로우를 반환합니다.

이전 로우도 없다면 null를 반환합니다.

Hbase는 로우키 기준으로 사전편찬식으로 정렬되어 저장되기 때문에 이러한 기능이 가능합니다.

 

 

3) Delete 메서드

 

이번엔 CRUD중 D에 해당하는 delete 메서드에 대해 알아 보겠습니다.

 

 

1. 단일 Delete

void delete(Delete delete) throws IOException

 

put과 get과 마찬가지로 Delete 전용 클래스를 인자로 받습니다.

 

Delete 클래스의 생성자는 아래와 같습니다.

 

Delete(byte[] row)
Delete(byte[] row, long timestamp, RowLock rowLock)

 

추가로 삭제 범위를 줄일때에는 아래 메서드를 활용하면 됩니다.

 

Delete deleteFamily(byte[] family)
Delete deleteFamily(byte[] family, long timestamp)
Delete deleteColumns(byte[] family, byte[] qualifier)
Delete deleteColumns(byte[] family, byte[] qualifier, long timestamp)
Delete deleteColumn(byte[] family, byte[] qualifier) // 최근 버전만삭제 
Delete deleteColumn(byte[] family, byte[] qualifier, long timestamp) // 지정한 타임스탬프와 일치하는것만 삭제
void setTimestamp(long timestamp) // 전체 컬럼패밀리 대상으로 지정한 타임스탬프 이하인 값들을 삭제

 

2. Delete 리스트

 

delete도 위 put, get과 마찬가지로 단일 뿐만이 아니라 List<Delete>도 제공합니다.

 

void delete(List<Delete> deletes) throws IOException

 

Delete의 예외 방식에 대해 알아보겠습니다.

 

delete()는 인수로 전달했던 List<Delete> 에서 실패한 Delete 객체만이 남게됩니다.

결국, 모두 성공했을때는 인자로 받은 List<Delete>는 텅비게 되어집니다.

 

 

3. 원자적 확인 후 삭제 연산

 

delete에서도 put과 동일하게 원자적으로 확인 후 삭제 연산을 할 수 있도록 제공하고 있습니다.

 

boolean checkAndDelete(final byte[] row, final byte[] family, final byte[] qualifier, final byte[] value, final Delete delete) throws IOException
boolean checkAndDelete(final byte[] row, final byte[] family, final byte[] qualifier, final CompareOp compareOp, final byte[] value, final Delete delete) throws IOException
boolean checkAndDelete(final byte[] row, final byte[] family, final byte[] qualifier, final CompareOperator op, final byte[] value, final Delete delete) throws IOException

 

value 파라미터에 null을 넣어서 수행하게 되면 해당 컬럼 값이 존재하는지 여부를 검사합니다.

 

 

4. 일괄처리 연산

지금까지는 단일 또는 리스트 기반의 연산을 알아봤습니다.

 

이번에는 여러개의 로우에 대해서 다양한 연산을 일괄처리하는 API에 대해서 알아보겠습니다.

 

클라이언트는 이 일괄처리를 위해 Put, Get, Delete의 조상 클래스인 Row 클래스를 제공합니다.

 

메서드는 아래와 같습니다.

 

void batch(final List<? extends Row> actions, final Object[] results)

 

여러 Row 하위 클래스들을 인자로 받아 처리 후 2번째 인자로 받은 Objects 배열에 결과를 담습니다.

 

또 한가지 메서드가 있는데 명세는 아래와 같습니다.

 

Object[] batch(final List<? extends Row> actions) throws IOException, InterruptedException

 

이 메서드는 예외가 발생하면 throws가 되므로 결과값 배열에는 아무것도 담기지 않게됩니다.

 

위 두 batch 메서드 수행시에는 Put 인스턴스가 쓰기 버퍼에 저장되지 않습니다.

 

아래는 예제입니다.

 

private final static byte[] ROW1 = Bytes.toBytes("row1");
private final static byte[] ROW2 = Bytes.toBytes("row2");
private final static byte[] COLFAM1 = Bytes.toBytes("colfam1");
private final static byte[] COLFAM2 = Bytes.toBytes("colfam2");
private final static byte[] QUAL1 = Bytes.toBytes("qual1");
private final static byte[] QUAL2 = Bytes.toBytes("qual2");

public static void main(String[] args) {
    Configuration conf = HBaseConfiguration.create();
    HTable hTable = new HTable(conf, "testtable");
    
    List<Row> batch = new ArrayList<>();
    
    Put put = new Put(ROW2);
    put.addColumn(COLFAM2, QUAL1,  Bytes.toBytes("val5"));
    batch.add(put);
    
    Get get1 = new Get(ROW1);
    get1.addColumn(COLFAM1, QUAL1);
    batch.add(get1);
    
    Delete delete = new Delete(ROW1);
    delete.deleteColumns(COLFAM1, QUAL2);
    batch.add(delete);
    Get get2 = new Get(ROW2);
    get2.addFamily(Bytes.toBytes("BOGUS"));
    batch.add(get2);
    
    Object[] results = new Object[batch.size()];
    
    try {
        hTable.batch(batch, results);
    } catch (Exception e) {
        System.out.println("ERROR : " + e);
    }
    
    Arrays.stream(results).forEach(item -> System.out.println("Result : " + item));
}

 

5. 로우 락

Hbase의 경우 각 로우에 대해 원자성을 보장하여 순차적으로 처리합니다.

그렇기 때문에 위에서 알아본 put, delete, checkAndPut 등도 모두 원자성이 보장되면서 수행이 되어집니다.

 

한 예로 Put 인스턴스를 생성시에 RowLock을 부여하지 않는다면 서버측에서는 해당 로우에 대해서 

메서드가 수행되는 동안에만 유지되는 락을 생성하여 적용하게 됩니다.

 

만약, 한 로우에 대해서 클라이언트측이 커스텀하게 락을 획득 및 해제를 하고 싶은 경우에는 아래 메서드를 이용하면 됩니다.

단, 잘못하면 다른 연산 메서드에 영향이 갈 수 있으니 신중히 사용해야 합니다.

 

RowLock lockRow(byte[] row) throws IOException
void unlockRow(RowLock rl) throws IOException

 

락은 다른 수행에 영향이 끼칠 수 있으니 무기한으로 설정되어 있지는 않습니다.

hbase-site.xml에 hbase.resionserver.lease.period 에 값만큼이 락의 유효 기간입니다.

디폴트 1분입니다.

 

6. 스캔

Hbase는 범위 탐색인 스캔 기능을 제공합니다.

스캔은 Hbase가 제공하는 순차적이고 정렬된 저장구조를 활용합니다.

 

1) 소개

 

Hbase 클라이언트는 Scan 이라는 별도의 클래스를 제공하고 있습니다.

 

아래는 사용 메서드입니다.

 

ResultScanner getScanner(Scan scan)
ResultScanner getScanner(byte [] family)
ResultScanner getScanner(byte [] family, byte [] qualifier)

 

Scan 인자를 주면 내부적으로 스캔한 결과를 담은 ResultScanner를 반환합니다.

2,3번째 메서드는 내부적으로 Scan을 만들어서 동작 후 결과를 반환합니다.

 

아래는 Scan의 생성자입니다.

 

Scan()
Scan(byte[] startRow, Filter filter)
Scan(byte[] startRow)
Scan(byte[] startRow, byte[] stopRow)

 

생성자에서 알 수 있듯이 Scan은 꼭 정확한 로우를 몰라도 탐색이 가능합니다.

startRow만 주게된다면 startRow보다 같거나 큰 로우들부터 탐색을하게 됩니다.

stopRow는 탐색이 해당 stopRow보다 크거나 같은 로우를 만나면 끝나게 됩니다.

 

Filter는 말그대로 탐색 중 사용자가 지정한 데이터만을 얻기위해서 있는 인자입니다.

 

인자가 없는 기본 생성자로도 수행은 되며, 이경우에는 모든 컬럼패밀리 및 그에 속한 컬럼을 포함한 전체 테이블을 스캔합니다.

 

아래는 위 CRUD의 메서드들과 같이 탐색의 범위를 줄이기 위한 메서드입니다.

 

Scan addFamily(byte [] family)
Scan addColumn(byte [] family, byte [] qualifier)
Scan setTimeRange(long minStamp, long maxStamp) throws IOException
Scan setTimeStamp(long timestamp)
Scan setMaxVersions()
Scan setMaxVersions(int maxVersions)

 

그 외에도 Scan 클래스의 경우에는 getter/setter가 있어 언제든지 활용이 가능합니다.

 

 

2) ResultScanner 클래스

 

스캔의 경우에는 한번의 RPC로 로우들을 클라이언트한테 반환하지 않습니다.

이유는, 방대한 로우가 탐색될 수도 있어 한번의 RPC로는 오버헤드가 발생할 수 있기때문입니다.

 

때문에, ResultScanner는 Get과 비슷한 연산으로 변환 후 Row에 대한 Result 인스턴스를 이터레이트할 수 있도록 감싼 형태입니다.

 

아래는 ResultScanner의 메서드입니다.

 

Result next() throws IOException // 한번에 한 Result 반환
Result[] next(int nbRows) throws IOException // nbRows 만큼의 Result 반환
void close()

 

스캐너의 경우 서버 측 리소스를 꽤 사용하기 때문에 힙 공간을 낭비하게 됩니다.

때문에, 꼭 작업이 끝난다음에는 close를 명시적으로 호출하여 자원을 반환하게 해야합니다.

 

 

아래는 스캐너 사용 예제입니다.

 

public static void main(String[] args) throws IOException {
    Configuration conf = HBaseConfiguration.create();
    HTable hTable = new HTable(conf, "testtable");

    Scan scan1 = new Scan();
    ResultScanner scanner1 = hTable.getScanner(scan1);
    for(Result res: scanner1) {
        System.out.println(res);
    }
    scanner1.close();

    Scan scan2 = new Scan();
    scan2.addFamily(Bytes.toBytes("colfam1"));
    ResultScanner scanner2 = hTable.getScanner(scan2);
    for(Result res: scanner2) {
        System.out.println(res);
    }
    scanner2.close();

    Scan scan3 = new Scan();
    scan3.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("col-5"))
            .addColumn(Bytes.toBytes("colfam2"), Bytes.toBytes("col-33"))
            .setStartRow(Bytes.toBytes("row-10"))
            .setStopRow(Bytes.toBytes("row-20"));
    ResultScanner scanner3 = hTable.getScanner(scan3);
    for(Result res: scanner3) {
        System.out.println(res);
    }
    scanner3.close();
}

 

3) 캐싱 대 일괄처리

 

스캔의 경우 next메서드가 호출될때 마다 RPC가 발생합니다.

이는, 데이터 크기가 작은 경우에는 오히려 성능상으로 안좋을 수 있습니다.

 

때문에, Hbase에서는 스캐너 캐싱이라는 기능을 제공합니다.

 

이 캐싱 기능은 아래와 같이 2개의 다른 수중에서 활성화할 수 있습니다.

 

  • 테이블 단위의 캐싱
  • 스캔 단위의 캐싱

 

1. 테이블 단위 캐싱

 

테이블 단위의 캐싱을 사용할 때는 아래 메서드를 사용하면 됩니다.

 

void setScannerCaching(int scannerCaching)
int getScannerCaching()

 

아래는 스캔 단위의 캐싱 메서드입니다.

 

void setCaching(int caching)
int getCaching()

 

이러한 캐싱의 효과로는 RPC가 반환하는 로우 갯수를 사용자가 제어할 수 있다는 점입니다.

무조건 캐싱양을 늘리기보다는 클라이언트와 서버의 스펙을 고려하여 최적점을 찾아야 합니다.
무제한으로 올리게 된다면 최악에는 OutOfMemoryException이 발생하게 됩니다.

 

하지만 예기치 못하게 하나의 로우가 매우 커서 메모리 이슈가 발생할 수 도 있습니다.

 

Hbase에서는 이를 위해 일괄처리 기능을 제공합니다.

 

void setBatch(int batch)
int getBatch()

 

일괄처리는 캐싱과 다르게 로우단위가 아닌 컬럼단위로 동작합니다.

한마디로 next 메서드 호출 시 반환되는 컬럼갯수를 제어합니다.

 

예를들어, setBatch(5)로 세팅을 하게된다면 Result 인스턴스마다 다섯개의 컬럼이 반환되어집니다.

 

만약 로우의 컬럼이 17개이고 일괄처리를 5로 설정했을때는 하나의 로우를 조각내어
5->5->5->2 개로 반환받게 됩니다.

 

처음에는 이 2개를 고려하지 않아도 되지만,

점차 서비스가 커지면서 최적화를 해야한다면 위의 스캐너 캐싱과 일괄처리를 적절히 조합하여 사용해야합니다.

 

 

7. 마무리

 

이번 포스팅에서는 클라이언트 API : 기본 기능에 대해 진행하였습니다.

 

다음 포스팅에서는 챕터 4장인 클라이언트 API : 고급 기능에 대해 진행하겠습니다.

반응형

'BigData > Hbase' 카테고리의 다른 글

(5) 클라이언트 API : 관리 기능  (0) 2020.06.02
(4) 클라이언트 API : 고급 기능  (0) 2020.04.19
(2) 설치  (0) 2020.04.08
(1) 소개  (0) 2020.04.07
반응형

1. 서론

 

이번 포스팅에서는 Hadoop 카테고리에 있는 Hadoop 설치에서 Hbase를 추가하는 과정을 진행하겠습니다.

 

2. 설치

1) Hbase 서비스 추가

 

먼저 설치되어 있는 클라우데라 매니저 UI에 접속하여 아래와 같이 서비스 추가를 클릭합니다.

 

 

클릭하게 되면 아래와 같이 추가할 수 있는 서비스 목록 화면으로 넘어가게 됩니다.

Hbase를 선택해 주세요.

 

 

2) 서버 선택

 

Hbase를 선택하고 완료 버튼을 누르게 되면 마스터, 리전, 쓰리프트, Rest 용도의 서비스를 어느 서버에 추가할 지 선택하는 화면이 나옵니다.

 

 

저의 경우, 포스팅을 위해 사전에 미리 설치하여 위와 같이 빨간색으로 뜨고 있습니다.

저는 총 1~4번 서버 중에  Master는 1번 리전서버는 2~4번 서버를 선택하였습니다.

Rest 서버와 쓰리프트 서버는 별도로 등록하진 않았습니다. 

 

 

 

 

 

 

 

반응형

 

 

 

 

 

 

 

 

3) Hbase 설치 완료

 

이제 계속 버튼을 눌러 설치를 진행하게되면 Hbase가 설치가 됩니다.

 

이런 편리함 때문에, 클라우데라와 같은 매니저 역할의 상용 서비스를 사용하는것이 편합니다.

 

 

4) 기타 설정

 

설치는 완료 되었지만 Hbase에는 느낌표와 빨간 경고표시가 많이 보이게 될 것입니다.

 

이 부분은 Hadoop 설치 부분에서도 언급했었던, heap 사이즈를 root로 잡고 있기 때문입니다.

 

root의 디스크 공간이 충분하다면 안보이실 수 있습니다.

 

heap의 경우에는 아래와 같이 경로를 변경해 줍니다.

저의 경우에는 /home1/irteam/tmp로 변경하였습니다.

 

 

추가로 hbase관련 log를 적재하는 디렉터리도 root가 부족하다면 변경해야 합니다.

이것은 직접 서버에 들어가 아래와 같이 수정해주시면 됩니다.

 

sudo mkdir -p /home1/irteam/var/log/hbase
sudo mv /var/log/hbase/* /home1/irteam/var/log/hbase
sudo rm -rf /var/log/hbase
sudo ln -s /home1/irteam/var/log/hbase /var/log/hbase
sudo chmod -R 777 /home1/irteam

 

저의 경우에는 기본 경로인 /var/log/hbase에는 디스크가 충분하지 않아,

충분한 /home1/irteam/var/log/hbase 로 데이터를 옮긴 후 심볼릭 링크를 걸었습니다.

 

 

5) 재시작

 

이젠 heap 경로의 설정이 변경된것을 반영하기 위해 Hbase를 아래와 같이 재시작해줍니다.

 

3. 설치 확인

설치가 제대로 되었는지 확인하기 위해 서버에 접속하여 hbase 쉘에 접속 테스트를 진행해 봅니다.

 

아래와 같이 hbase shell 명령어를 통해 접속이 가능합니다.

 

간단히 클러스터의 상태를 확인하는 status 명령어를 수행하여 정상적으로 돌고 있는지 확인합니다.

 

위에서 설명한것과 같이 1개의 마스터와 3개의 리전서버가 active 한것을 볼 수 있습니다.

 

4. 마무리

 

이번 포스팅에서는 Hbase 설치를 진행해봤습니다.

 

다음 포스팅에서는 챕터 3장인 클라이언트 API:기본 기능에 대해 진행하도록 하겠습니다.

 

반응형

'BigData > Hbase' 카테고리의 다른 글

(5) 클라이언트 API : 관리 기능  (0) 2020.06.02
(4) 클라이언트 API : 고급 기능  (0) 2020.04.19
(3) 클라이언트 API : 기본 기능  (0) 2020.04.09
(1) 소개  (0) 2020.04.07
반응형

1. 서론

Hadoop eco system에서 비관계형 분산 데이터 베이스로 많이 사용하는 Hbase에 대해 공부한 내용을 공유하고자 합니다.

책은 HBase 완벽 가이드 를 통해 공부하였습니다.

 

이번 포스팅에서는 1장인 소개부분을 진행하도록 하겠습니다.

 

2. 관계형 데이터 베이스 시스템의 문제점

 

책에서는 RDB에 대한 확장성 측면에서 문제점을 얘기하고 있습니다.

물론, RDB의 대표적인 MySql, Oracle, Postgres 등은 실제 서비스에서도 많이 사용되고 있는 DB이며,
현재는 확장성을 고려해 MySql, Postgres 등은 분산 클러스터 기능도 제공하고 있습니다.

 

DB 기반 서비스는 확장됨에 따라 DB 성능이 매우 중요해지게 됩니다.

 

이 성능을 올리기 위해 일반적으로 아래와 같은 방법을 사용할 수 있습니다.

 

  1. Read 질의를 위한 슬레이브 데이터 베이스 사용
  2. 멤캐시드와 같은 캐시 추가

하지만, 위 2가지 방법의 경우에는 Read를 위한 방법으로 Write에 대한 성능 향상은 아니며,

마스터/ 슬레이브 구조에서는 마스터와 슬레이브의 컴퓨팅 성능의 차이가 클수록 성능에도 악영향을 끼칠수 있게 됩니다.

 

결국, DB를 구성한 서버의 자원을 모두 올려야하는 비용이 들며, 캐시를 사용하게 되면 순간적인 데이터 일관성이 깨지게 되는 문제점이 발생할 수 밖에 없게 됩니다.

 

최종적으로는 RDB의 장점인 정규화를 없애고, 성능을 위해 비정규화를 하게 됩니다.

정규화는 결국 데이터를 분리하게 되는것입니다. 그렇다는것은 데이터를 가져오기 위해서 join연산을 수행해야 합니다.
하지만 RDB에서는 이 join 연산이 비싸기 때문에 성능을 올리기 위해서는 일반적으로 비정규화를 하게 됩니다.

 

3. RDBMS vs NoSql

 

RDBMS와 NoSql은 정반대의 관계가 아닙니다.

 

그 이유로는 상용에 있는 RDBMS와 NoSql 종류에 따라 저장 방식도 모두 다르고 지향하는 점이 다르기 때문입니다.

개인적으로, RDBMS와 NoSql의 구분은 스키마의 자유도로 나누면 된다고 생각합니다.
트랜잭션 강도를 제외한 이유로는 DBMS의 제품에 따라 NoSql 이라도 강한 제품이 있기 때문입니다.

 

그렇기에, 서비스에 맞는 DBMS를 선택해야 합니다. 책에서는 선택할 때 고려해야할 기준을 소개하고 있습니다.

 

1) 데이터 모델

 

데이터 모델로는 대표적으로 아래와 같이 있습니다.

 

  • 키/값 방식
  • 반 구조적
  • 컬럼지향 방식
  • 문서 지향 방식

 

2) 저장 모델

 

인메모리 방식인지, 영구저장 방식인지도 기준으로 들 수 있습니다.

 

영구저장의 경우 디스크에 쓰게되며, 이 경우 성능에 어떤 영향을 미치는지도 고려해야 합니다.

 

3) 일관성 모델

 

일관성 정책의 엄격함도 고려해야 합니다.

 

각 DBMS에 따라 느슨한경우와 엄격한 경우가 있기 때문입니다.

 

4) 물리적 모델

 

물리 장치가 단일한지 분산인지도 고려해야 합니다.

 

단일 장치의 장/단점과 분산 장치의 장/단점이 존재하기 때문입니다.

 

간단한 예로 분산의 경우는 네트워크 비용이 어쩔수 없이 들게 된다는 단점이 있지만,
수평 확장이 가능하여 저장 부분에서는 무한하다는 장점도 가지고 있습니다.

 

5) 읽기/쓰기 성능

 

현재 서비스는 DB에 읽기와 쓰기 중에 비율이 어떤지도 고려해야합니다.

 

아래 크게 3가지에 따라서 선택해야 하는 DBMS도 다르지만 DBMS의 정책도 달라지기 때문입니다.

 

  1. 읽기 > 쓰기
  2. 읽기 = 쓰기
  3. 읽기 < 쓰기

 

6) 보조색인

 

보조색인의 필요성도 고려대상에 포함됩니다.

 

보조색인이 필요 없다고 판단될 땐 확장성을 생각하여 어플리케이션에서 충분히 커버가 가능한지도 알아봐야 합니다.

 

7) 장애 처리

 

장애처리에 대해서 각 DBMS들은 어떠한 대처를 하는지도 알아봐야 합니다.

 

데이터가 인메모리 저장 방식의 경우 각 DB 서버는 graceful shutdown으로 디스크에 저장되도록 되어 있지 않다면 데이터 유실이 발생할 것 입니다.

 

8) 압축

 

압축이 기본적으로 제공되는지 혹은 필요시 플러그인으로 압축 기법을 사용할 수 있는지도 고려 대상에 포함됩니다.

 

9) 부하 분산

 

읽기/쓰기에 대한 부하를 DB 자체적으로 분산해주는지도 고려대상입니다.

 

(처리량이 많은 어플리케이션 구조에서 고려해보면 됩니다.)

 

10) 원자적 읽기, 갱신, 쓰기

 

원자적인 CRUD가 가능한지도 고려 대상입니다.

 

DB에서 제공하는지의 여부에 따라 클라이언트 측 어플리케이션의 복잡도에 영향이 가기 때문입니다.

 

11) 락걸기, 대기, 데드락

 

데이터 접근 시 어떤 유형의 락 모델을 제공하는지도 고려대상입니다.

 

이것은 성능에도 직접적인 영향이 있기 때문에 놓치지 않아야 하는 기준입니다.

 

 

 

 

 

 

 

 

반응형

 

 

 

 

 

 

 

4. 구성 요소

이제 Hbase에 대한 구성요소를 간단히 소개하겠습니다.

 

1) 테이블

 

Hbase에는 RDBMS와 동일하게 테이블이라는 구성 요소가 존재합니다.

 

2) 로우

 

로우는 유일한 키인 로우 키를 가지고 있습니다.

또한, 이 로우가 다수 모여 테이블을 이루게 됩니다.

 

추가로,로우는 로우키를 기준으로 사전 편찬식으로 저장되어 집니다.

 

아래는 scan했을때의 예입니다.

 

row-1 column=cf1:, timestamp=11111
row-10 column=cf1:, timestamp=11111
row-11 column=cf1:, timestamp=11111
row-2 column=cf1:, timestamp=11111

 

사전편찬식 정렬에서는 2진수 수준에서 바이트 단위로 왼쪽부터 비교하게 됩니다.

그로인해, 위와 같이 row-10, row-11이 row-2보다 위에 있게 됩니다.

 

3) 컬럼

 

컬럼은 상위에 컬럼패밀리라는 것을 가져야 합니다.

 

컬럼패밀리는 데이터를 의미적으로 분류하게 해주는 것으로, 이 컬럼 패밀리 단위로 압축이나 메모리 상주같은 설정이 가능하게 됩니다.

 

또한, 컬럼패밀리 안의 모든 컬럼은 HFile이라는 하나의 Hbase에서 관리하는 저수준 저장 파일에 함께 저장됩니다.

 

컬럼패밀리는 테이블 생성될 때 최소 하나 이상은 정의해야하며, 갯수가 많아서는 안되는 제약사항이 있습니다.

 

그래서, Hbase에서의 컬럼은 '컬럼패밀리:퀄리파이어' 로 표현할 수 있습니다.

여기서 퀄리파이어는 바이트 배열로 패밀리안에 속한 컬럼키라고 보시면 됩니다.

 

퀄리파이어의 경우 컬럼패밀리와 달리 갯수에 제약사항이 없어, 하나의 컬럼패밀리안에는 수백만개의 퀄리파이어를 저장할 수 있습니다.

또한, 데이터 타입이나 길이에도 제한이 없습니다.

 

4) 셀

 

셀은 컬럼의 값으로서 타임스탬프를 가지고 있습니다.

 

타임스탬프를 가지고 있다는 것은 컬럼의 값을 타임스탬프 기준으로 버저닝한다는 의미입니다.

 

타임스탬프는 사용자가 직접 지정할 수도 있으며, Hbase 내부적으로 부여할 수도 있습니다.

또한, 동일한 값은 타임스탬프 기준으로 정렬되어 항상 최신의 값을 먼저 읽을 수 있도록 되어 있습니다.

 

추가로, 셀의 경우 바이트 배열로 되어 있어, 클라이언트 측에서 어떻게 처리해야 할지 알고 있어야 합니다. 


아래는 Hbase의 전체적인 구조를 나타낸 것입니다.

 

(Table, RowKey, Family, Column, Timestamp) -> Value

 

정렬의 기능을 추가하여 프로그래밍적으로 나타내게 된다면 아래와 같습니다.

 

SortedMap<RowKey, List<SortedMap<Column, List<Value, Timestamp>>>>

 

5) 원자성

 

 

Hbase는 로우 단위로 컬럼 수와는 무관하게 원자성을 보장하고 있습니다.

 

단, 여러 로우나 테이블에 걸친 원자성이나 트랜잭션을 보장하지 않습니다.

 

 

6) 자동 샤딩

 

Hbase에서는 확장성, 로드밸런싱을 위해 리전이라는 단위를 사용하고 있습니다.

 

리전은 단순히 특정 범위의 로우 집합으로 이해하면 되며,

리전은 사이즈가 커지게 되면 자동으로 분할하게 되며, 반대로 합쳐지기도 합니다.

 

최초 테이블 생성 시에는 하나의 리전이 존재하고, 시스템이 모니터링을 하다 특정 기준이 넘어가면 둘로 분리하게 됩니다.

 

각 리전은 하나의 리전서버에서 운용되며 각 서버는 수많은 리전을 운용할 수 있습니다.

 

리전의 특징으로는 아래와 같습니다.

 

  • 서버 고장 시 리전을 다른 리전 서버로 이동시켜 재빨리 복구 가능
  • 세밀한 로드밸런싱

 

5. Hbase 내부 동작 방식

hbase는 데이터 색인 방식으로 LSM(= Log Structured Merge) Tree 을 사용합니다.

 

hbase는 데이터를 HFile 이라는 파일에 저장하게 되고,

이 파일은 영구 저장, 정렬, 고정 불변의 키/값 쌍의 맵이라고 보시면 됩니다.

 

1) HFile

 

HFile은 연속적인 블록이며 블록에 대한 색인은 블록 끝에 저장되어 있습니다.

색인은 HFile이 열릴때 메모리로 로드되어 사용하게 됩니다.

 

또한, HFile은 위에서 설명한 LSM Tree를 기반으로하여 특정값 혹은 시작값~끝값의 range 스캔이 가능합니다.

 

추가로, 모든 HFile은 블록 색인을 갖고 있어 검색은 단 한번의 디스크 판독으로 수행될 수 있습니다.

검색하고자하는 키를 통해 블록 색인에서 이진탐색이 이루어지게 됩니다.

 

 

2) WAL 

 

WAL은 Write-Ahead-Log로 Hbase는 데이터 갱신시 여기에 먼저 씌어지게 됩니다.

Hbase에서는 커밋로그 라고도 불립니다.

 

WAL에 먼저 쓰여지기 때문에 장애가 났을시에도 데이터의 유실은 있지 않습니다.

 

3) 멤스토어

 

WAL에 씌어진 다음에는 메모리인 멤스토어에 저장이 됩니다.

 

멤스토어에 있는 설정한 값을 넘게 되면 그때야 비로소 HFile에 쓰여지게 됩니다.

HFile에 쓰여진 이후에는 WAL에 있던 쓰여진 데이터도 삭제되어 집니다.

 

데이터를 읽을때에는 HFile과 멤스토어간의 데이터 정합이 안맞을 수 있어, 두 곳에서 데이터를 통합하여 반환하게 됩니다.

 

LSM 트리 구조상 삭제는 바로 할 수 없습니다. 하지만, 삭제표시를 해두어 읽기 연산 시 삭제된것처럼 데이터를 감출 수 있습니다. 

 

4) 컴팩션

 

멤스토어에서 HFile로 write 할 때마다 파일의 수는 증가하기 때문에 Hbase는 내부적으로 컴팩션이라는 것을 수행하게 됩니다.

 

이 컴팩션은 부 컴팩션 과 주 컴팩션으로 구분할 수 있습니다.

 

1. 부 컴팩션

 

부 컴팩션은 작은 파일의 내용을 큰 파일에 병합시켜 파일의 갯수를 줄이는 행위입니다.

 

HFile은 내부적으로 정렬되어 있기 때문에 병합속도는 빠르게 이루어지며, 오직 디스크 입출력 성능에 영향을 받습니다.

 

2. 주 컴팩션

 

주 컴팩션은 하나의 리전안의 컬럼패밀리 하나를 구성하는 모든 파일을 새로운 파일 하나로 다시 쓰는 작업입니다.

 

부 컴팩션과의 차이로는 위에 설명한 삭제표시가 달린 데이터를 다시 쓰는 과정에서 제외시켜 영구적으로 삭제할 수 있다는 점 입니다.

 

6. Hbase 클러스터 구성

Hbase 클러스터는 마스터 서버 한대, 리전 서버 다수로 이루어져 있습니다.

 

1) 마스터서버

 

마스터 서버는 아래와 같은 역할을 수행합니다.

 

  1. 리전 서버에 리전 할당
  2. 리전 서버간의 리전의 부하 분산 처리
  3. 테이블 및 컬럼패밀리의 생성 같은 스키마 변경 사항 및 기타 메타데이터 작업 수행

위 역할들을 마스터 서버가 수행하기 위해서는 주키퍼라는 서비스를 필수로 사용해야 합니다.

 

2) 리전 서버

 

리전 서버는 클라이언트와 통신하며 데이터의 읽기와 쓰기를 담당하는 서버입니다.

 

쓰기도 담당하기 때문에 리전 분할의 역할도 이루어 집니다.

 

6. 마무리

이번에는 간략히 Hbase 소개에 대해서 포스팅하였습니다.

다음에는 2장인 설치 챕터이지만 해당 챕터는 Hadoop 설치 에서 사용한 cloudera manager를 사용하여 Hbase 서비스를 추가하는 것으로 대체하도록 하겠습니다.

반응형

'BigData > Hbase' 카테고리의 다른 글

(5) 클라이언트 API : 관리 기능  (0) 2020.06.02
(4) 클라이언트 API : 고급 기능  (0) 2020.04.19
(3) 클라이언트 API : 기본 기능  (0) 2020.04.09
(2) 설치  (0) 2020.04.08

+ Recent posts