terça-feira, 27 de agosto de 2013

Cargas de mis-vendido PPI, mas quem vai reclamar? Este homem é pago para descobrir


Vitória Spectre Laptop com HP e The Register


Recurso quando a linha de uma conversa de abertura começa: "Eu li um número interessante no outro dia", é razoavelmente seguro supor que você está falando com alguém cujo negócio é saber sobre "números interessantes". Talvez sem surpresa, estas palavras foram proferidas por um economista cuja capacidade de encontrar deus de ouro nos números é a razão pela qual ele está trabalhando para um de esses bancos High Street muito impertinente para descobrir o quanto o escândalo PPI vai custar isso.


Estes dias, os bancos são muito sensíveis a qualquer tipo de exposição na mídia, razão pela qual esses dados mineiro pediu para permanecer anônimo, por isso vamos chamá-lo de Cole.







SAS Enterprise Miner tool in use for banking analytics

Diamantes nos dados: SAS Enterprise Miner ferramenta em uso para análise bancários

Clique para ampliar a imagem



Cole, que tem formação em análise, tem que cavar alguns grandes dados: o seu cliente tem uma forte fatia dessas políticas para trabalhar com os contratos em execução em milhões.


Estima-se que todos os bancos High Street combinados tem 20 milhões de políticas PPI para lidar com (alguns dos quais não terá sido mal vendido), mas nem todos os segurados vão jogar PPI bingo, e que está o problema. Se cada caso era verdadeiro e todo mundo aplicado, todos os bancos em causa se sabe o que vai custar-lhes imediatamente.


O fato é que nem todo mundo vai ser incomodado para acompanhar compensação para o Pagamento Seguro Proteção eles foram missold. A mis-selling do referido PPI abalou o setor bancário desde os principais rumores sobre este enorme fiasco financeiro começou em 2005. E não saber o que vai custar é preocupante para os bancos. Então, eles estão se utilizando técnicas de mineração de dados para determinar os tipos de clientes propensos a buscar compensação para obter estimativas mais precisas, que é onde a experiência da Cole entra em jogo.


Aliás, o número interessante que ele estava falando era a alegação de estatística que, no momento, 90 por cento dos dados armazenados em servidores em todo o mundo foram recolhidos nos últimos dois anos. Neste negócio, o termo "indústria em crescimento" parece ser um grande eufemismo.


Coleção de discos Folk


O que torna os modelos PPI vez mais envolvidos - em comparação com a pesca de arrasto texto de tweets e espreitar o conteúdo do seu carrinho de compras - é que os dados é histórica. Ele vai voltar 20 anos ou mais e envolve o agrupamento de registros que foram migradas de sistemas muito tempo morto, juntamente com cópias que devem ser digitalizados em demasiado. Para que não esqueçamos, ele também precisa considerar várias fusões bancárias e suas incompatibilidades do sistema aparentemente necessárias ao longo do caminho. Esta não é a análise cuidadosamente embalados de e-commerce de hoje, é um pouco de bagunça e precisa de tratamento meticuloso.


Então, quem vem mantendo esta informação? Onde é que tudo isso ao vivo? Apenas como você transformar-se em sua mesa um dia e começar a tarefa de mineração de dados de 20 milhões de registros cobrindo duas décadas?


Cole oferece algum plano para esse acúmulo de registros e seu uso atual hoje. Ele vê a chegada dos dados grandes como o desenvolvimento em várias etapas.


"Na década de 1990 e depois do milênio, grandes dados foram recolhidos em armazéns de dados, como bancos de dados relacionais. Consultorias ganhou um monte de dinheiro na década de 1990 a construção de armazéns de dados - recolha de todos os dados, os dados dos clientes transacionais (todos os tipos de dados). Depois disso veio um período em que, nos últimos cinco a 10 anos, o foco tem sido a mais para as aplicações utilizar praticamente todos os dados. E eu venho do ângulo aplicações.


Data mining flow chart

Movendo as massas: mineração fluxograma obter informações sobre dados



"Então, a próxima fase que eu vejo, para chegar à parte de mineração de dados, é o exercício que você obtenha todos os dados em um formato que você pode realmente começar a analisá-lo. Dados grandes, como é, não é realmente apto para o efeito em termos de ficar dentro analytics fora dele. Então os analistas tendem a construir seus próprios data marts em seus próprios computadores. "


Se você nunca ouviu falar de um data mart antes, então você não está sozinho. Os analistas podem trabalhar a partir do conteúdo de data warehouse, mas a criação de um data mart é o caminho a seguir: sifão fora de um intervalo específico de dados e estreitar as áreas que estão interessados ​​em analisar - por exemplo, algumas empresas, períodos ou locais específicos regionais.


Não há acesso direto aos dados em grandes servidores de Teradata e outras fontes, como bancos de dados Oracle e afins e, dependendo do que é, vários tipos de data mart são construídas e, escusado será dizer, o trabalho acontece em cópias.


Comece com um mart


"Nós construímos um data mart no banco especificamente para cobrir todo o PPI analytics", explica Cole. "Ele contém todas as contas bancárias do PPI que foram vendidos e todos os dados relacionados a essas políticas - milhões de registros. No armazém de dados, há um grande número de fontes de dados - diferentes empresas e todos os tipos de diferentes formatos de dados que vem dentro Você, então, reunir tudo o que você precisa para seu projeto ou objetivo em particular. Você, então, construir sua mart para tarefas específicas - marts não são permanentes ".


A forma como os dados são tratados varia entre os dados analíticos e de exploração do trabalho e, consequentemente, há o armazenamento de dados analíticos (ADS) e também todos os tipos de armazenamentos de dados operacionais (ODS). A informação na última é posta em prática e utilizados para várias campanhas e direccionamento tipos específicos de cliente. Assim, a fase final é sobre a implementação de ferramentas analíticas que podem fazer bom uso dos dados reais.


"Para a análise, o que você está olhando para começar talvez não seja tudo isso, mas definitivamente a amplitude dos dados, de modo que você pode não precisar de todos os registros. Então, quando você chegar ao lado operacional das coisas, onde você implantar sua análise, você pode só precisa de uma parte muito menor, mas você terá que para cada cliente.


"Então, em termos de armazenamento com a nossa mart nós construímos aqui é metade de um terabyte, e eu acho que nós usamos 95 por cento desse espaço e há um curso de atualização. Como você pode ver, ele rapidamente acrescenta-se. Mas a análise não é realmente muito dependente do tamanho e armazenamento, você pode fazer a análise em pequenos bolsões de dados, tudo depende do que você realmente quer sair dela. "



Nenhum comentário:

Postar um comentário