Machine Learning com Sandro Manteiga - Fintechs e Inovação

30 de novembro de 2021

Transcrição

Estou aqui com o Sandro manteiga, que é engenheiro mecatrônico, mestre em matemática aplicada e finanças pela USP, fez doutorado em administração de empresas pela FGV. Profissionalmente, passou por algumas consultorias de estratégia, bancos, fintechs. Trabalhou em áreas de risco, tesouraria, operações e. Lista de é é em estratégia de crescimento de empresas digitais. O Sandro também é professor de pós-graduação, tendo passagem em algumas das melhores escolas de negócios aí do Brasil. Tá certo? Sandro tem faltou alguma coisa ou errei que tá faltando aí? É um bom resumo. Maravilha. Bom Sandro é, eu convidei você para conversar um pouquinho sobre tecnologia, né? Tecnologia No No mundo fintech. Em especial sobre machine learning, então procurando é pessoas aí é com algumas especialidades dentro do do mundo fintech e lembrei do teu nome em relação a machine learning, né? Dentro das suas várias competências. Então, começando pelo pelo básico, eu. Poderia dizer que machine learning está inserido aí dentro de um negócio que chama inteligência artificial. Então, dentro de inteligência artificial, a gente tem várias subsegmentos. Um deles é machine learning, dentro de machine learning, eu teria 2 subsegimentos ou mais, né? Mas pelo menos os 2 que me venha à mente aqui é estatística, é o machine learning e deep learning. É mais ou menos isso. Você poderia dar 11 ideia aí para a gente. Sim, essa tem essa classificação que você comentou. É sim. Ela. Ela é aplicável, né? Uma outra classificação, também muito muito conversada no mercado. É. É a gente olhar aí já quando a gente já fala de uma decomposição de machilane, né? É em técnicas de machilane voltadas para aprendizado supervisionado e não supervisionado. Eu, por exemplo, quando a gente fala de aprendizado supervisionado, a gente está falando da construção de classificadores. Então um problema clássico é a concessão de crédito que você pode usar algoritmos de machine para dizer se você vai tomar uma decisão de concessão ou não. Para um determinado tomador de de crédito. Isso AAA gente, fala do uso de de aprendizado de máquina supervisionada que você usa dados do passado, né? Onde você sabe quem foi o bom pagador e quem não foi um bom pagador para treinar esses algoritmos? E tem também 11 outra divisão que a gente fala de aprendizado não supervisionado, onde a gente aplica, por exemplo, algoritmos para a segmentação de base de clientes com base em comportamento, né? EE esse esse é um exemplo e tem outras subdivisões que são utilizadas também, né? Como? Reinforcem reinforcement layer learning que a gente fala também quando você treina o algoritmo de mach learning em tempo real para tomada de decisão. Então, essas essas que a gente comentou acho que seriam as principais classificações, né? Eu acho que um ponto importante do marchillarni também é entender que é Oo machiller. Ele acaba sendo um algoritmo que é usado para escrever um outro algoritmo, né? Então, por isso que a gente fala do aprendizado de máquina. Não é um desenvolvedor que vai lá e codifica no computador, é um algoritmo que, com base no iPod de dados, ele, ele entende os padrões implícitos naqueles dados e ele cria um outro algoritmo, que é o algoritmo, que vai fazer, de facto, o trabalho que se pretende. Legal, então Oo supervisionado é. Ele seria algo como é, deixa eu voltar no teu exemplo aqui da da análise de crédito, a gente chama de supervisionado, porque eu tenho 11 massa de dados do passado e tenho dentro dessa massa de dados aí de clientes. Eu tenho aqueles que foram bons pagadores e aqueles que não foram bons pagadores, então eu tenho a entrada e a saída, né? Então ele é supervisionado por isso, porque eu estou exato. Indo para a máquina, a entrada e a saída exato, você tem os dados rotulados? Um outro exemplo é um. É um programa clássico do Google, né? Onde ele usou machelanning aprendizado supervisionado para treinar o algoritmo para identificar imagens de gatos. Então ele tinha lá milhares e milhares de imagens de gatos e era rotulado como gato e outras fotos de animais que eram não gatos também estavam rotuladas. Então é exatamente isso que você comentou, você tem um input, né? São os dados ali para você treinar EE. Quando esses dados estão rotulados. Você sabe se é um bom pagador ou um mau pagador se é um gato, se não, não é um gato. Uhum. Se é um fraudador, se é um bom, é usuário ali, naquela transação, esses são todos dados rotulados e, portanto, você consegue trabalhar com o algoritmo para fazer um aprendizado. Supervisiona. É como se você soubesse a resposta olhando o passado para treinar esse algoritmo para fazer identificações no futuro legal. Eu, eu. Eu peguei um livro de 11 colega nosso. Adriano mussa é um colega nosso que ele. Ele deu aula No No Insper, né? Por um, por um tempo, aliás, foi foi o Adriano mussa que que me chamou pro Insper, que me falou que tinha uma vaga lá em 2012. Eu. Eu trabalhava com ele na Sean Paul. É, ele continua na Sean Paul hoje é é diretor da da sampaolli, escreveu um livro sobre inteligência artificial e. Dos exemplos que ele utiliza ali eu achei um que é bacana assim, é é. É fácil de entender porque ele está no nosso dia a dia, que é o do junck mail, né? Que OOOOOA inteligência da máquina, ela separa. Já se prepara pra gente aquilo que é junk mail, né? No passado, a gente recebia aquele caminhão de mensagens, né? Que é é aqueles e-mails antigos, é, a gente recebia um montão de mensagem indesejável. E hoje? OA máquina faz uma boa seleção do que é. É junk mail e a gente ajuda ainda a máquina, né? Quando passa alguma coisa, a gente fala de Marcação. Ó, isso aqui é de anjo e quando ele classifica algo errado, a gente fala não, isso aqui não é de junkmail, né? Então, isso é é, é bem legal, bom. É sendo o machine learning uma ferramenta que trabalha com dados necessariamente. Eu preciso de um big data, né? Uma base de dados gigante para trabalhar com o machine learning, ou eu poderia aplicar machine learning em bases não tão grandes. Existe aplicação de machine learning em bases não tão grandes. Agora que essa essa, essa pergunta era bem interessante pelo seguinte, é. A gente tem uma, na verdade, a melhor resposta para essa pergunta é pensar numa gradação. É dentro de algumas dimensões, né? É a princípio, sim. A gente pode dizer que aplicações de machillane, treinamento de algoritmos de machillane demandam bases de dados. É com uma volumetria maior, né? Com um tamanho maior, né? Então aí a gente está falando de de milhares dezenas de milhares, e daí para cima em termos de volumetria de dados, né? Esse. Esse é um aspeto, mas há uma outra dimensão que é muito importante a gente considerar também é o seguinte. AAA, quantidade de variáveis que a gente tem disponíveis pra fazer, o treinamento de algoritmo de machine learning, então também, quanto mais variáveis você tem, mas que sejam variáveis que tenham relação com aquele problema que você está resolvendo que elas travam alguma informação que te dê alguma vantagem para resolver aquele problema. Isso também é positivo, então não é só o volume, é a quantidade de variáveis que você tem. Um outro aspecto muito interessante também não é, não é? É apenas a quantidade de variáveis, mas cada variável ela precisa trazer uma informação relevante para você resolver o problema. Em termos de variabilidade. Então vou dar um exemplo. Já teve situações assim pra da gente analisar? É casos reais em que sim, OOOA, empresa. Ela tinha 11 valoremetria grande, tinha muitas variáveis, mas eu vou pegar um exemplo, né? É é pegar ali uma variável que indica desconto. Oferecido para um produto e você quer medir elasticidade do da resposta do do usuário mediante diferentes níveis de desconto? Se a empresa, ela, ela, ela trabalha ali? Com 123 níveis de desconto, você tem pouca variabilidade. Você não consegue entender muito bem o comportamento de resposta do usuário para diferentes níveis, então você precisa de uma discretização maior para gerar uma variabilidade maior e a terceira dimensão que eu acho importante é compartilhar aqui também é a seguinte. Dependendo do problema que a gente está analisando, se é um problema que ele pode ser caracterizado como um evento raro, né? E fraude é um exemplo clássico disso. A quantidade de fraudadores é muito pequena em proporção à população, né? No evento de fraude, ele fica muito difícil de ser detectado. Embora ele tenha um impacto muito grande no resultado da empresa quando ele se manifesta, é nessas situações onde você tem um evento raro e você quer construir alguma algum algoritmo bachilane para lidar. Para identificar esse evento raro, aí sim você acaba tendo AA necessidade de trabalhar com 1 o volume muito grande, exatamente para aumentar a tua capacidade de detecção de um evento que é raro. Sim, entendi. É interessante, é? E a gente falando especificamente no mundo fintech é uma. Eu dei uma olhada lá no teu perfil do LinkedIn. Eu vi que você até menciona algumas dessas aplicações aí de machine learning no mundo fintech, né? De análise de crédito, fraudes que você mencionou agora, né? Queria que você desse uma ideia. E quais são as aplicações mais comuns nas fintechs, seja No No Brasil ou no mundo? Que que você tem visto aí de aplicações de machine learning, né? Que problemas que eles estão resolvendo? Sim, eu acho que tem um problema é que ele é. Ele é comum AA todas, eu diria não apenas as fintex, mas também a aos incumbentes mais tradicionais, né? Quando a gente fala de serviços financeiros, que é Oo onboarding, né? O onboarding de de novos clientes, né? O é OA gente poderia até chamar isso de digital. Know your customer AC digital, né? Então como, como, como que, de uma maneira é 100% digital? Por meio de um aplicativo? Você consegue garantir que, de fato, é o Eric que está se cadastrando ali para abrir conta naquele, naquela, aquela fintech, né? Por exemplo, né? Então, é, é esse, esse é um problema que permeia todo o ecossistema de serviços financeiros, né? Porque é, é a inclusive uma preocupação muito grande do banco central, garantir que todos os participantes do sistema tenham uma boa maturidade, uma boa garantia de new yoork custom. Né? Exatamente para poder evitar a fraude de de identidade ideológica, né? Que é que é uma das modalidades de fraude que a gente tem e aí é você para fazer isso de uma forma presencial. É. É aquela história clássica, né? A pessoa vai com o documento até a agência, o cara crachá que o gerente faz, olha lá pro pro érik vê o documento, a identidade do Eric EE você tem uma. É um processo analógico que funciona dessa maneira, né? No digital. Esse desafio de você garantir a identidade da pessoa, evitar o problema de falsidade ideológica. Ele é mais complexo, exatamente porque tem recursos também digitais que são usados por fraudadores para poder burlar esse processo e explorar vulnerabilidades desse processo quando elas existem. E aí, AO que a gente observa é que, para poder resolver bem o problema de QUIC digital, você em geral, a gente acaba usando. Uma abordagem de enriquecimento de dados, né? E também algumas tecnologias que têm ali subjacente algoritmos de marché learning. Né? Então é você pode ter um algoritmo, é ou é, ou mais de um algoritmo que vão trabalhar a questão de de biometria é digital. Então quando, por exemplo, a gente tira uma selfie. Daí em diante você tem é o que a gente chama de pideline, uma sequência de algoritmos de machilane que vão verificar se aquela foto do Eric ela não foi manipulada no momento que ele fez o cadastro, né? Junto com isso, você tem features de segurança para verificar que essa foto, mesmo que seja real do Eric, ela não foi injetada de uma outra maneira No No aplicativo, por exemplo. Né? Então você tem que combinar uma chillarning com características de segurança do aplicativo, né? No nível mais fundamental e você precisa, é um outro aspecto importante nesse caso de uso também a questão do que a gente chama de livness. É preciso garantir que, no momento que aquela foto foi tirada pelo Eric, era o Eric mesmo que estava vivo ali, fazendo aquela pornografia, né? E não era. É a alguma alguma maquete construída, né? E aí, tem diferentes graus de ensinamento dos fraudadores fazem isso, né? Para garantir que, de facto, aquela foto era de um ser humano vivo que foi tirada de fato naquele momento, você tem vários algoritmos rodando, não é um só. Para garantir diferentes aspectos de tal maneira que combinados, eles dão uma assertividade e uma garantia, uma qualidade muito grande para esse processo. QUIC digital. É isso é importante, porque mesmo no mundo real, né? É, é antes do do do dessas digitalizações aí, do que OIC. Você já tinha? As contas chamada conta de laranja, né? Cria isso, conta Na Na, no nome de outra pessoa. Já tinha até aquele negócio que não é, não é tão antigo assim, né? Depois da impressora 3D, os caras fraudadores é falsificar uma digital da pessoa, criava 11 digital ali em algum, em algum material sintético, né? Pra comparecer ali No No lugar da da pessoa. É bem bem interessante, é? Aqui No No, no Brasil você eu, eu, eu antes de eu fazer a pergunta, vou até colocar um caso aqui que a gente, quando fala de de inteligência artificial, de maneira geral. É, venha AA mente os chatbots, né? Eu eu até procurei aqui 111 mensagem que eu recebi de um banco digital. Não faz muito tempo, não. Eu não vou falar o nome do do banco, né? Mas é. É um banco digital que eu, eu, eu, eu normalmente eu abro várias contas em banco digital, abro pra mim, abro pra esposa, pra filha e é pra ficar experimentando e vendo o que que cada um tem de diferente? Meu primo, é é experimentar os os os aplicativos e ver como que é a experiência de usuário em cada um deles, né? E um deles que eu não estava muito feliz, ele mandou uma avaliação aqui via SMS, ó. E uma escala de 0 a 10, qual a probabilidade de você recomendar este banco a um amigo ou familiar? Ele coloca entre parenteses, zero. É pouca e 10 é muita. Aí eu digitei lá 4, aí ele respondeu, não. Conseguimos reconhecer a palavra que você enviou aí. Pediu pra eu avaliar de novo. Aí eu botei zero, aí ele colocou de novo, não reconseguimos reconhecer a palavra que você enviou. Poxa vida, o chatbot não entendeu alguma palavra? Que o usuário coloca. É é comum, né? Às vezes você elabora uma frase muito complexa, alguma coisa, ele fala, não é? Tenta reescrever isso de maneira mais simples. Tal, isso é legal. Mas esse me surpreendeu porque ele pediu um número de 0 a 10. Eu coloquei ali o numerozinho. Aí depois eu tentei. Na verdade eu tentei, eu botei o zero ali, não foi só para punir OOO bote não foi o que eu falei, pô, de repente ele só entende 0 e 10. Eu tinha colocado 4 de repente ele entende só 0 e 10. Vou colocar zero aqui para ver se ele entende. Ele também não, não captou não. Então, AAA, minha pergunta aqui é. Você. Você falou sobre o processo de QUIC, né? E você, você acredita que aqui no Brasil a gente já tem experiências bem sucedidas? Utilizando machine learning? Quais experiências? Estão mais. É, é mais avançadas, é processo de QUIC. Prevenção a fraude de cartões de identificação digital ou análise de crédito, né? A partir de. A partir de comportamento, segmentação de clientes ou os próprios chatbots? Sim, é, eu acho que você citou aí AA grande maioria dos exemplos, né? Quando quando a gente fala de análise de crédito, é. É que, na verdade, uma chilane é um nome novo pra técnicas estatísticas, algumas técnicas estatísticas que já já são usadas há décadas, né? Porque, estatístico, por exemplo, se chama de inferência. É. É a gente. Agente do do lado da ciência da cooperação, chama de machild learning, né? Mas assim, essencialmente, é quando a gente fala de uma regressão linear, múltipla. Essa logística é, a gente pode chamar, colocar um nome tanto estatístico, né? Quanto um nome de machilane ali, né? É então, é. É só para lembrar um pouco que essas técnicas elas já são aplicadas em análise de crédito. Já tem algumas décadas, né? Uhum. Claro que, à medida que a os algoritmos evoluem, você tem mais dados disponíveis. Claro que você tem que observar, é, é questões de compliance, né? De banco central, o que você pode ou não fazer com o modelo de machillane uma decisão de crédito, ela precisa ter 11, característica que é importante, que é explicabilidade. Né? Não pode ser o que a gente chama de um Black Box assim, porque é eventualmente o regulador, pode questionar, porque que você? Porque que o algoritmo negou o crédito para 11 determinado é potencial usuário ou não, então você tem que dar essa explicabilidade tem que ser o que a gente chama de modelo whtbox. Ele tem que ser explicável, né? Então, a análise de crédito é, é um problema que, na minha visão, ele, ele, ele vem a evolução já há muito tempo com prevenção a fraude é também não. Muito diferente, embora é de um ponto de vista, é digital. Ele ganhou muita força com o advento da internet, né? E, principalmente, com o advento do e-commerce. Quando a gente passou a ter Oo é transações sendo feitas com cartão não presencial, né? E aí, por conta de toda a forma como esse arranjo de pagamentos funciona, a necessidade de você evoluir uma inteligência de fraude. Ela ficou absolutamente crítica para que a gente tivesse a evolução do desse modelo de negócio do e-commerce. Né? Uhum, é AAA, é quem é. Quem viu esse surgimento do e-commerce desde o princípio é, eu me lembro da insegurança que a gente tinha de fazer uma transação, colocando a informação do nosso cartão de crédito num site, né, poxa, que que vai ser feito com essa, com essa informação? Isso pode ser fraudado ou não. Et cetera. Havia-se insegurança, portanto, houve toda uma evolução de sistemas de padrões, de de de regras de algoritmos e tudo mais para poder tornar esse ecossistema de e-commerce de fato seguro. Tá, e hoje a gente vê aí grandes marketplace, tudo mais operando, porque essa dimensão de de segurança, de prevenção, ela está muito bem. É é direcionada, né? Já já faz algum tempo. Então EE essas aplicações de kyo ICQ que a gente estava mencionando, elas diria que são talvez um pouco mais recentes, né? Mas hoje em dia a gente já tem aí tecnologia já bem evoluídas, que dão um nível de segurança, sim, é muito elevado. Para a realização desse tipo de casos de uso também, né? É isso que você mencionou, Eric? Acho que são o os os mais recorrentes, os principais, os que os que hoje a gente tem todas as condições de fazer muito bem feito. Na nas organizações pra pra gerar uma boa experiência, pro pro usuário. E o último ponto que você comentou a respeito do chatpot nessa. Esse episódio em particular que você teve, né? Eu acho que a ali a gente tem 11 situação em que aparentemente, né nos nos lembra, nos leva AA ver dessa maneira que talvez, AAA experiência do usuário, usando essa interação que se pretendeu através de uma conversa entre 11 bot e 1 e 1 ser humano ali, né? Touchpoint ela. Ela talvez ela não tenha sido. É, é desenhada a ponto de pensar numa resposta diferente do que estava se esperando e tudo mais. Me parece 11 experiência incompleta nesse sentido, né? E quando é porque? Assim AA gente fala, é dessa coisa de chat what e tudo mais é é, não é trivial a gente conseguir é desenvolver um chat, outro para que de facto ele funcione bem a ponto de simular bem uma interação próxima de uma interação humana. Né? Se tivesse um ser humano do outro lado e, em geral, boa parte do chatboard é, não funcionam bem. É e esse exemplo que você deu é perfeito para poder entender isso, porque outros aspectos mais fundamentais de prérequisito. Eles não foram é bem desenhados, não foram bem concebidos e a experiência ela, ela quebra com muita facilidade, mesmo na situação muito simples como essa que você exemplificou agora imagina você falar de casos de usos mais complexos que demandarem uma interpretação, né? Fica, fica bem mais difícil de de garantir que isso seja bem feito. Legal em relação à à análise de crédito, vou vou pegar um ponto que você falou, né? Que a análise de crédito ela pelo regulador, quando você nega crédito o seu seu modelo de análise de crédito, ele tem que ser transparente, não pode ser 11 blackbox. Deep learning, ele não cria um tipo de de blackbox quando você usa deep learning EE ele vai criando aquele. É aqueles neurônios, né? EEE eu até lembro de um exemplo aqui, acho que é do livro do do Adriano mussa também. Um exemplo de análise de crédito que ele fala que AAA máquina foi captando informações de aparelhos de celular dos dos clientes e uma informação que no fim. O banco ali que eu não lembro de de onde que era o banco, uma informação que ele. Anotou ali que era importante. É a carga de bateria do celular. Ele falou, quem não tem disciplina para carregar o celular? Tinha uma correlação muito alta com o cara que não tinha disciplina pra pagar as parcelas em dia também, né? Então, o modelo acabou identificando uma variável importante, né? Mas é uma variável esquisita, né? De porque que você negou crédito, porque ele não carrega o celular direito? Acabou a bateria, né? É? Mas OA pergunta aqui é só assim, Oo deep learning, ele não cria essas Black Box, não tem um 100, sim. Quando a gente fala em black learning, nós estamos falando de. De algoritmos de Marcel learning baseados em redes neurais, né? EE? Por design, algoritmos baseados em redes neurais é eles não. Eles são black boxes. Hum, né? Você, você não é, é, é, é fica fácil entender a diferença quando a gente compara, por exemplo, com o modelo de regressão emotivariada, o modelo de regressão logística. Você nesse segundo caso, o modelo de regressão você tem uma equação, então você, você tem lá cada Coincidente, cada variável e você entende o peso de cada variável na decisão final, que é tomada pelo modelo. Quando a gente fala de modelos de rede de redes neurais em geral e deep learning em particular, você não tem essa equação, né? Oo analista, o desenvolvedor ali, o cientistas de dados, ele não consegue, é, é, ele não consegue. Quer dizer, de uma maneira analítica é, é como aquela decisão foi tomada, né? Entretanto, dá para dá para fazer é, você consegue usar algumas técnicas? Você não transforma aquele blackbox exatamente no White box. Seria 11? Equação logística, né? Pra na pra prevenção de inadimplência ou uma regressão multi variável, você não consegue fazer isso, mas. Você consegue dar dar uma ideia de importância de variáveis? Qual variável for mais importante aí, pegando esse teu exemplo, a gente consegue mensurar o quanto que essa informação do nível da carga de celular afetou AA decisão do modelo você consegue alguma quantificação disso, né? E tem abordagens também que você faz uma espécie de uma engenharia reversa desse blackbox. Como se fosse um próximo desse Black Box. Ele é mais simples, ele não tem um desempenho tão assertivo em termos de apurar-se e outras métricas de interesse ali de avaliação. Desempenho desse algoritmo, mas ele meio que faz uma engenharia reversa EE ele explica melhor como a as decisões são tomadas com base naquelas variáveis disponíveis. Muito bom. Só mais 2 perguntinhas pra pra te fazer aqui. AA. Na verdade tem, teria um Monte, né? Mas vamos resumir a 2 aqui é? Eu perguntei sobre as aplicações mais comuns, o que que já tem no Brasil? Tal é, tem alguma coisa que você já viu em outros países? É algo que é pouco explorado no Brasil ou mesmo que você viu de forma incipiente pra e você percebeu que falou, pô, isso aqui no Brasil tem oportunidade, isso aqui não tem gente trabalhando ainda, tem alguma coisa nesse nesse sentido? Acho que tem um. Tem um caso muito legal que é o da, é uma plataforma de crowdfunding nos Estados Unidos de 11 startup, chamada prosper. Prosper, DOT com é um case muito legal, porque uma como é uma plataforma de crowdfunding, o que que ele faz? Ele conecta pessoas que têm recursos pra poder emprestar dinheiro, ele e conecta pessoas que têm necessidade de tomar dinheiro, dinheiro emprestado, então são empréstimos, microempréstimos. A gente tá falando de valores mais baixos, né? EE eles fizeram 111 desenvolvimento muito interessante e tem até um artigo que foi publicado. Um dos autores é um professor da da Columbia Business School, chamado odead next. EE é um artigo muito bacano, que conta 11, aplicação de machill e exatamente para esse caso de uso de análise de crédito, né? Então a pessoa chega para tomar um empréstimo ali EE. Ali eles resolveram. Um caso muito interessante, que é o seguinte, nos Estados Unidos, para você tomar emprestado, é muito importante que a pessoa tenha um esporte de crédito, não é o score da fiko é o famoso score de crédito da fipo. EE fica muito difícil você tomar empréstimo se você não tem, é esse score. Só que fica um pouco. O problema do ovo da galinha, né? Como? Como que eu vou tomar o meu primeiro empréstimo se eu não tenho o score da fipo ainda? Porque eu não tomei emprestado? Então assim, eles apresentaram uma solução bacana pra é pessoas é que estão começando, é a sua vida financeira, pra é? É imigrantes, minorias que não tinham acesso AAA, serviços de bancos e tudo mais, né? Serem pessoas mais desbancarizadas, né? Então, de certo, de certa maneira, é uma forma de você, usando algoritmos, você promover um acesso, talvez mais democratizar. E o que que eles fizeram? É, é quando você vai tomar o empréstimo na plataforma, está logo no início, quando você entra no site, você preenche ali um texto, né? Tem até ali uma caixinha de texto, você explicando, você explica, olha. É. É pra que que você precisa daquele dinheiro? Você dá um racional ali, explicando por que que você é está buscando aquele empréstimo e por que que você se acha um bom pagador? Então é um textinho curtinho, um parágrafo curto ali. E você usando o machline, você consegue extrair informação e melhora muito a sua capacidade de prever se você está diante de um bom pagador ou de um mau pagador, é o artigo explica como esse trabalho foi feito por machilane. E ele chega a algumas conclusões interessantes, que é o seguinte, a 11. Pessoa tem uma diferença 78 vezes de probabilidade, inadimplência e um mau pagador. Ele tende muito a. A adotar 11 estilo de de escrita de textos de de de justificativa por empréstimo muito, muito no sentido. AA pessoa dá a impressão que ela está suplicando por aquele dinheiro. Ah, por favor, eu preciso muito, blá, blá, blá, né? Esse tipo de coisa EE aí tem, tem uma outra, um outro estilo de discurso também que aparece ali, que é quando a pessoa é, recorre muito AA expressões e conceitos como fé, Deus, né? Então um pouco aquele Ah, Deus vai me ajudar a pagar um empréstimo, né? Então isso já é uma indicação de um de uma alta probabilidade, inadimplência, então esse artigo do odet netsner que é esse professor da coluna de Business cool em conjunto com outros 2 pesquisadores. Explica, é como eles construíram esse algoritmo e eles até mensuram ali uma melhoria de cerca de 10% No No no bottom line, no Painel da operação, quando eles passaram a usar esse algoritmo, né? Eles conseguiram dar mais crédito para quem era para quem não tinha, por exemplo, o score da fiple, né? Porque é, conseguia extrair uma informação de qualidade a respeito de probabilidade de inadimplência só com texto que o usuário preenchia ali no momento. Então esse é um case bem bacana dos Estados Unidos, por exemplo, e que tem um potencial enorme. Se a gente pensar no caso do Brasil, uhum, super, super bacana, bem legal mesmo. E. Por onde um estudante deveria começar pra trabalhar com machine learning, vão vai estudar programação por por onde um estudante deveria começar? Essa. Essa pergunta é bem interessante, né? É. Susana e machillane é é muito importante que esse candidato, esse estudante, ele sim, ele precisa gostar de programação, né? Você tem 2 linguagem de programação que são importantes hoje em dia nesse mundo, né? Que tem 11 relevância maior, primeiro o Python, né? Eu precisaria não só gostar de programação, mas aprender a programar em Python, que é uma linguagem. Tem uma curva de aprendizado aí, é, é talvez o mais fácil que outras linguagens do que é positivo assim muda. Assim muda a linguagem de programação. É r, né? Então essas 2 linguagens é, se for para dar preferência, recomendaria a Python, né? É para estudar programação. É, precisa ter alguma afinidade com com matemática, porque ciência da comunicação é uma subárea da da matemática, né? Então quando você fala de algoritmos e pra pra pra poder escrever algoritmos e tudo mais. Eu acho que facilita muito e tem que lembrar o seguinte, Eric é hoje em dia é quando a gente pensa em pyton OR tem é que são. É linguagens open source, ou seja, você não paga nada pra pra poder usar essas linguagens. E elas são repletas de de tukites de ferramentas desses algoritmos, né? O esse estudante, esse candidato, ele não precisa se preocupar em escrever os algoritmos em si, né? Ele vai aprender a usar a linguagem de programação e ele precisa aprender a pilotar esses pacotes, né? A parte de visualização. Na minha visão, ele precisa também estudar estatística que né, saber fazer boas análises, univariadas análises bivariadas multivariadas, porque essa é a fundação. Então, se você não sabe fazer isso bem, talvez você não pilote bem os os algoritmos é mais, é interessantes aí de de machine learning, né? É EE lembrando que tipicamente em projetos de machine. Entre 6070, às vezes 80% do tempo, é você trabalhando com dados. Hum, é identificando Fontes de dados, é fazendo a limpeza de dados, é verificando a qualidade dos dados. É trabalhando com o que a gente chama de engenharia de Future. O que que é? É engenharia de futuro é você criar variáveis a partir de variáveis existentes, né? É você pensar em processos de transformações de variáveis que criem novas variáveis. Pode trazer uma informação que não estava revelada No No conjunto inicial de dados, né? Então, essas atividades elas consomem 70 a 80% de um projeto completo de marcelana. Então aquele tempo mesmo você vai sentar no computador para treinar o algoritmo, ele tende a ser 11 parte pequena. Do todo de um projeto que tem essa complexidade. E às vezes, é em muitas situações, na vida real, na vida prática que você não tem a variável que você precisa. E aí você precisa é ir lá com o pessoal de produto e negociar e convencer. Por que que você precisa daquela variável pra resolver uma determinado problema? Um caso de uso, né? Então a habilidade de negociação, aí ela. Ela é importante também legal, cara, muito bom conversar com o cara que ainda, além de ser profissional experiente, é professor também, né? Foi bem didático, aí bem direto nos pontos bem bem legal. Obrigadão Sandro. Obrigado, Eric, foi um prazer rever você e a oportunidade de falar um pouco sobre esse tema que é muito bacana. Maravilha, valeu.

Machine Learning com Sandro Manteiga - Fintechs e Inovação

Transcrição

Conhecimento

OkCompliance

Ajuda