Optimizing Legal Processes Using AI and Data: Damien Riehl

In this conversation, Damien Riehl, VP, Solutions Champion at vLex, takes us on a journey through his unique experiences at the intersection of law, data science, and AI. From his foundational work in cybersecurity investigations with Facebook to pioneering the use of data tagging and AI in legal workflows, he reveals the tangible ways that data analytics, KPIs, and AI models are reshaping the legal industry. 


Full Transcription

 English | Spanish | Portuguese

Can you share your first experience with data analytics and how analyzing legal data helps executive decision-making? (00:02:16)

So, part of my background is I used to work for a cybersecurity company, and my biggest thing was that Facebook hired me and my company to investigate Cambridge Analytica. I worked with some of the best data scientists in the world, and part of data science is trying to figure out what matters for the procedure you're trying to do. What is the goal you're trying to achieve? What data points are needed to achieve that goal? So that is really what KPIs are, generally, to be able to say, what are the key performance indicators? What are the tags? Then once you have that, tag up the trusted truth, the source data, and the trusted data. And then once it's tagged up, you could run analytics on those. Analytics may be on a spreadsheet, analytics on Tableau. And then once those analytics are run, you need to interpret those analytics and be able to say, what do the numbers mean? So, step one, tag up the data. Step two, analyze the data. Step three, interpret that data.

 

Can you share your first experience in using data for decision-making in the legal department? (00:03:18)

Yeah. You can imagine there are two types of data that legal departments really care about. One is substantive law. I want to find all the motions to dismiss for breach of contract in the Southern District of New York. Or I want to find all the merger agreements with force majeure clauses in the European Union. Each of these is a SALI tag, where you could be able to say, Now we can extract all the motions to dismiss for breach of contract. Now we can extract all the merger agreements for the force majeure clauses. So, every in-house law department and law firm is really looking for this data. Everyone I've worked with says, Yeah, we'd love to be able to see how many times we've done this type of matter in this location with these types of players. Of course, you need to figure out what those tags will be. And that's what SALI provides. We provide 18,000 tags, everything that matters to substantive law and to the business of law. Because you also want to tag up, is this an hourly matter or is this a flat fee matter? If it's an hourly matter, was there a collared rate? Was there a maximum rate? Each of these is a tag that you'll want to be able to do to slice and dice the data later on. So, we cover substantive law and the business of law. Once you do that, then you can do your key performance indicators. Because if you present hundreds of them, how do you know which one
 

With so many available metrics, how do you identify the most important KPIs to the general counsel? (00:04:33)

It's true. I've had literally thousands now of conversations with in-house counsel, law departments, law firm counsel, and everyone else. Every time they say, Well, it depends, and that's the lawyer's favorite statement, It depends. I say, On what? And then whatever that comes out of their mouth, I add that to SALI, the legal data standard. And now that is a tag that then goes forward. So whatever it says it depends on, is the thing we should be counting. Sometimes it depends on a substantive matter, breach of contract, or motion to dismiss. Sometimes a motion to the merger agreement, forces a mature clause. Maybe it depends on that. Maybe it depends on whether is it a flat fee or an hourly fee. So, whatever the lawyer says it depends on what, add a tag for it and count it.

 

What are the potential downsides of implementing a metric in the legal department? (00:05:30)

The dark side is something that I think it's one reason people don't gravitate toward KPIs because data doesn't lie. So, one could imagine that maybe the data could show good things from me as an individual's perspective, or it might show that my portion of the organization is not doing as well as it should be doing. Knowing that in black and white is very scary. And you could imagine lawyers are not, as a species, the best at mathematics. Trusting data is not something we do innately. Especially trusting data that might reflect poorly upon what my organization and my section of that organization is doing. If there is a dark side, I would say that maybe another way to put it is it shines light on the organization. So, the darkness shows how one area of the organization may not perform as well as the organization would like. I would maybe flip that to say the dark side is actually showing light.

 

How can you pitch the business-focused approach of process optimization and technology to your general counsel? (00:06:37)

I think that we as lawyers think that the funny joke is that when all you have is a hammer, everything looks like a nail. For lawyers, the hammer is a risk. That is, what is the legal risk of doing X, Y, and Z? What is the risk of getting hauled into court? What is the risk of the regulator fining you? What is the risk of getting sued over this? What is the risk of the other person breaching the contract? The hammer we use is a risk. We don't often think about the benefits of that action. How much money can the organization make if they do this? And do those benefits, the revenue that comes from this action? Does that outweigh the risk, either monetary risk or the reputational risk, et cetera? When you talk to a general counsel within an in-house counsel, you have to quantify and classify what the risks are. Is this a legal risk? If so, is it a contract risk? Is it a regulatory risk? And then you weigh that risk, whatever that taxonomy of that risk is, against the upside. If we do do this, we can make X number of dollars.

And what is the percentage risk of getting a regulatory fine compared with that upside? And then the business people can make that decision. We, as lawyers, often are viewed, I think unfairly, as the office of no, that we just say, No, look at all these risks, without really looking at the upside of what the business can do. So, I think the best lawyers within the law departments are balancing those and saying, Yes, there is a risk, but perhaps the benefits outweigh those risks.
 

What are some cases where relying on intuition instead of data and KPIs led to negative consequences? (00:08:09)

I have an anecdote that someone told me from a law department that I think it's akin to what you're saying, where they were talking about this risk, that there's a very big risk of this happening, the lawyer says. And the businessperson says, well, how big of a risk is it? And the lawyer said, really a lot. And then the lawyer said, okay, how many times have we done this thing in the past? And the person said, A thousand. And how many times have we been dinged regulatorily for this thing? And the lawyer said, once. So, the businessperson said, Wait, you're telling me the risk is one in one thousand? He said, now that I've quantified that, that is a risk I'm willing to take. So really, if you just say the risk is high, but what is high? If you say the risk is one in one thousand, that is now quantitative that the businessperson can, rather than using ANNEC data, it's very high. They can use real data to be able to do an assessment of data-driven decision-making. I think that's what the best law departments are thinking, quantitatively tag up all the times we've done the matter, tag up all the times we've been dinged by a regulator, and all the bad things that have happened.

Now we can have a number associated with that risk, a percentage risk, and then we can make better business decisions.
 

How can legal operations professionals use data to shift from reactive litigation management to proactive compliance and prevention? (00:09:27)

I'm going to use the example from my friend Jason Bardenwell for Microsoft. He told me what he had planned to do. He's now in a different position within Microsoft, but while he was working with legal operations at Microsoft, his plan, and I think he achieved this plan to a great extent, was that every time a business person asked a question, he wanted to be able to tag up that question. What type of question was it? Is it a patent question, a trademark question, copyright question? So, you tag it up, perhaps with SALI tags for that. And then if we push it to the in-house law department and they answer the question, now that answer is tagged up. If that law department cannot answer it and they have to push it to external counsel, then the external counsel does work and then gives the output of that, then tags up that output, too. So, then the next time six months from now, a business person has a similar patent question related to this area of patent law. These are all now tagged up. So, you can more easily take that trusted data and be able to answer the business person's question, perhaps without even having an in-house law department do it, and certainly without going externally and spending the money for the external legal spend.

So, once you can quantify the data, and tag up the data, then that can be a flywheel to be able to accelerate business so that businesspeople don't have to wait even for the in-house lawyer to get back to them. They could just use the self-serve device to be able to do that themselves.
 

How do you address concerns about AI and convince senior management to adopt it despite job security fears? (00:10:54)

 That's a really hard question, largely because I think everyone does worry about losing jobs. We've seen jobs being migrated historically. People who made horse whips don't work anymore. So, the technology moves on. So how much will AI take our jobs? No one really knows. That's a valid fear, will AI take my job? If I were to console that person, I would say that there's an old joke that people... AI will not eat your job, but people who use AI will eat the jobs of people who do not use AI. That's an old joke. A better joke, though, that I've heard, it's not a joke, but is the truth, is that AI will take your job, but it will take the worst, most drudgery-laden parts of your job and leave you for only the best parts of your job to go for it. No one likes to be able to collect data from various spreadsheets. No one likes to try to search control F on a PDF for that portion of the PDF that really answers your question. That's drudgery. The best part of the job is then doing the analysis of that and then being able to talk with the stakeholders to be able to say, Here's the situation, here's perhaps paths that we can go down, and here's maybe the best decision we can make.

This human communication, hopefully, will never go away with AI because you need face-to-face, like you and I are face-to-face right now, to be able to communicate and communicate my idea and get that idea into your brain. That is next to impossible for a machine to effectively get it into your brain. We need human connections. So the person that's worried about AI taking their job, saying, focus less on the control F on the PDF and trying to assemble all the data. Let the AI do that. Focus more on communication between stakeholders and being able to say, Let's get to the right decision together. And that is a very human thing.
 

What are the advantages of using general LLMs to review legal data and spot unusual patterns? (00:12:49)

So, what you've asked is really related to what's called a mixture of models, a mixture of experts, because really, what is the law? First, the law is just words. For every single task a lawyer does, we ingest words, we analyze words, and we output words. That's every single task for a litigator, transaction lawyer, regulatory lawyer, et cetera. Those words relate to two aspects of those words. One aspect is fact, the other aspect is law, cases, statutes, regulations, et cetera. So, the large language models like GPT-4 and the general large language models know a lot about facts because they know the world. They've ingested the Internet, and all the books, so they know all about the world. Imagine if there were a separate large language model that knows all the law, that it hasn't been ingested in some of the worst parts of the Internet, like Twitter and Reddit, like GPT-4 was, but it's instead ingested cases, statutes, regulations, and all of dot gov, the entire federal government, every regulatory agency, every executive order. Imagine if the large language foundational model was trained on just the law.

Imagine since everything in the law is applying facts to the law, using this to analyze the facts, and then this to analyze the law, and have those two models work together. That's the great promise of... It turns out that this model of the law exists. It's called KL3M. That's spelled K-L-3-M. And it turns out that this legal foundational model is free, open source. We just did, literally yesterday, it was announced by the ALEA Institute, A-L-E-A Institute, that I'm a board member of. It is now free. Anyone who wants this foundational model based on cases, statutes, and regulations, and all of the federal government's websites can do that. The beautiful thing about this combination of ALEA KL3M as a legal foundational model and something like GPT-4 is that you can then use the best of both worlds because KL3M has a lot of facts, too. KL3M has the recipe for Turducken from the US Department of Agriculture. This has the recipe for Turducken, the Department of... So, combining those, you can use the massive reasoning capabilities of GPT-4, along with the legal-specific capabilities of the legal large language model.
 

How can combining different AI models improve the quality of outputs? (00:15:08)

There's a method that we use at vLex, Others may be used, too. But you can imagine model number one gives you an answer. And then you ask model number two, how good or bad was that answer? So, this goes to agentic reasoning. You're going to hear more about agents if you haven't already. Microsoft, OpenAI, Google, Anthropic. Everyone is talking about agents. What an agent is, is you give the agent a goal. I want you to create a business. And then the large language models, agents, go around and you have a marketing agent, a sales agent, a business development agent that all achieve this goal on their own. In the same way, you could have a drafting agent to be able to say, Here's a draft of the thing. Then you have an editor agent to be able to say, How good or bad was that draft? Then maybe you could have a third Large Language Model, essentially Are you critiquing that? This is an adversarial process, much like a human. I'm a lawyer associate, and then my partner edits my work. Then we go back and forth and do the same thing with large language models.

You can imagine GPT-4 draughts the thing, and then KL3M analyzes the thing based on the law. And then we have a dialog back and forth between these two. And then you come up with the best of both worlds. You have the knowledge of the world, and you have the knowledge of the law that they can bounce ideas off each other and then get you a bit better output.
 

What role could a specialized data analytics model play in legal business processes and risk assessment? (00:16:33)

I think the future is not large language models or traditional symbolic AI, that is data analytics, but I think it's the combination of those two things. Really, to be able to answer business questions, not just legal questions, but business questions, too, you need to, like I said earlier, tag up all that data because the Large Language Model, if you ask a Large Language Model out of the box, Create me a business plan, without putting anything into the Large Language Model, it's going to give you a crappy business plan. But if you instead say, Here are the metrics for my business over the last five years. Here are the ways that we've succeeded. Here's the way that we've failed. Here are the ways that our competitors have done things. And if you put those into the Large Language Model, then the Large Language Model is going to be much better at saying, Here's maybe a good business plan based on history. How do you get this trusted data to do this? And the way you get the trusted data is you retrieve it in a way that is systemic. The way you retrieve it is you have to tag up all of these things.

What are the aspects of the business that matter? Put a tag on that matter, and then you take those documents, and then you can compile those documents in a way that is helpful to the Large Language Model. So it's not Large Language Models or traditional analytics. It's both. In traditional analytics, you might have an output as rows and columns in a spreadsheet or maybe graphs, but then interpreting those data is traditionally hard. What does that graph mean? What do the rows and columns mean? And that's where large language models can help. They could be able to take this graph and say, Show me trends. Why should it matter? Here is my Q3, or Here's all of my SEC reports. Tell me how these graphs are going to increase my disclosure requirements for the SEC example. This is the way the large language models shine, if based on grounded data. You need the grounded data, well-tagged, well-structured data for the large language model to work with. That would be great to have that combination happen.
 

What is your advice for new legal operations professionals? (00:18:31)

I think these are extraordinary times for humanity and particularly extraordinary times for legal operations. Because now, you as a legal operations professional, can be able to essentially see whatever matters and be able to more effectively and more quickly make change based on what matters. When I worked at Thomson Reuters, my job as a lawyer, and subject matter expert, was to be able to create requirements to say this software needs to do these 10 things. And then I would give those requirements to a software developer, and then they would make the thing maybe months later. Today, those 10 requirements that I have is a prompt. It is easy. You don't need the software developers. You just need to be able to say, here are the 10 things that I need. So once you've identified those, now being able to extract those from the data is easier than ever. So for legal operations professionals, contact your stakeholders. Every time a lawyer says, It depends, say, On what? Write it down.

Then tag it up in your data and let the Large Language Models go through it. When they say, It depends, you say, On what? You write it down. Use the large language model take that list of 10 things and say, based on these 10 things, what are maybe 100 other things that might also be helpful that are along these lines? Get that list of 100, curate that, and now you have a really good list of things to tag up. Now that you've tagged them up, run them through your database and say, show me all the places where those things that matter show up. And if you want to use SALI, we've already got 18,000 of those tags. So the things that your lawyer said depend on, we probably already have. To the extent your lawyers don't already have it, tell me, and I'll add it to SALI. So this is a virtuous cycle of being able to find everything that matters to substantive law and the business of law, tag it up, and let the large language models reason with it. 

 

Expert Bio

Damien Riehl is a lawyer and technologist with experience in complex litigation, digital forensics, and software development. A lawyer since 2002 and coder since 1985, Damien clerked for the chief judges of state and federal courts, practiced in complex litigation for over a decade, has led teams of cybersecurity and world-spanning digital forensics investigations, and has built AI-backed legal software.

Co-Chair of the Minnesota Governor’s Council on Connected and Automated Vehicles, he is helping recommend changes to Minnesota statutes, rules, and policies — all related to connected and autonomous vehicles. Damien is Chair of the Minnesota State Bar Association's AI Committee, which oversees an AI Sandbox to promote Access to Justice (A2J).

At SALI, the legal data standard, Damien built and greatly expanded the taxonomy of over 18,000 legal tags that matter, helping the legal industry's development of Generative AI, analytics, and interoperability.

At vLex Group — which includes Fastcase, NextChapter, and Docket Alarm — Damien helps lead the design, development, and expansion of various products, integrating AI-backed technologies (e.g., GPT) into a billion-document dataset from 100+ countries, all to improve legal workflows.

“This guy [Damien] rocks!” - Elon Musk


 

Transcripción Completa

¿Puedes compartir tu primera experiencia con el análisis de datos y cómo el análisis de datos legales ayuda en la toma de decisiones ejecutivas? (00:02:16)

Sí, parte de mi experiencia es que solía trabajar para una empresa de ciberseguridad. Y lo más importante fue que Facebook me contrató y mi empresa para investigar Cambridge Analytica. Así que trabajé con algunos de los mejores científicos de datos del mundo. Y parte de la ciencia de datos es tratar de averiguar qué importa para el problema para el procedimiento que está intentando realizar, cuál es el objetivo que está intentando y qué datos se necesitan para alcanzarlo. Así que, en general, eso es lo que son los KPI, poder decir, ¿cuáles son los indicadores clave de resultados? Entonces, una vez que tienes esa etiqueta, la verdad de confianza, los datos de origen, los datos de confianza y, una vez etiquetados, podría ejecutar analíticas sobre esas analíticas, quizá en una hoja de cálculo, analíticas en Tableau. Y una vez que se han ejecutado esos análisis, hay que interpretarlos y poder decir, ¿qué significan los números? Primer paso: etiquetar los datos. Segundo paso: analizar los datos. Tercer paso: interpretar esos datos.

 

¿Puedes compartir tu primera experiencia usando datos para la toma de decisiones en el departamento legal? (00:03:18)

Por lo tanto, cabe imaginar que los departamentos jurídicos disponen de dos tipos de datos. se preocupan. Uno es el derecho sustantivo. Quiero encontrar todas las mociones de desestimación por incumplimiento de contrato en el Sur Distrito de Nueva York, o quiero encontrar todos los acuerdos de fusión con fuerza cláusulas de fuerza mayor en la Unión Europea. Así que cada uno de estos es una etiqueta SALI donde usted podría ser capaz de decir, ahora podemos extraer todas las mociones desestimadas por incumplimiento de contrato. Ahora podemos extraer todos los acuerdos de fusión para las cláusulas de fuerza mayor. Así que cada departamento jurídico interno, cada bufete de abogados, es realmente buscando estos datos. Todos con los que he trabajado dicen, sí, nos encantaría poder ver cuántas veces hemos hecho este tipo de asunto en este lugar con este tipo de jugadores. Por supuesto, tienes que averiguar cuáles serán esas etiquetas. Y eso es lo que ofrece SALI. Ofrecemos 18.000 etiquetas, todo lo que importa al derecho sustantivo y al derecho mercantil. Porque también quieres etiquetar, ¿es un asunto de horas o se trata de un asunto de tarifa plana? Si se trata de un asunto por horas, ¿había una tarifa por cuello? ¿Existe una tasa máxima? Cada una de estas es una etiqueta que querrás poder hacer para trocear los datos más adelante. Así que cubrimos el derecho sustantivo y el negocio del derecho. Una vez hecho esto, podrás elaborar tus indicadores clave de rendimiento.

 

Con tantas métricas disponibles, ¿cómo identificas los KPIs más importantes para el director legal? (00:04:33)

Eso es verdad. Así que he tenido literalmente miles de conversaciones ahora con en casa abogados, departamentos jurídicos, consejos de bufetes y todos los demás. Y cada vez dicen, bueno, depende. Y esa es la declaración favorita del abogado, ¿verdad? Depende, ¿verdad? Digo, ¿de qué? Y lo que salga de su boca, lo añado a SALI, la norma de datos legales. Y ahora esa es una etiqueta que luego va hacia adelante. Así que lo que dice que depende es lo que debemos contar. Así que a veces depende de una cuestión de fondo, incumplimiento de contrato, moción de desestimación. A veces es el acuerdo de fusión de movimiento, vota su cláusula. Pero quizá dependa de eso. Quizá dependa de si se trata de una tarifa plana o por horas. Así que lo que diga el abogado, depende de lo que añadir una etiqueta para él y contando.

 

¿Cuáles son las posibles desventajas de implementar una métrica en el departamento legal? (00:05:30)

Sí, el lado oscuro es algo que creo que es una razón la gente no gravita hacia los KPI, porque los datos no mienten. Así que uno podría imaginar que tal vez los datos podrían mostrar cosas buenas desde mi perspectiva como individuo. O podría mostrar que mi parte de la organización no es tan bien como debería. Saberlo en blanco y negro da mucho miedo. Y cabe imaginar que los abogados no son, como especie, los mejores en matemáticas. Es cierto, confiar en los datos no es algo innato. Y así, especialmente confiando en los datos que podrían reflejar mal sobre lo que mi organización y mi sección de esa organización. Así que si hay un lado oscuro, yo diría que tal vez otra manera de decirlo es que arroja luz sobre la organización. Así que la oscuridad está mostrando cómo un área de la organización tal vez no está funcionando como a la organización le gustaría. Así que yo diría que el lado oscuro está mostrando la luz.

 

¿Cómo puedes presentar el enfoque orientado al negocio de la optimización de procesos y tecnología a tu director legal? (00:06:37)

Creo que nosotros, como abogados, pensamos que el chiste gracioso es que, cuando todo lo que tienes es un martillo, todo se ve como un clavo. Para los abogados, el martillo es el riesgo. Es decir, ¿cuál es el riesgo legal de hacer X, Y y Z? ¿Cuál es el riesgo de que te lleven a juicio? ¿Cuál es el riesgo de que el regulador te imponga una multa? ¿Cuál es el riesgo de que te demanden por esto? ¿Cuál es el riesgo de que la otra parte incumpla el contrato? El martillo que usamos es el riesgo. No pensamos frecuentemente en los beneficios de esa acción. ¿Cuánto dinero podría ganar la organización si hace esto? ¿Y esos beneficios, los ingresos que provienen de esta acción, superan el riesgo, ya sea riesgo monetario o de reputación, etcétera? Cuando hablas con un asesor general o un abogado interno, tienes que cuantificar y clasificar cuáles son los riesgos. ¿Es un riesgo legal? Si es así, ¿es un riesgo contractual? ¿Es un riesgo regulatorio? Y luego ponderas ese riesgo, cualquiera que sea la clasificación de ese riesgo, en comparación con el beneficio potencial. Si hacemos esto, podemos ganar X cantidad de dólares.

¿Y cuál es el porcentaje de riesgo de recibir una multa regulatoria en comparación con ese beneficio? Entonces, los responsables del negocio pueden tomar esa decisión. Nosotros, como abogados, a menudo somos vistos, creo que injustamente, como la oficina del "no," que solo decimos: "No, mira todos estos riesgos," sin realmente considerar los beneficios de lo que el negocio podría lograr. Por lo tanto, creo que los mejores abogados dentro de los departamentos legales equilibran esos aspectos y dicen: "Sí, hay un riesgo, pero quizás los beneficios superen esos riesgos."

 

¿Cuáles son algunos casos en los que confiar en la intuición en lugar de en datos y KPIs resultó end consecuencias negativas? (00:08:09)

Tengo una anécdota que alguien me contó de un departamento legal que creo que se parece a lo que estás diciendo. Estaban hablando de un riesgo, diciendo que hay un riesgo muy grande de que esto suceda, comenta el abogado. Y la persona de negocios le pregunta: "Bueno, ¿qué tan grande es ese riesgo?" Y el abogado dice: "Realmente mucho." Entonces el abogado pregunta: "Ok, ¿cuántas veces hemos hecho esto en el pasado?" Y la persona responde: "Mil veces." "¿Y cuántas veces hemos recibido una sanción regulatoria por esto?" Y el abogado dice: "Una sola vez." Así que la persona de negocios dice: "Espera, ¿me estás diciendo que el riesgo es de uno en mil?" Y agrega: “Ahora que lo he cuantificado, ese es un riesgo que estoy dispuesto a asumir.” Entonces, realmente, si solo dices que el riesgo es alto, ¿qué significa ‘alto’? Si dices que el riesgo es de uno en mil, ahora es una cifra cuantitativa que la persona de negocios puede usar, en lugar de depender de datos imprecisos, como "es muy alto." Pueden usar datos reales para hacer una evaluación que apoye una toma de decisiones basada en datos. Creo que eso es lo que los mejores departamentos legales están pensando: cuantificar todas las veces que hemos hecho el asunto, cuantificar todas las veces que hemos recibido una sanción por parte de un regulador y todas las cosas negativas que han ocurrido.

Ahora podemos tener un número asociado a ese riesgo, un porcentaje de riesgo, y así podemos tomar mejores decisiones de negocio.

 

¿Cómo pueden los profesionales de operaciones legales usar datos para pasar de la gestión reactiva de litigios a la conformidad y prevención proactiva? (00:09:27)

Voy a usar el ejemplo de mi amigo Jason Bardenwell de Microsoft. Él me contó lo que planeaba hacer. Ahora está en una posición diferente dentro de Microsoft, pero mientras trabajaba en operaciones legales allí, su plan, y creo que logró implementarlo en gran medida, era que cada vez que una persona de negocios hiciera una pregunta, él pudiera etiquetar esa pregunta. ¿Qué tipo de pregunta es? ¿Es una pregunta sobre patentes, una sobre marcas comerciales, una sobre derechos de autor? Así que, se etiqueta, quizás usando etiquetas SALI para eso. Luego, si se envía la pregunta al departamento legal interno y ellos la responden, esa respuesta también queda etiquetada. Si el departamento legal no puede responderla y tienen que derivarla a un asesor externo, entonces el asesor externo realiza el trabajo, da el resultado y también etiqueta ese resultado. De esta manera, la próxima vez que, dentro de seis meses, una persona de negocios tenga una pregunta similar sobre patentes relacionada con esta área de la ley de patentes, todo esto ya está etiquetado. Así, puedes tomar esa información confiable y responder la pregunta de la persona de negocios, tal vez sin que el departamento legal interno tenga que intervenir, y ciertamente sin tener que recurrir a un asesor externo, ahorrando así los costos legales externos.

Entonces, una vez que puedes cuantificar los datos y etiquetarlos, esto puede convertirse en un motor que acelere el negocio, de modo que las personas de negocios no tengan que esperar ni siquiera a que el abogado interno les responda. Podrían simplemente usar un dispositivo de autoservicio para hacerlo ellos mismos.

 

¿Cómo abordas las preocupaciones sobre la IA y convences a la alta dirección de adoptarla a pesar de los temores sobre la seguridad laboral? (00:10:54)

Esa es una pregunta muy difícil, en gran parte porque creo que todos nos preocupamos por perder nuestros trabajos. Hemos visto cómo, históricamente, se han perdido empleos. Las personas que hacían látigos para caballos ya no trabajan en eso. Así que la tecnología avanza. ¿Cuántos empleos va a reemplazar la inteligencia artificial? Nadie lo sabe realmente. Es un miedo válido: ¿la IA tomará mi trabajo? Si tuviera que consolar a esa persona, le diría que hay un viejo chiste que dice... la IA no se comerá tu trabajo, pero las personas que usan IA sí se comerán los trabajos de las personas que no la usan. Ese es un chiste viejo. Un mejor "chiste", aunque no es un chiste, sino una realidad, es que la IA sí tomará tu trabajo, pero tomará las partes peores y más tediosas de tu trabajo y te dejará solo las mejores para que puedas aprovecharlas. A nadie le gusta recopilar datos de varias hojas de cálculo. A nadie le gusta buscar con control F en un PDF la sección que realmente responde a tu pregunta. Eso es tedioso. La mejor parte del trabajo es luego hacer el análisis de eso y poder hablar con las partes interesadas para decir: "Esta es la situación, aquí están los posibles caminos que podemos seguir, y tal vez esta sea la mejor decisión que podemos tomar."

Esta comunicación humana, esperemos, nunca desaparecerá con la IA, porque se necesita estar cara a cara, como estamos tú y yo ahora, para poder comunicar mis ideas y lograr que esa idea entre en tu mente. Eso es casi imposible para una máquina que intente comunicarlo efectivamente. Necesitamos conexiones humanas. Así que, para la persona que está preocupada por la IA tomando su trabajo, le diría: concéntrate menos en hacer control F en el PDF o en tratar de reunir todos los datos. Deja que la IA haga eso. Enfócate más en la comunicación entre las partes interesadas y en poder decir: "Lleguemos juntos a la mejor decisión." Y eso es algo muy humano.

 

¿Cuáles son los beneficios de usar modelos de lenguaje general (LLMs) para analizar datos legales e identificar anomalías con perspectivas de diversas industrias? (00:12:49)

Entonces, lo que has preguntado está realmente relacionado con lo que se llama una mezcla de modelos, una mezcla de expertos, porque, ¿qué es realmente la ley? Primero, la ley son solo palabras. Para cada tarea que realiza un abogado, absorbemos palabras, analizamos palabras y producimos palabras. Esto aplica a cada tarea, ya sea para un litigante, un abogado transaccional, un abogado regulatorio, etcétera. Esas palabras se relacionan con dos aspectos: uno es el hecho, y el otro es la ley, casos, estatutos, regulaciones, etcétera. Los modelos de lenguaje grandes como GPT-4 y otros modelos generales conocen mucho sobre hechos porque conocen el mundo. Han absorbido Internet y todos los libros, por lo que saben mucho sobre el mundo. Imagina si existiera un modelo de lenguaje grande independiente que conociera toda la ley, que no hubiera sido entrenado en algunas de las partes menos útiles de Internet, como Twitter o Reddit, como GPT-4, sino que hubiera absorbido casos, estatutos, regulaciones, y todo el contenido de los sitios gubernamentales (.gov), todo el gobierno federal, cada agencia reguladora, cada orden ejecutiva. Imagina si el modelo de lenguaje se entrenara solo con la ley.

Imagina que, dado que todo en la ley consiste en aplicar los hechos a la ley, usas este modelo para analizar los hechos y este otro para analizar la ley, y haces que esos dos modelos trabajen juntos. Esa es la gran promesa de... Resulta que este modelo de la ley existe. Se llama KL3M, deletreado K-L-3-M. Y resulta que este modelo fundacional legal es gratuito y de código abierto. Literalmente ayer, el Instituto ALEA, A-L-E-A Institute, del cual soy miembro de la junta, anunció que ahora es gratuito. Cualquiera que quiera este modelo fundacional basado en casos, estatutos, regulaciones y todos los sitios web del gobierno federal puede acceder a él. Lo hermoso de esta combinación del modelo legal fundacional ALEA KL3M y algo como GPT-4 es que puedes utilizar lo mejor de ambos mundos. KL3M también tiene muchos conocimientos de hechos. KL3M incluso tiene la receta del "Turducken" del Departamento de Agricultura de los Estados Unidos. Así que, combinando estos dos, puedes aprovechar las capacidades de razonamiento masivo de GPT-4 junto con las capacidades específicas legales del modelo de lenguaje grande especializado en derecho.

 

¿Cómo puede la combinación de diferentes modelos de IA mejorar la calidad de los resultados? (00:15:08)

Hay un método que usamos en vLex, aunque otros pueden usar otros métodos. Pero puedes imaginar que el modelo número uno te da una respuesta. Luego, le preguntas al modelo número dos qué tan buena o mala fue esa respuesta. Esto se relaciona con el razonamiento agentivo. Vas a escuchar más sobre agentes, si no lo has hecho ya. Microsoft, OpenAI, Google, Anthropic, todos están hablando de agentes. Un agente es básicamente una entidad a la que le das un objetivo, como “Quiero que crees un negocio.” Luego, los modelos de lenguaje grandes, actuando como agentes, se dividen en roles: tienes un agente de marketing, un agente de ventas, un agente de desarrollo de negocio, todos trabajando para lograr este objetivo de manera autónoma. De manera similar, podrías tener un agente de redacción que diga, "Aquí tienes un borrador de esto." Luego, un agente editor que evalúe qué tan bueno o malo fue ese borrador. Y podrías tener un tercer modelo de lenguaje grande que actúe como crítico. Este es un proceso adversarial, parecido a cómo trabajamos los humanos. Soy un abogado asociado, y luego mi socio revisa mi trabajo. Vamos y venimos en un intercambio, y podríamos hacer lo mismo con modelos de lenguaje grandes.

Puedes imaginar a GPT-4 redactando algo y luego a KL3M analizando el contenido basado en el derecho. Entonces, tenemos un diálogo entre estos dos modelos. Al final, obtienes lo mejor de ambos mundos: el conocimiento general y el conocimiento especializado en derecho que se complementan entre sí, lo que te da un resultado mucho mejor.

 

¿Qué papel podría desempeñar un modelo de análisis de datos especializado en los procesos comerciales legales y la evaluación de riesgos? (00:16:33)

Creo que el futuro no está en los modelos de lenguaje grandes o en la IA simbólica tradicional, es decir, en el análisis de datos, sino en la combinación de ambas cosas. Realmente, para poder responder a preguntas de negocios, no solo preguntas legales, sino también comerciales, es necesario, como mencioné antes, etiquetar todos esos datos. Si le pides a un modelo de lenguaje grande, sin ningún contexto, "Crea un plan de negocios," probablemente te dé un plan de negocios deficiente. Pero, si en cambio le proporcionas las métricas de tu negocio de los últimos cinco años, los éxitos y fracasos, y los enfoques de tus competidores, entonces el modelo de lenguaje grande podrá ofrecerte un plan de negocios mucho mejor basado en el historial. ¿Cómo obtienes estos datos confiables para lograr esto? La forma de obtener estos datos confiables es recuperarlos de manera sistemática. Tienes que etiquetar todos estos elementos. ¿Cuáles son los aspectos del negocio que importan? Etiqueta esos aspectos y luego compila esos documentos de una manera que sea útil para el modelo de lenguaje grande. Así que no se trata de elegir entre modelos de lenguaje grandes o análisis tradicionales; se trata de combinar ambos.

En el análisis tradicional, puedes obtener resultados en filas y columnas en una hoja de cálculo o quizás gráficos, pero interpretar esos datos puede ser complicado. ¿Qué significa ese gráfico? ¿Qué representan esas filas y columnas? Y ahí es donde los modelos de lenguaje grandes pueden ayudar. Podrían tomar ese gráfico y decirte, "Muéstrame tendencias. ¿Por qué debería importarme?" Aquí está mi informe de Q3 o todos mis reportes para la SEC. "Dime cómo estos gráficos van a impactar en mis requisitos de divulgación para la SEC," por ejemplo. Así es como brillan los modelos de lenguaje grandes, si están basados en datos fundamentados. Necesitas datos bien estructurados y bien etiquetados para que el modelo de lenguaje grande funcione de manera efectiva. Sería ideal contar con esa combinación.

 

¿Cuál es tu consejo para los nuevos profesionales de operaciones legales? (00:18:31)

Creo que estos son tiempos extraordinarios para la humanidad y, en particular, tiempos extraordinarios para las operaciones legales. Porque ahora, como profesional de operaciones legales, puedes ver todo lo que importa y realizar cambios de manera más efectiva y rápida en función de lo que realmente importa. Cuando trabajaba en Thomson Reuters, mi trabajo como abogado y experto en la materia era crear requisitos y decir: este software necesita hacer estas 10 cosas. Luego, le daba esos requisitos a un desarrollador de software, y ellos lo implementaban quizás meses después. Hoy en día, esos 10 requisitos que tengo son un simple "prompt" o instrucción. Es fácil. No necesitas a los desarrolladores de software. Solo necesitas decir: aquí están las 10 cosas que necesito. Entonces, una vez que has identificado esos requisitos, ahora extraerlos de los datos es más fácil que nunca. Para los profesionales de operaciones legales, contacten a sus partes interesadas. Cada vez que un abogado diga: "Depende," pregúntenle, "¿De qué depende?" y anótenlo.

Luego, etiqueten esa información en sus datos y dejen que los modelos de lenguaje grandes los procesen. Cuando digan, "Depende," ustedes preguntan, "¿De qué depende?" lo anotan. Usen el modelo de lenguaje grande para tomar esa lista de 10 cosas y pedirle que, en función de esas 10, genere tal vez 100 otras que también podrían ser útiles. Obtengan esa lista de 100, refínenla, y ahora tienen una excelente lista de cosas para etiquetar. Ahora que las han etiquetado, pásenlas por su base de datos y pidan que les muestre todos los lugares donde aparecen esas cosas que importan. Y si desean usar SALI, ya tenemos 18,000 de esas etiquetas. Entonces, para las cosas de las que su abogado dice que "depende," probablemente ya las tengamos. En la medida en que sus abogados no las tengan, díganme y las agregaré a SALI. Este es un ciclo virtuoso de poder encontrar todo lo que importa para el derecho sustantivo y el negocio del derecho, etiquetarlo y dejar que los modelos de lenguaje grandes lo procesen.

 

Biografía del Experto

Damien Riehl es un abogado y tecnólogo con experiencia en litigios complejos, informática forense y desarrollo de software. Abogado desde 2002 y programador desde 1985, Damien fue asistente de los jueces principales de tribunales estatales y federales, ejerció en litigios complejos durante más de una década, ha liderado equipos de ciberseguridad e investigaciones de informática forense a nivel mundial, y ha desarrollado software legal respaldado por IA.

Como copresidente del Consejo del Gobernador de Minnesota sobre Vehículos Conectados y Automatizados, está ayudando a recomendar cambios en los estatutos, reglas y políticas de Minnesota, todo relacionado con vehículos conectados y autónomos. Damien es presidente del Comité de IA de la Asociación de Abogados del Estado de Minnesota, que supervisa un "Sandbox de IA" para promover el Acceso a la Justicia (A2J).

En SALI, el estándar de datos legales, Damien construyó y expandió considerablemente la taxonomía de más de 18,000 etiquetas legales relevantes, contribuyendo al desarrollo de la industria legal en IA Generativa, análisis e interoperabilidad.

En vLex Group —que incluye a Fastcase, NextChapter y Docket Alarm— Damien ayuda a liderar el diseño, desarrollo y expansión de varios productos, integrando tecnologías respaldadas por IA (por ejemplo, GPT) en un conjunto de datos de mil millones de documentos de más de 100 países, todo para mejorar los flujos de trabajo legales.

"¡Este tipo [Damien] es increíble!" - Elon Musk


 

Transcrição Completa

Você pode compartilhar sua primeira experiência com análise de dados e como a análise de dados jurídicos ajuda na tomada de decisões executivas? (00:02:16)

Então, parte do meu histórico é que eu costumava trabalhar para uma empresa de cibersegurança, e o meu maior projeto foi que o Facebook contratou a mim e à minha empresa para investigar o caso Cambridge Analytica. Trabalhei com alguns dos melhores cientistas de dados do mundo, e uma parte importante da ciência de dados é tentar entender o que importa para o procedimento que você está tentando realizar. Qual é o objetivo que você quer alcançar? Quais pontos de dados são necessários para atingir esse objetivo? Isso é basicamente o que os KPIs são, em geral: indicadores-chave de desempenho. Quais são as tags? Depois que você as tem, etiquete a verdade confiável, a fonte de dados e os dados confiáveis. E uma vez que estão etiquetados, você pode rodar análises sobre esses dados. Análises podem ser em uma planilha, análises no Tableau. E então, depois que essas análises são feitas, é necessário interpretá-las e ser capaz de responder: o que esses números significam? Então, passo um, etiquetar os dados. Passo dois, analisar os dados. Passo três, interpretar esses dados.

 

Você pode compartilhar sua primeira experiência usando dados para a tomada de decisões no departamento jurídico? (00:03:18)

Sim. Você pode imaginar que existem dois tipos de dados que os departamentos jurídicos realmente valorizam. Um é o direito substantivo. Quero encontrar todas as moções para rejeitar por quebra de contrato no Distrito Sul de Nova York. Ou quero encontrar todos os contratos de fusão com cláusulas de força maior na União Europeia. Cada um desses é uma tag SALI, onde você poderia dizer: "Agora podemos extrair todas as moções para rejeitar por quebra de contrato." "Agora podemos extrair todos os contratos de fusão com cláusulas de força maior." Então, todos os departamentos jurídicos internos e escritórios de advocacia estão realmente buscando esses dados. Todos com quem trabalhei dizem: “Sim, adoraríamos poder ver quantas vezes fizemos esse tipo de caso nesta localidade com esses tipos de envolvidos.” Claro, é necessário definir quais serão essas tags. E é isso que a SALI oferece. Fornecemos 18.000 tags, tudo o que importa tanto para o direito substantivo quanto para os negócios do direito. Porque você também quer etiquetar, por exemplo, se esse é um caso com cobrança por hora ou uma taxa fixa. Se for por hora, houve uma taxa máxima? Houve uma taxa limitada? Cada um desses é uma tag que você vai querer usar para poder organizar os dados depois. Assim, cobrimos o direito substantivo e os negócios do direito. Uma vez feito isso, você pode definir seus indicadores-chave de desempenho (KPIs). Porque se você apresenta centenas deles, como sabe qual deles realmente importa?

 

Com tantas métricas disponíveis, como você identifica os KPIs mais importantes para o diretor jurídico? (00:04:33)

É verdade. Já tive literalmente milhares de conversas com advogados internos, departamentos jurídicos, advogados de escritórios e todos os demais. Sempre que eles dizem "Bem, depende" – e essa é a frase favorita dos advogados, "Depende" – eu pergunto "Depende de quê?" E então, o que quer que saia da boca deles, eu adiciono ao SALI, o padrão de dados jurídicos. E agora isso se torna uma tag que passa a ser usada. Então, seja lá do que dependa, é o que deveríamos estar contabilizando. Às vezes, depende de uma questão substantiva, como quebra de contrato ou uma moção para rejeitar. Outras vezes, pode ser uma cláusula de força maior em um contrato de fusão. Talvez dependa disso. Talvez dependa de se é uma taxa fixa ou uma taxa horária. Portanto, qualquer coisa que o advogado diga que depende de algo, adicionamos uma tag para isso e contabilizamos.

 

Quais são as possíveis desvantagens de implementar uma métrica no departamento jurídico? (00:05:30)

O lado sombrio, acho eu, é uma das razões pelas quais as pessoas não se sentem atraídas pelos KPIs, porque os dados não mentem. Então, pode-se imaginar que os dados poderiam mostrar coisas positivas sobre mim, sob a perspectiva individual, ou poderiam mostrar que a minha parte da organização não está indo tão bem quanto deveria. Saber disso, com clareza, é algo assustador. E você pode imaginar que advogados, como categoria, não são os melhores em matemática. Confiar em dados não é algo que fazemos de forma natural. Especialmente confiar em dados que possam refletir negativamente sobre o desempenho da minha organização ou da minha área dentro dessa organização. Se existe um lado sombrio, eu diria que talvez outra maneira de vê-lo é que ele ilumina a organização. Assim, essa "escuridão" mostra como uma área da organização pode não estar funcionando tão bem quanto se gostaria. Talvez eu inverteria isso e diria que o lado sombrio, na verdade, está trazendo luz.

 

Como você pode apresentar o enfoque voltado para negócios de otimização de processos e tecnologia ao seu diretor jurídico? (00:06:37)

 Acho que nós, como advogados, vemos como uma piada aquela ideia de que, quando tudo o que você tem é um martelo, tudo parece um prego. Para os advogados, o martelo é o risco. Ou seja, qual é o risco legal de fazer X, Y e Z? Qual é o risco de ser levado ao tribunal? Qual é o risco de o regulador aplicar uma multa? Qual é o risco de ser processado por isso? Qual é o risco de a outra parte romper o contrato? O martelo que usamos é o risco. Raramente pensamos nos benefícios dessa ação. Quanto dinheiro a organização pode ganhar se fizer isso? E esses benefícios, a receita que vem dessa ação, superam o risco, seja risco monetário ou de reputação, etc. Quando você conversa com o consultor jurídico interno, é preciso quantificar e classificar os riscos. Esse é um risco jurídico? Se sim, é um risco contratual? É um risco regulatório? E então você pondera esse risco, seja qual for a classificação desse risco, em relação ao benefício. Se fizermos isso, podemos ganhar X valor em dólares.

E qual é o percentual de risco de receber uma multa regulatória em comparação com esse benefício? Então, as pessoas de negócios podem tomar essa decisão. Nós, como advogados, muitas vezes somos vistos, acho que injustamente, como o escritório do "não", como se só disséssemos: "Não, olhe todos esses riscos," sem realmente considerar o lado positivo do que o negócio pode fazer. Portanto, acredito que os melhores advogados dentro dos departamentos jurídicos estão equilibrando esses fatores e dizendo: "Sim, há um risco, mas talvez os benefícios superem esses riscos."

 

Quais são alguns casos em que confiar na intuição em vez de dados e KPIs resultou em consequências negativas? (00:08:09)

Tenho uma anedota que alguém do departamento jurídico me contou e que acho que se assemelha ao que você está dizendo. Eles estavam falando sobre esse risco, dizendo que há um risco muito grande de isso acontecer, afirmou o advogado. E a pessoa de negócios perguntou: "Bem, quão grande é esse risco?" E o advogado respondeu: "Realmente muito grande." Então o advogado perguntou: "Quantas vezes já fizemos isso no passado?" E a pessoa respondeu: "Mil vezes." "E quantas vezes recebemos uma penalidade regulatória por isso?" O advogado respondeu: "Uma vez." Então a pessoa de negócios disse: "Espere, você está me dizendo que o risco é de um em mil?" E concluiu: “Agora que quantifiquei, esse é um risco que estou disposto a correr.” Então, realmente, se você simplesmente diz que o risco é alto, mas o que significa 'alto'? Se você diz que o risco é de um em mil, isso agora se torna uma informação quantitativa que a pessoa de negócios pode usar, em vez de depender de uma percepção subjetiva de que é "muito alto". Eles podem usar dados reais para fazer uma avaliação e uma tomada de decisão baseada em dados. Acho que é isso que os melhores departamentos jurídicos estão considerando: quantificar todas as vezes que fizemos essa atividade, quantificar todas as vezes que fomos penalizados por um regulador e todos os problemas que ocorreram.

Agora podemos ter um número associado a esse risco, uma porcentagem de risco, e assim tomar melhores decisões de negócios.

 

Como os profissionais de operações jurídicas podem usar dados para passar da gestão reativa de litígios para a conformidade e prevenção proativa? (00:09:27)

Vou usar o exemplo do meu amigo Jason Bardenwell, da Microsoft. Ele me contou o que planejava fazer. Agora ele está em uma posição diferente dentro da Microsoft, mas enquanto trabalhava com operações jurídicas lá, seu plano — e acho que ele conseguiu implementá-lo em grande medida — era que, toda vez que uma pessoa de negócios fizesse uma pergunta, ele pudesse etiquetar essa pergunta. Que tipo de pergunta era? Era uma pergunta sobre patentes, marcas registradas, direitos autorais? Então, você etiqueta, talvez usando as tags SALI para isso. E depois, se essa pergunta for encaminhada para o departamento jurídico interno e eles a responderem, essa resposta também é etiquetada. Se o departamento jurídico interno não puder responder e tiver que encaminhar para um advogado externo, o advogado externo realiza o trabalho, entrega o resultado e também etiqueta essa saída. Assim, da próxima vez, daqui a seis meses, se uma pessoa de negócios tiver uma pergunta similar sobre patentes relacionada a essa área do direito de patentes, tudo isso já estará etiquetado. Dessa forma, você pode acessar esses dados confiáveis mais facilmente e responder à pergunta da pessoa de negócios, talvez sem nem precisar do departamento jurídico interno, e certamente sem recorrer a serviços externos, economizando o custo com assessoria jurídica externa.

Assim, uma vez que você consegue quantificar e etiquetar os dados, isso pode se tornar um motor para acelerar o negócio, de forma que as pessoas de negócios não precisem esperar sequer pelo retorno do advogado interno. Elas poderiam simplesmente usar uma ferramenta de autoatendimento para resolver isso por conta própria.

 

Como você aborda as preocupações sobre a IA e convence a alta administração a adotá-la, apesar dos temores relacionados à segurança no emprego? (00:10:54)

Essa é uma pergunta realmente difícil, principalmente porque acho que todos se preocupam com a possibilidade de perder o emprego. Vimos historicamente empregos sendo migrados. As pessoas que fabricavam chicotes para cavalos não trabalham mais nisso. A tecnologia avança. Então, quanto a IA vai substituir nossos empregos? Ninguém sabe ao certo. Esse é um medo válido: a IA vai tirar meu emprego? Se eu fosse consolar essa pessoa, diria que há uma piada antiga: a IA não vai tirar o seu emprego, mas as pessoas que usam IA vão tirar os empregos das pessoas que não a utilizam. Essa é uma piada antiga. Uma piada melhor, que não é bem uma piada, mas uma verdade, é que a IA vai sim tirar o seu emprego, mas ela vai tirar as partes piores e mais tediosas do seu trabalho e deixar você apenas com as melhores partes para aproveitar. Ninguém gosta de coletar dados de várias planilhas. Ninguém gosta de ficar procurando com o "control F" em um PDF para encontrar aquela parte que realmente responde à sua pergunta. Isso é tedioso. A melhor parte do trabalho é então fazer a análise e poder conversar com as partes interessadas para dizer: “Aqui está a situação, aqui estão os possíveis caminhos que podemos seguir, e talvez esta seja a melhor decisão que podemos tomar.”

Essa comunicação humana, espero, nunca desaparecerá com a IA, porque precisamos estar cara a cara, como estamos agora, para comunicar minha ideia e fazer com que ela chegue à sua mente. É praticamente impossível para uma máquina fazer isso de forma eficaz. Precisamos de conexões humanas. Então, para a pessoa que está preocupada com a IA tomando seu emprego, diria: concentre-se menos em fazer "control F" no PDF e tentar reunir todos os dados. Deixe que a IA faça isso. Concentre-se mais na comunicação entre as partes interessadas e em dizer: “Vamos juntos tomar a decisão certa.” E isso é algo muito humano.

 

Quais são os benefícios de usar LLMs para analisar dados jurídicos e identificar anomalias com insights de diferentes setores?(00:12:49)

Então, o que você perguntou está realmente relacionado ao que chamamos de mistura de modelos, uma mistura de especialistas, porque, afinal, o que é a lei? Primeiro, a lei são apenas palavras. Para cada tarefa que um advogado realiza, absorvemos palavras, analisamos palavras e produzimos palavras. Essa é cada tarefa para um advogado litigante, transacional, regulatório, etc. Essas palavras se relacionam a dois aspectos: um aspecto é o fato, e o outro aspecto é a lei — casos, estatutos, regulamentos, etc. Os modelos de linguagem grandes, como o GPT-4 e outros modelos gerais, sabem muito sobre fatos porque conhecem o mundo. Eles absorveram a Internet e todos os livros, então conhecem muito sobre o mundo. Imagine se houvesse um modelo de linguagem grande separado que conhecesse toda a lei, que não tivesse sido treinado em algumas das partes mais questionáveis da Internet, como Twitter e Reddit, como o GPT-4 foi, mas que, em vez disso, tivesse absorvido casos, estatutos, regulamentos e tudo de domínios .gov, todo o governo federal, cada agência reguladora, cada ordem executiva. Imagine se o modelo fundacional de linguagem fosse treinado apenas com a lei.

Imagine que, uma vez que tudo na lei envolve aplicar fatos à lei, você usasse um modelo para analisar os fatos e outro para analisar a lei, fazendo esses dois modelos trabalharem juntos. Essa é a grande promessa de… Acontece que esse modelo da lei já existe. Ele se chama KL3M, e é soletrado K-L-3-M. E, acontece que esse modelo fundacional legal é gratuito e de código aberto. Literalmente ontem, o Instituto ALEA, A-L-E-A Institute, do qual sou membro do conselho, anunciou que ele agora é gratuito. Qualquer pessoa que queira esse modelo fundacional baseado em casos, estatutos e regulamentos e em todos os sites do governo federal pode acessá-lo. A beleza dessa combinação do modelo fundacional legal ALEA KL3M com algo como o GPT-4 é que você pode então usar o melhor dos dois mundos, pois o KL3M também possui muitos fatos. O KL3M tem até a receita de Turducken do Departamento de Agricultura dos EUA. Então, combinando esses dois, você pode usar as enormes capacidades de raciocínio do GPT-4 juntamente com as capacidades específicas para o direito do modelo de linguagem grande jurídico.

 

Como a combinação de diferentes modelos de IA pode melhorar a qualidade dos resultados? (00:15:08)

Existe um método que usamos na vLex, embora outros também possam ser usados. Imagine que o modelo número um fornece uma resposta. Em seguida, você pergunta ao modelo número dois: quão boa ou ruim foi essa resposta? Isso envolve o que chamamos de raciocínio agentivo. Você vai ouvir mais sobre agentes, se ainda não ouviu. Microsoft, OpenAI, Google, Anthropic… todos estão falando sobre agentes. O que é um agente? É uma entidade a quem você dá um objetivo, como "Quero que você crie um negócio." Então, os modelos de linguagem grandes, atuando como agentes, se dividem em papéis: você tem um agente de marketing, um agente de vendas, um agente de desenvolvimento de negócios, cada um trabalhando para alcançar esse objetivo de forma autônoma. Da mesma maneira, você poderia ter um agente de redação para criar um rascunho. Depois, teria um agente editor para avaliar a qualidade desse rascunho. Talvez, você também pudesse ter um terceiro modelo de linguagem grande que essencialmente critique essa análise. Esse é um processo adversarial, muito semelhante ao que fazemos como humanos. Sou um advogado associado, e meu parceiro revisa meu trabalho. Vamos e voltamos, discutindo, e podemos fazer o mesmo com modelos de linguagem grandes.

Imagine que o GPT-4 redige um documento e, em seguida, o KL3M analisa esse documento com base na lei. Depois, esses dois modelos têm um diálogo entre si. E, no final, você obtém o melhor dos dois mundos: o conhecimento geral e o conhecimento jurídico, permitindo que eles troquem ideias e produzam uma resposta um pouco melhor.

 

Que papel um modelo especializado de análise de dados poderia desempenhar nos processos comerciais jurídicos e na avaliação de riscos? (00:16:33)

Acredito que o futuro não está nos modelos de linguagem grandes ou na IA simbólica tradicional, ou seja, na análise de dados, mas sim na combinação dessas duas coisas. Para responder a perguntas de negócios, não apenas perguntas jurídicas, mas também questões empresariais, é necessário, como mencionei antes, etiquetar todos esses dados. Porque, se você pedir a um modelo de linguagem grande, sem contexto, “Crie um plano de negócios,” ele provavelmente te dará um plano fraco. Mas, se em vez disso você disser: “Aqui estão as métricas do meu negócio nos últimos cinco anos. Aqui estão as formas em que tivemos sucesso. Aqui estão as formas em que falhamos. Aqui estão os métodos dos nossos concorrentes,” e inserir essas informações no modelo de linguagem grande, ele terá uma base muito melhor para propor um plano de negócios, agora fundamentado no histórico. Como se obtêm esses dados confiáveis? É preciso coletá-los de maneira sistemática, e para isso é necessário etiquetar todas essas informações. Quais são os aspectos do negócio que importam? Coloque uma tag nesses aspectos e, em seguida, organize esses documentos de uma forma que seja útil para o modelo de linguagem grande. Portanto, não se trata de modelos de linguagem grandes ou análise tradicional; trata-se dos dois.

Na análise tradicional, você pode ter uma saída como linhas e colunas em uma planilha ou talvez gráficos, mas interpretar esses dados tradicionalmente é difícil. O que significa esse gráfico? O que representam essas linhas e colunas? E é aí que os modelos de linguagem grandes podem ajudar. Eles poderiam pegar esse gráfico e dizer: “Mostre-me as tendências. Por que isso importa?” Aqui está meu Q3, ou “Aqui estão todos os meus relatórios para a SEC. Diga-me como esses gráficos vão impactar meus requisitos de divulgação para a SEC,” por exemplo. É assim que os modelos de linguagem grandes brilham, quando baseados em dados concretos. Você precisa de dados fundamentados, bem etiquetados e bem estruturados para o modelo de linguagem grande trabalhar. Seria ótimo ter essa combinação em ação.

 

Qual é o seu conselho para novos profissionais de operações jurídicas? (00:18:31)

Acredito que estamos vivendo tempos extraordinários para a humanidade e, particularmente, para as operações jurídicas. Porque agora, como profissional de operações jurídicas, você pode essencialmente visualizar o que importa e fazer mudanças de forma mais eficaz e rápida com base no que realmente importa. Quando trabalhei na Thomson Reuters, meu trabalho como advogado e especialista no assunto era criar requisitos para que o software fizesse essas 10 coisas. Então, eu passava esses requisitos para um desenvolvedor de software, e eles produziam o resultado, talvez, meses depois. Hoje, esses 10 requisitos que eu tinha são apenas um prompt. É fácil. Você não precisa de desenvolvedores de software. Basta você saber dizer: aqui estão as 10 coisas que eu preciso. Assim, uma vez identificadas, extrair essas informações dos dados é mais fácil do que nunca. Para os profissionais de operações jurídicas, entre em contato com as partes interessadas. Toda vez que um advogado disser “Depende,” pergunte “Depende de quê?” e anote isso.

Depois, etiquete essa informação nos seus dados e deixe os modelos de linguagem grandes trabalharem com ela. Quando disserem “Depende,” você pergunta “De quê?” e anota. Use o modelo de linguagem grande para pegar essa lista de 10 itens e peça para ele, com base nesses 10, sugerir talvez outros 100 itens que também poderiam ser úteis. Obtenha essa lista de 100, refine-a e agora você tem uma lista excelente de itens para etiquetar. Agora que você os etiquetou, insira-os em sua base de dados e solicite: “mostre-me todos os lugares onde esses itens importantes aparecem.” E se você quiser usar o SALI, nós já temos 18.000 dessas etiquetas. Portanto, para as coisas das quais seu advogado diz que “depende,” provavelmente já temos uma tag. Na medida em que os advogados ainda não tenham, me avise e eu adiciono ao SALI. Esse é um ciclo virtuoso de poder encontrar tudo o que importa para o direito substantivo e para os negócios do direito, etiquetar e deixar os modelos de linguagem grandes raciocinarem com base nisso.

 

Biografia do Expert

Damien Riehl é advogado e tecnólogo com experiência em litígios complexos, forense digital e desenvolvimento de software. Advogado desde 2002 e programador desde 1985, Damien foi assistente dos juízes-chefes de tribunais estaduais e federais, atuou em litígios complexos por mais de uma década, liderou equipes de cibersegurança e investigações de forense digital em escala global, e desenvolveu software jurídico com suporte de IA.

Como copresidente do Conselho do Governador de Minnesota sobre Veículos Conectados e Automatizados, ele está ajudando a recomendar mudanças nos estatutos, regras e políticas de Minnesota, todas relacionadas a veículos conectados e autônomos. Damien é presidente do Comitê de IA da Associação da Ordem dos Advogados do Estado de Minnesota, que supervisiona um "Sandbox de IA" para promover o Acesso à Justiça (A2J).

Na SALI, o padrão de dados jurídicos, Damien construiu e expandiu consideravelmente a taxonomia de mais de 18.000 etiquetas legais importantes, contribuindo para o desenvolvimento da IA Generativa, análises e interoperabilidade na indústria jurídica.

No vLex Group — que inclui Fastcase, NextChapter e Docket Alarm — Damien ajuda a liderar o design, desenvolvimento e expansão de vários produtos, integrando tecnologias suportadas por IA (por exemplo, GPT) em um conjunto de dados de bilhões de documentos de mais de 100 países, tudo para melhorar os fluxos de trabalho jurídicos.

"Esse cara [Damien] é incrível!" - Elon Musk


To access the complete collection of videos, metrics, and other articles, please register or log in.