Análisis de la obra de Francisco de Quevedo

Índice

Información General

Escritor:Francisco de Quevedo
Idioma:Castellano
#Palabras total:64692
#Palabras distintas:10637
Type-Token ratio:16.44%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1293557
2586946
38791303
51721627
64651898
77582163
90512385
103442608
116372836
129303041
142233247
155163432
168093689
181023891
193954084
206884254
219814444
232744650
245674827
258605003
271535166
284465347
297395534
310325714
323255871
336186035
349116171
362046286
374976452
387906591
400836755
413766921
426697123
439627347
452557581
465487788
478418065
491348232
504278377
517208568
530138783
543069061
555999301
568929510
581859727
594789891
6077110089
6206410270
6335710463
6465010628
6469210637
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.804 b = 0.739

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1y3269
2que2948
3de2839
4la1809
5en1602
6a1533
7el1480
8no1039
9con905
10los848
11por727
12las691
13me603
14se558
15lo530
16un522
17yo507
18al453
19mi404
20su382
21del382
22le360
23si336
24es318
25más314
26una308
27para299
28como282
29era247
30había211
31porque210
32él200
33qué177
34pues173
35dijo164
36ya162
37tan160
38todos157
39sus148
40todo146
41esto144
42dos144
43138
44sin135
45casa135
46bien135
47ser127
48tenía121
49ni120
50don120
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Francisco de Quevedo) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Francisco de Quevedo(64692)Resto (1601163)Dunning -2log(lambda)
md860558.844
y326954946429.961
v96123333.309
diego5669197.403
e32651182.947
dije77247164.558
pero906530150.038
yo5077070133.213
se55821056112.161
vi61257105.795
mi404581095.901
me603969793.874
diciendo8153489.372
ahora5153586.846
lisi13084.462
su3821461181.902
dinero6236478.187
ardiente296875.470
aquel26246375.183
traía4520572.924
Mostrar todo