Correct opzetten van een DBT ?

Started by htlucky, June 25, 2014, 23:48:06

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

htlucky

Stel je hebt twee toestellen. Een toestel speelt beduidend beter dan een ander wanneer dit niet blind getest wordt en meerdere luisteraars zijn het daar over eens. Om alle twijfel en discussie weg te nemen, wil je onomstotelijk wetenschappelijk onderbouwd bewijs dat dit ook effectief het geval is.

Hoe zet je zo'n een blinde test op ?

Wat moet je dan precies doen om het bewijs te leveren dat dit ook zo effectief is ? Hoe groot moet je groep of luisterpanel minimaal zijn ? Welke effectgrootte moet je behalen om tot een correct bewijs te komen dat een toestel effectief beter is dan een ander ?

Het doel is dus niet beide toestellen uit mekaar te houden, maar effectief ook te bewijzen dat een toestel beter klinkt dan een ander.

morca

Quote from: htlucky on June 25, 2014, 23:48:06
Stel je hebt twee toestellen. Een toestel speelt beduidend beter dan een ander wanneer dit niet blind getest wordt en meerdere luisteraars zijn het daar over eens. Om alle twijfel en discussie weg te nemen, wil je onomstotelijk wetenschappelijk onderbouwd bewijs dat dit ook effectief het geval is.

Hoe zet je zo'n een blinde test op ?

Wat moet je dan precies doen om het bewijs te leveren dat dit ook zo effectief is ? Hoe groot moet je groep of luisterpanel minimaal zijn ? Welke effectgrootte moet je behalen om tot een correct bewijs te komen dat een toestel effectief beter is dan een ander ?

Het doel is dus niet beide toestellen uit mekaar te houden, maar effectief ook te bewijzen dat een toestel beter klinkt dan een ander.
Denk hoe je het ook doet,het vetgedrukte krijg je in ieder geval gratis erbij  ;D

Former member 78

De luisteraars mogen niet weten en zien wat er speelt ;)
Ik heb 2x zo'n test gedaan, en geloof mij... Het is verdomde lastig, zonder de oogjes...


htlucky

Zonder op de exacte details in te gaan heb ik een streaming toestel ontworpen wat vrij betaalbaar is t.o.v. zeer duur spul, denken we aan Lumin en Aurender.

In niet blinde testen zijn de eerste reacties dat ons toestel andere toestellen ongeacht de prijsklasse wegspeelt. Recent o.a. een Koreaanse streamer van >4000 euro met een lineaire voeding werd gewoon weggespeeld, en die had talrijke 6moons prijzen binnengehaald. Maar dit is uiteraard subjectief en geen keihard bewijs.

Het idee is, als iemand zwart op wit kan bewijzen dat hij alsnog een betere streamer of muziekserver kan laten horen ongeacht de prijsklasse, ik daar een leuk bedrag wil tegenover zetten, maar dan moet het bewijs wel op wetenschappelijke basis geleverd worden. Want anders kan iedereen de test winnen, neem een paar vrienden mee die meespelen en ze gaan ermee lopen. Anderzijds kan ik moeilijk bij elke concurrent een demo aanvragen en dan vergelijken. Ik zet liever dus een challenge op.

Een beetje wat James Randi doet met zijn 10.000 $ kabelchallenge.

Ik wil het voor streamers opzetten, wie een klankmatig betere streamer kan laten horen en dit ook bewijzen, wil ik een James Randi achtige prijs op plakken.
Maar hoe zet je dit op? Wanneer kan iemand precies zulk bewijs leveren .... als mensen zich aanbieden moeten ze uiteraard akkoord gaan met het protocol.

Skepp heeft ook zoiets, je kan 25.000 euro winnen, maar uiteraard moet je dan volgens hun stramien een bewijs leveren ...

http://skepp.be/nl/prijzen

Ik wil zoiets voor streamers doen, maar hoe zet je dit op ?

AbZ

#4
Dubbelblind:  proefpersonen en mensen die de test uitvoeren mogen niet weten wat er speelt
voordat de proefpersonen in een trial (poging) een oordeel geven.

Bewijs:  'wetenschappelijk' gaat om een mate van aannemelijkheid boven redelijke twijfel.
(Audiofielen zijn niet redelijk wanneer dit hen kan doen twijfelen.)

Je hebt hiervoor statistiek nodig:  je doet een voorspelling en stelt een redelijke grens aan de kans dat het resultaat toeval is.  Bij perceptie-onderzoek is een grens van 5% vrij algemeen geaccepteerd.  Er is een voorspelling en een minimum aantal trials nodig voor statistisch toetsen.  In dit geval is de voorspelling "beter" (niet alleen "anders") dus dan moet je eenzijdig toetsen:  het effect gaat een bepaalde kant op.

http://nl.wikipedia.org/wiki/Significantie
QuoteSignificantie is een term uit de statistiek die aangeeft of aangenomen kan worden dat een waargenomen effect wel of niet door toeval is ontstaan. Men spreekt van een significante uitkomst als deze uitkomst in sterke mate de veronderstelling ondersteunt dat het waargenomen effect niet door toeval is ontstaan, maar door iets anders.

Van belang is dat deze term alleen gebruikt mag worden na het evalueren van een voorspelling. Men mag bijvoorbeeld niet na het overschakelen op een ander merk autobanden achteraf tevreden vaststellen dat deze "significant" langer meegaan dan het oude merk.
http://nl.wikipedia.org/wiki/Statistische_toets
enzovoort.

Wat ook nog handig is, al gebeurt het zelden:  ff nadenken hoe jij "beter" definieert en operationaliseert, dwz welke vraag ga je aan de proefpersonen stellen? (Moeten ze iedere keer een cijfer geven, of zeggen "X is beter dan Y", ...?) Dit is niet altijd zo simpel als het lijkt en maakt wel uit voor je toetsing.

blueray

Quote from: htlucky on June 25, 2014, 23:48:06
Het doel is dus niet beide toestellen uit mekaar te houden, maar effectief ook te bewijzen dat een toestel beter klinkt dan een ander.
Bewijzen dat een toestel beter klinkt lijkt me vrij onmogelijk met een abx. Wat beter is, is immers puur subjectief. Dus als ik consequent apparaat a beter beoordeel en Piet vindt b beter, zou je dus geen effect hebben. Je zou dus slechts 1 persoon op basis van zijn voorkeuren voldoende trials moeten laten doen en steeds laten beoordelen welk apparaat hij beter vindt. Maar ik vermoed dat die persoon dat vrij snel zat wordt en bij pak em beet trial 5 niet meer goed kan onderscheiden. Of je moet er zeer ruim de tijd voor nemen.

Maar geobjectiveerd vaststellen of mensen echt verschillen kunnen horen is al heel wat, daar kan je zoals abz aangeeft  als de luisteraars ongeveer gelijke luistervermogens hebben in theorie verschil mee vaststellen als je voldoende trials laat doen door meerdere personen.
Revel m105/adi rme 2 dac/ncore iom amp/Nuc i3 Roon server

AbZ

#6
(verhuisd)

AbZ

Quote from: blueray on June 26, 2014, 11:21:01
Bewijzen dat een toestel beter klinkt lijkt me vrij onmogelijk met een abx. Wat beter is, is immers puur subjectief.
Kwestie van definitie...
en je moet natuurlijk wel snappen wat een ander bedoelt.
Subjectief betekent niet:  ontoetsbaar.

blueray

In theorie heb je gelijk, maar als ik de terminologie zie waarmee mensen hun luisterervaringen beschrijven en apparaten beoordelen (en de meningsverschillen daarover), ('meer zwart', 'muzikaler', 'meer transparantie'), is dit best een hele dobber. Als je het tot eenvoudige aspecten beperkt zoals hoog/laagweergave kan je het net zo goed of beter gewoon meten.
Revel m105/adi rme 2 dac/ncore iom amp/Nuc i3 Roon server

AbZ

#9
Quote from: blueray on June 26, 2014, 11:27:44
In theorie heb je gelijk, maar als ik de terminologie zie waarmee mensen hun luisterervaringen beschrijven en apparaten beoordelen (en de meningsverschillen daarover), ('meer zwart', 'muzikaler', 'meer transparantie'), is dit best een hele dobber. Als je het tot eenvoudige aspecten beperkt zoals hoog/laagweergave kan je het net zo goed of beter gewoon meten.
Dit is gelul want niet beargumenteerd.
Je hebt het hele forum voor dit soort gelul maar in dit board gaat het om argumenten.

Het feit dat iets ingewikkeld is (of lijkt) betekent niet dat je het niet kunt onderzoeken.

blueray

Wat een overdreven reactie... ik geef alleen aan dat ik denk dat het ingewikkeld is om tot een intersubjectieve beoordeling van kwaliteit te komen, zeker gezien de aard van de verschillen die bij dit soort apparaten vaak worden genoemd. Maar jij denkt daar anders over, prima. Dan nog lijkt het mij raadzamer om eerst maar eens vast te stellen of mensen uberhaupt verschil horen tussen apparaat a en b. Daarna kan je alsnog kijken of de kwaliteit ook systematisch anders wordt beoordeeld.
Revel m105/adi rme 2 dac/ncore iom amp/Nuc i3 Roon server

AbZ

Quote from: blueray on June 26, 2014, 11:41:45
Wat een overdreven reactie... ik geef alleen aan dat ik denk dat het ingewikkeld is om tot een intersubjectieve beoordeling van kwaliteit te komen, zeker gezien de aard van de verschillen die bij dit soort apparaten vaak worden genoemd. Maar jij denkt daar anders over, prima. Dan nog lijkt het mij raadzamer om eerst maar eens vast te stellen of mensen uberhaupt verschil horen tussen apparaat a en b. Daarna kan je alsnog kijken of de kwaliteit ook systematisch anders wordt beoordeeld.
Ik zie dat je niet hebt gelezen of niet hebt begrepen wat ik al schreef over toetsen.
Dat houdt het natuurlijk wel een beetje op.

AbZ

#12
(niet meer van toepassing)

blueray

Quote from: AbZ on June 26, 2014, 11:43:22
Ik zie dat je niet hebt gelezen of niet hebt begrepen wat ik al schreef over toetsen.
Dat houdt het natuurlijk wel een beetje op.
Mijn punt betreft inderdaad niet het toetsen, dat is basisstatistiek en ik bestrijd je uitleg daarover ook niet dus ik begrijp je narrige reacties eerlijk gezegd niet. Mijn punt is alleen dat je naar mijn mening (ook) moet nadenken over hoe je kwaliteitsbeoordeling betrouwbaar en valide meet, juist omdat (mijn) ervaring is dat mensen daar heel verschillend over kunnen denken als het om audio gaat. TS wil immers wetenschappelijk verantwoord meten en dan is je meetinstrument cruciaal. Acceptabel perceptieonderzoek op andere terreinen maakt in principe gebruik van gevalideerde schalen die vaak uit meerdere items bestaan, anders krijg je garbage in, garbage out bij het toetsen doordat je niet weet wat je meet.  Voor kwaliteitsbeoordeling van audioapparaten bestaan voor zover ik weet geen erkende schalen, maar als die wel bestaan, zou ik daar gebruik van maken. Wat hier wel meewerkt is dat de onderzoeksgroep het blijkbaar niet-blind al eens is over het kwaliteitsverschil en dus blijkbaar vergelijkbare maatstaven hanteert, ongeacht wat die maatstaven zijn.
Revel m105/adi rme 2 dac/ncore iom amp/Nuc i3 Roon server

AbZ

#14
Quote from: blueray on June 26, 2014, 11:41:45Dan nog lijkt het mij raadzamer om eerst maar eens vast te stellen of mensen uberhaupt verschil horen tussen apparaat a en b.
Daarna kan je alsnog kijken of de kwaliteit ook systematisch anders wordt beoordeeld.
Dit zijn dus twee verschillende vraagstellingen.  Mij gaat het om de vraag van de TS.

Jouw reactie is imho vreemd (overigens wel typisch audiofiel) omdat je de mogelijkheid dat de test iets oplevert bij voorbaat betwist.  Waarom?  Dit wijst erop dat je niet snapt wat zo'n experiment inhoudt.  Als het niets oplevert dan merk je dat immers vanzelf.  Daar is zo'n experiment nu juist voor bedoeld.

blueray

Nogmaals: ik suggereer enkel om ook het meetinstrument voor 'ervaren kwaliteit' in de discussie te betrekken en probeer daarmee TS te ondersteunen die om een gedegen onderzoeksopzet vraagt. Een gedegen onderzoek staat of valt met hoe je de data verzamelt/meet voordat je er  statistiek op loslaat, dat is hoofdstuk 1 in elk methodologieboek. Als dat meetinstrument er is, kan het onderzoek uiteraard valide en dus verdedigbare uitkomsten opleveren over ervaren verschillen in kwaliteit, dus (ook) dat bestrijd ik niet. Ik houd het verder voor gezien, want we schijnen elkaar niet te begrijpen.
Revel m105/adi rme 2 dac/ncore iom amp/Nuc i3 Roon server

AbZ

Je hebt twee soorten cola, je vraagt duizend mensen welke lekkerder is, ze antwoorden A of B,
je hebt een binomiale verdeling, doet de toetsing... 
en het maakt daarbij helemaal niets uit hoe ingewikkeld of subjectief het concept "lekker" is.

Ejorne

Quote from: blueray on June 26, 2014, 16:53:15
Ik houd het verder voor gezien, want we schijnen elkaar niet te begrijpen.

Jullie begrijpen elkaar vermoedelijk wel, het doel van sommige discussievoerders is ligt gewoon ergens anders dan bij het onderwerp zelf...  :-X :P

AbZ

Quote from: Ejorne on June 26, 2014, 16:56:27het doel van sommige discussievoerders is ligt gewoon ergens anders dan bij het onderwerp zelf...  :-X :P
Dat blijkt wel weer uit jouw bijdrage.

morca

Je meet niet altijd verschil terwijl dit er wel is.
Of dit  in alle gevallen zo is durf ik niet te zeggen,.
Maar meten is weten is vaak als basis goed.
Maar je oren zullen je het uiteindelijke resultaat moeten vertellen.
Dus voor de test..........laat dat meten lekker weg en zorg dat je goeie testpersonen hebt.

AbZ

#20
Quote from: morca on June 26, 2014, 17:08:59
Je meet niet altijd verschil terwijl dit er wel is.
Men meet niet altijd verschil waar men denkt dat het is...
of het is er niet, voorzover men kan met de meting vaststellen.


morca

Quote from: AbZ on June 26, 2014, 17:11:03
Men meet niet altijd verschil waar men denkt dat het is...
of het is er niet, voorzover men kan vaststellen.
In mijn geval was het er 100 % zeker,maar daar moet eerst een test voor komen want op papier schijnt dat niet te kunnen. :)
Toch horen Jeroen en ik duidelijk verschil,
Ben wel benieuwd wat voor streamer de TS gemaakt heeft.......

AbZ

Tja dan was de meting niet geschikt of niet precies genoeg.  Kan gebeuren.

Voordeel van testen met mensen is natuurlijk dat het op gehoor gebeurt.

morca

Meting was zeer goed Abz,maar op papier kan er geen verschil zijn volgens de techneuten.
Er is duidelijk wel verschil dus je hebt je bij te techneuten geschaard,vaak niet percies genoeg voor een goeie test...jammer.

Voordeel van testen met mensen is dat die verschil horen tussen 2 dezelfde metingen.
Maar ach ik heb nog maar zo weinig sub,s gebouwd dat ik het nog niet helemaal snap denk ik.
En al die tevreden vrienden ook niet......

Maar volgens mij weet jij ook best beter Abel,dus ik ga hier verder niet op in....topicvervuiling met me sub,s  ;D

AbZ

Het ging hier toch over wat mensen horen en niet over meten?